Forecast and anomaly detection on time series with dynamic context. Application to the mining of transit ridership data. - IRT SystemX Accéder directement au contenu
Thèse Année : 2021

Forecast and anomaly detection on time series with dynamic context. Application to the mining of transit ridership data.

Prévision et détection d'anomalies sur des séries temporelles dans un contexte dynamique. Application à l'analyse de données d'affluence dans les transports en commun.

Kévin Pasini
  • Fonction : Auteur

Résumé

To meet the challenges of the increasing demand for mobility, environmental and economic issues, public transportation has emerged as one of the main components of sustainable urban mobility policies. Indeed, these transportation systems can carry large numbers of passengers at a reasonable economic cost and with a controlled ecological footprint. However, public transit systems today are facing unprecedented challenges to increase their attractiveness. The thesis is part of a general framework that aims at valorising the data collected on transportation infrastructure by designing analysis tools that enable the extraction of high value-added information for passengers, data analysts and transportation operators. A first exploratory analysis of real data (SNCF transilien data, and data from the Montreal metro) highlighted the scientific obstacles that this thesis has tackled. The thesis has two main components. The first concerns the short-term prediction of the passenger load in trains. The thesis introduces the usual forecasting approaches and models based on machine learning, and then identifies the specificities of the application context. The main difficulty is due to the intrinsic variability of the time series of the loads to be predicted, induced by the influence of several parameters including those related to the operation (schedule, delay, type of mission, etc.) and the context (calendar information, major events, weather, etc.). Another difficulty is related to the irregular temporal sampling of the time series to be predicted. Formalized as a problem of time series prediction with irregular sampling and evolving in a dynamic context, the thesis then focuses on the design of an encoder-predictor LSTM model capable of solving the forecasting task by dealing with these difficulties. The multi-step forecasting performances of the proposed model are compared to several machine learning models. The second part of the thesis concerns the detection of contextual anomalies on time series. The objective is the detection of the impact of the perturbations on the station ridership. An application specificity concerns the strong variability of time series which have to be considered in the detection step. The work formalizes an anomaly detection approach based on the analysis of prediction residuals normalized by a contextual variance estimated by machine learning. This approach aims at building a contextually robust anomaly score capable of qualifying the deviation in time series considering their contextual variability. The work is first evaluated on synthetic data. The approach is then applied to the actual data of station inflows. The objective is to quantify the impact of disturbances on station ridership and to detect unknown anomalies.
Pour répondre aux enjeux liés à l'augmentation de la demande de mobilité, aux problématiques environnementales et économiques, les transports en commun se sont imposés comme une des composantes essentielles des politiques de mobilité urbaine durable. Ces systèmes de transport permettent en effet de transporter un grand nombre de passagers pour un coût économique raisonnable et une empreinte écologique maîtrisée. Cependant, les réseaux de transport en commun font face aujourd’hui à des défis inédits en vue d'augmenter leur attractivité. Les travaux de cette thèse s'inscrivent dans un contexte général qui vise à valoriser des données collectées sur l'infrastructure de transport par la conception d'outils d'analyse permettant d'extraire des informations à haute valeur ajoutée à l'intention des passagers, des analystes de données et des opérateurs de transport. Une première analyse exploratoire des données réelles (données SNCF transilien, et données du métro de Montréal) a permis de mettre en exergue les verrous scientifiques auxquels cette thèse s'est attaquée. Les travaux de thèse comportent deux principaux volets. Le premier porte sur la prédiction court-terme de la charge voyageur dans les trains. La thèse introduit les approches et modèles usuels de prédiction à base d'apprentissage automatique, puis identifie les spécificités du contexte applicatif. La principale difficulté est liée à la variabilité intrinsèque des séries temporelles des charges à prédire, induite par l'influence de plusieurs paramètres dont ceux liés à l’exploitation (horaire, retard, type de mission…) et au contexte (information calendaire, grand évènement, météo, ...). Une autre difficulté est liée à l'échantillonnage temporel irrégulier des séries temporelles à prédire. Formalisé comme un problème de prédiction de séries temporelles avec un échantillonnage irrégulier et évoluant dans un contexte dynamique, la thèse s'intéresse alors à la conception d'un modèle LSTM encodeur-prédicteur capable de résoudre la tâche de prévision en faisant face à ces difficultés. Le modèle proposé est comparé à plusieurs modèles d'apprentissage automatique en se basant sur les performances de prédiction à plusieurs pas de temps. Le deuxième volet de la thèse concerne la détection d'anomalies contextuelles sur des séries temporelles. L'objectif porte sur la détection de l'impact des perturbations sur l'affluence en station. Une spécificité applicative concerne la forte variabilité des séries temporelles qui doit être prise en compte dans l'étape de détection. Les travaux formalisent une approche de détection d'anomalies basée sur l'analyse des résidus de prédiction normalisés par une variance contextuelle estimée par apprentissage automatique. Cette approche vise à construire un score d'anomalie contextuellement robuste permettant de qualifier la déviation dans les séries temporelles en tenant compte de leur variabilité contextuelle. Les travaux sont d'abord évalués sur des données synthétiques. Puis ils sont appliqués sur les données réelles d'affluences en station pour quantifier l'impact des perturbations sur l'affluence en station et de détecter des anomalies inconnues.
Fichier principal
Vignette du fichier
Thèse_PASINI.pdf (18.08 Mo) Télécharger le fichier
Origine : Fichiers produits par l'(les) auteur(s)

Dates et versions

tel-03273338 , version 1 (29-06-2021)

Identifiants

  • HAL Id : tel-03273338 , version 1

Citer

Kévin Pasini. Forecast and anomaly detection on time series with dynamic context. Application to the mining of transit ridership data.. Computer Science [cs]. Université gustave eiffel, 2021. English. ⟨NNT : ⟩. ⟨tel-03273338⟩

Collections

IRT-SYSTEMX
221 Consultations
27 Téléchargements

Partager

Gmail Facebook X LinkedIn More