Le projet

En 2012, une jeune secrétaire, Soazig Parassols, fait condamner la SNCF qu’elle estime responsable de son licenciement à la suite des retards récurrents de la ligne TER Ambérieu-Lyon. Afin de répondre à la croyance populaire selon laquelle les trains de la SNCF seraient toujours en retard, le groupe ferroviaire a engagé dès 2011 un processus de mise en open data de ses données. L’enjeu est colossal pour la SNCF qui est l’un des premiers groupes mondiaux de mobilité et de logistique (120 pays, 33,8 milliards d’euros en 2012).

SNCF 2017
Le trafic de la SNCF en 2017

Dans le cadre de notre projet de M1 humanités numériques, nous avons ainsi choisi d’analyser ces données et plus particulièrement les jeux de données relatifs à la régularité des trains fournis par la société de janvier 2013 à février 2019.

Comment les retards de la SNCF peuvent-ils s’expliquer et quelles en sont les conséquences pour les usagers ?

Analyser les retards de la SNCF

Caricature des retards à la SNCF

Afin de répondre au mieux à la problématique, nous avons privilégié une étude régionale des TER et Transilien ainsi qu’une étude par axe de desserte pour les TGV. Étudier des données agrégées à l’échelle d’une région permet en effet de prendre en compte l’héritage de la construction des lignes ferroviaires. Nous souhaitons d’abord traiter les données des TER et Transilien séparément, selon les régions, les saisons et les années pour voir si des schémas peuvent ressortir sur une même ligne. Nous comparons ensuite les données entre elles afin de mettre en exergue les différences ou les analogies entre les transports de la région parisienne et ceux des autres régions. Nous avons choisi d’inclure l’étude d’un jeu de données relatif aux retards sur les lignes, de TGV et OUIGO afin d’avoir une vue d’ensemble des réseaux à une échelle plus globale. Cette approche permet en effet de montrer les différences régionales au niveau des axes ainsi que du point de vue international avec les lignes Europe-TGV.

Méthodologie

Nous avons d’abord procédé à la description des jeux de données, puis nous avons construit la base de données ainsi que ses différents modèles. A partir de celle-ci nous avons réalisé des traitements statistiques sur le logiciel R, à savoir des statistiques descriptives et bi-variées autour des caractéristiques des réseaux TER et Transilien et des tables relatives à la régularité et à la ponctuelle mensuelle des quatre types de trains étudiés. Notre étude s’est ensuite concentrée sur le cadre spatiotemporel par secteurs de desserte. Enfin, les causes des retards TGV ont fait l’objet d’une analyse en composantes principales ainsi qu’une étude lexicométrique effectuée conjointement aux causes des retards TER.