Prétraitement des données

Après la suite de l’exportation depuis la base de données, les taux de ponctualités et de régularité ainsi que les pourcentages des causes de retard ont été définis en pourcentage. Or, RStudio ne peut pas traiter ce type de variables. Dans Excel, nous avons donc sélectionné les colonnes de ces variables et transformé les modalités en nombre à deux décimales (Format de cellules > Nombre > Nombre), permettant ainsi d’obtenir les fréquences de ces taux. Ceci fait, nous avons exporté les données dans des documents de format. csv.

Nous avons ensuite procédé à la factorisation des modalités dans R. En effet, les variables Année et Mois de chaque table étaient reconnues comme des nombres entiers (int) ou des nombres décimaux (num). Nous avons utilisé à ce dessein la fonction factor () qui transforme les variables quantitatives en facteurs. Afin d’avoir des résultats significatifs, nous avons choisi de transformer en pourcentage les fréquences obtenues des différents taux en les multipliant par 100. Le dernier traitement effectué sur les données est le renommage des libellés de modalités. Les régions du jeu de données des TER correspondent aux régions antérieures à la réforme de 2015. Dans un premier temps, nous avons transformé en chaîne de caractère les modalités de TER $ Région jusqu’alors en facteur. Puis, nous avons affecté à chaque région le nouveau découpage administratif, à l’image de l’exemple suivant :

Nous avons ensuite converti les modalités à nouveau en facteurs. Un deuxième renommage a été nécessaire pour les causes de retard des TGV. Le symbole « % » n’est pas reconnu par R et a été remplacé par « X. ». Nous avons décidé de rectifier cette erreur en la remplaçant par « Fréquence » puisque nous avons obtenu des fréquences lors du premier prétraitement. La fonction utilisée est setnames() du package data.table afin de renommer les variables :