Importation des données

Nous avons ici deux corpus, deux ensemble de textes : l’un constitué des commentaires sur les retards TER et l’autre sur les retards TGV. Pour le traitement dans IRaMuteQ, l’ensemble des textes d’un corpus doit être regroupé dans un fichier texte (.txt) au format UTF8. Les textes sont séparés par une ligne « étoilée » … Lire la suite de Importation des données

Description et analyse des corpus

Statistiques descriptives Après lemmatisation et indexation par le logiciel, le corpus CRTER est formé de 910 unités d’analyses textuelles, de 914 segments de textes et de 25 847 occurrences réparties en 2 061 formes différentes. Il contient 991 hapax, occurrences dont la fréquence est de 1, soit 3,83% des occurrences et 48,08% des formes. Le … Lire la suite de Description et analyse des corpus

Discussion des résultats

Les résultats d’une analyse textuelle sont tributaires des travaux de préparation du corpus (suppression des fautes d’orthographes, neutralisation de certaines formes, pas d’abréviations). Il est nécessaire pour mener à bien de ce travail de pouvoir être au fait de la façon dont les données ont été recueillies. En effet, nous nous sommes aperçues que les … Lire la suite de Discussion des résultats