Statistique
Analyse de textes
Fréquences d’apparition des mots. Loi de puissance.
Analyse de la fréquence d’apparition des mots utilisés pour écrire un texte.
Utiliser le modèle (nécessite Wolfram CDF Player)
Fréquences d’apparition des mots dans un texte
Le vocabulaire d’un enfant de 10 ans comporte environ 5’000 mots, celui d’un adulte cultivé 70’000 et les dictionnaires en plusieurs volumes peuvent en contenir de 130’000 à 200’000 [1]. Mais pour juger de la qualité lexicographique d’un texte, il faut non seulement connaître le nombre de mots utilisés mais aussi la fréquence d’apparition des mots.
Pour en savoir plus
– Loi de Zipf - Wikipédia
– Jean Véronis, Informatique et statistique I
Questions
- Placez le fichier à analyser dans le répertoire courant.
- Formez la liste des mots figurant dans le fichier.
- Définissez les motifs permettant d’éliminer les « mots » indésirables et éliminez-les de la liste des mots.
- Etablissez les fréquences d’apparition des mots et classez ces fréquences par ordre décroissant en éliminant les doublons (vous ne retenez qu’une fois chaque fréquence).
- Reportez le logarithme de la fréquence en fonction du logarithme de sa position dans la liste.
- Comment peut-on comparer la richesse lexicographique de différents textes à partir de ce graphique ?