Analyse de textes Fréquences d’apparition des mots. Loi de puissance.

, par  Bernard Vuilleumier , popularité : 1%

Fréquences d’apparition des mots dans un texte

Le vocabulaire d’un enfant de 10 ans comporte environ 5’000 mots, celui d’un adulte cultivé 70’000 et les dictionnaires en plusieurs volumes peuvent en contenir de 130’000 à 200’000 [1]. Mais pour juger de la qualité lexicographique d’un texte, il faut non seulement connaître le nombre de mots utilisés mais aussi la fréquence d’apparition des mots.

Pour en savoir plus
- Loi de Zipf - Wikipédia
- Jean Véronis, Informatique et statistique I

Questions

  1. Placez le fichier à analyser dans le répertoire courant.
  2. Formez la liste des mots figurant dans le fichier.
  3. Définissez les motifs permettant d’éliminer les « mots » indésirables et éliminez-les de la liste des mots.
  4. Etablissez les fréquences d’apparition des mots et classez ces fréquences par ordre décroissant en éliminant les doublons (vous ne retenez qu’une fois chaque fréquence).
  5. Reportez le logarithme de la fréquence en fonction du logarithme de sa position dans la liste.
  6. Comment peut-on comparer la richesse lexicographique de différents textes à partir de ce graphique ?

Voir en ligne : Zipf’s Law for Natural Languages