Fréquence statistique d’un mot

Depuis quelques jours, je me suis demandé si l’on pouvait évaluer l’abondance d’un mot précis dans un discours ou un texte suffisamment long, et en me demandant aussi si l’utilisation de ce mot précis était significativement plus élevée qu’une valeur moyenne normale.

Ainsi, dans l’émission « Météo à la carte » sur France 3, je me suis aperçu que le mot « climatique » était souvent répété, et même plus souvent que de raison. Je ne voulais pas me limiter à une simple impression, il fallait quantifier cela à l’aide d’un outil statistique.

Tout d’abord, j’ai exporté les articles de mon blog au format XML, en tant que sauvegarde, l’on n’est pas loin des 1000 articles, sur une période allant de fin 2011 à octobre 2015. Après une vérification minutieuse, j’ai établi que mon blog contient environ 54 525 mots uniques, et 565 672 mots environ si l’on tient compte des doublons. Puis aussi, dans mon blog, le mot « climatique » (au singulier et au pluriel) apparaît 142 fois sur 565 672 mots, soit une proportion de 0,025% dans le texte.

J’ai étendu l’exploration statistique sur le web en cherchant des documents DOC (format Word) liés à la météorologie :

  • Un document intitulé « Prospective_méditerranée.doc » contient 32 fois le mot « climatique » parmi 11 436 mots, soit une proportion de 0,28%.
  • Un autre document Word relatif à un appel à projet par des éco-citoyens contient 13 fois le mot « climatique » parmi 1481 mots. Soit 0,88%.
  • Un rapport final d’un laboratoire Jussieu contient 34 fois le mot « climatique » parmi 9169 mots. Soit 0,37%.

 

Ensuite, en analysant attentivement le dossier « Fraude scientifique – Quand les scientifiques trichent », sans prendre en compte les encadrés auxiliaires, dans le magazine Science-et-Vie n°1094 de novembre 2008, je recense 1 fois le mot « climatique » parmi exactement 3690 mots, soit 0,027% (mais 0,19% si on se réfère au mot « climat » et ses dérivés (comme les adjectifs)).

Enfin, avec le tout-puissant moteur Google, je constate que le mot « climatique » apparaît au moins une fois dans 11 500 pages parmi 7,4 millions de pages du site Wikipedia en version francophone. Soit un taux de 0,155%.

Même test en cherchant dans tous les sites gouvernementaux français (c’est-à-dire le domaine .gouv.fr) : le mot « climatique » apparaît 152 000 fois dans autant de pages parmi 71,6 millions de pages référencées. Soit un taux de 0,21%.

Ainsi, il apparaît que la proportion normale (moyenne) du mot « climatique » dans divers textes est d’environ 0,2%. On peut ensuite déterminer l’écart-type pour estimer la dispersion statistique autour de la valeur moyenne. Et à partir de cela, il est a priori possible ensuite de juger si un texte soumis à l’analyse contient le mot « climatique » de façon excessive (comme du matraquage médiatique ou du lavage de cerveau) et estimer si l’écart par rapport à la normal est statistiquement significatif.

Concernant mon blog, le mot « climatique » apparaît 10 fois moins fréquemment que la normale.

 

Cela est approximatif, mais c’est ma première estimation :

  • Pour un texte rapporté à 10 000 mots au total, la fréquence statistique normale du mot « climatique » serait en moyenne de 20 mots avec un écart-type de 4,5 environ, autrement dit : 20 plus ou moins 4,5.

Avec une p-value de 0,05, la normale correspond à un nombre de mot « climatique » entre 11 et 29 occurrences pour un texte de 10 000 mots. Avec une p-value de 0,01, la normale correspond à un nombre de mot « climatique » entre 8 et 32 occurrences pour un texte de 10 000 mots.

Si la quantité d’occurences dans un texte de 10 000 mots est en-dehors de ces intervalles, on dit que la différence est significative.

John Philip C. Manson