Détection de mots caractéristiques et statistiques : le cas du New Age

  • Ceci est la suite de https://jpcmanson.wordpress.com/2013/03/16/comment-detecter-le-new-age-sur-le-web/

La thématique de cet article : comment trouver à coup sûr des contenus du New Age sur le web ?

Les mots-clés les plus souvent rencontrés chez le New Age (sans ordre défini de prédominance) :

  1. ascension
  2. fin
  3. nouvel âge
  4. Verseau
  5. extraterrestres
  6. réincarnation
  7. karma
  8. lumière
  9. paix
  10. amour
  11. dualité
  12. quantique
  13. lâcher-prise
  14. merkaba
  15. fraternité
  16. universel
  17. conscience
  18. paradigme / changement
  19. énergie
  20. cristaux
  21. chakras
  22. méditation
  23. mayas
  24. Atlantide

On retrouve évidemment tous ces mots dans tous les dictionnaires contemporains (mais les dictionnaires recensent les mots, les dictionnaires ne sont pas le produit du New Age). On retrouve aussi ces mots-clés dans les sites qui dénoncent le New Age.

Dans le web francophone, il existe plus de 900 résultats via Google qui sont caractéristiques du New Age.

Cependant, à un degré moindre d’occurrence de ces mots-clés, il arrive que l’on rencontre des coïncidences surprenantes : certains promoteurs du développement durable emploient le vocabulaire du New Age, notamment les mots suivants : paradigme, nouvel âge, conscience. Les gens curieux pourront tester les mots-clés suivants sur Google : conscience « nouveau paradigme » « nouvel âge » « développement durable » et constater par eux-mêmes. J’ai trouvé : « le nouvel âge de l’écologie » et « le nouveau paradigme de la décroissance ». Développement durable ou New Age ?…

A partir de quel fréquence d’emploi de mots typiques du New Age pour qu’on la considère significative afin de dire si oui ou non un texte est représentatif du New Age ? Voila une question intéressante. Des partisans du New Age, aux intentions pas très claires, et qui ne veulent pas qu’on sache qu’ils font partie du New Age, peuvent se laisser trahir par leur propre vocabulaire…

Quelle est la probabilité, parmi 35000 mots communs du dictionnaire français, de sortir au hasard les 24 mots typiques du New Age énumérés dans la liste ci-dessus ? Une chance sur 1,826*10⁸⁵. Ce qui est très peu probable. Ainsi, quand ces 24 mots apparaissent certainement dans un texte, c’est très significatif, ce n’est pas un hasard !

Aussi, par exemple, sachant qu’un de mes articles de mon blog contient environ 1000 mots distincts, la probabilité pour que mon texte de 1000 mots contiennent un seul des 24 mots typiques du New Age serait a priori de 2,78% (mais je fournis une meilleure réponse plus bas avec un script Perl). Mais pour que les 24 mots y soient tous présents, c’est très peu probable, et que par conséquent ce n’est pas un hasard.

Ce qui peut devenir intéressant avec les statistiques, c’est d’établir un outil mathématique capable d’évaluer si un texte provient d’un adepte du New Age ou pas. On pourrait dire que le test est considéré comme positif quand le score est supérieur à ce que l’on obtient au hasard.

En réalisant un programme en langage Perl, j’ai pu constater qu’un texte de 1000 mots peut contenir entre 0 et 2 mots du New Age (0 à 2 mots, soit 1 ± 1 (prenant compte de l’écart-type) issus d’un choix parmi 24 mots), au hasard. Cela voudrait dire que si un texte de 1000 mots contient significativement plus de 2 mots du New Age (parmi un choix des 24 mots cités en exemple plus haut), alors ce ne sera pas un hasard. Au hasard, un texte de 1000 mots a une chance sur 1000 d’avoir un mot du New Age, et lorsque l’on rencontre un nombre supérieur de mots du New Age dans le texte de 1000 mots, on parle d’évidence forte. Dans la page Wikipedia sur la signification statistique, de nouvelles recherches montrent qu’un test statistiquement significatif ne correspond à une évidence forte que pour une p-value de 0,5 % ou même 0,1 %, c’est-à-dire une chance sur mille d’être dû au hasard.

Dans le même ordre d’idée, des tests statistiques peuvent aussi servir à détecter des textes implicitement liés à l’extrême-droite, d’après les mots du vocabulaire typique de l’extrême-droite. Quelque soit la mouvance, je pense que des militants se voulant discrets peuvent se trahir eux-mêmes par leur propre vocabulaire.

Mais plus un vocabulaire d’une mouvance quelconque s’enrichit en mots, plus la présence de ces mots parmi 1000 mots devient probable, ce qui risquerait de rendre la mouvance plus difficilement détectable. En revanche, un vocabulaire réduit, minimaliste, comme la « novlangue » du roman « 1984 » d’Orwell, est ce qui est le mieux détectable.

Lorsque je me risque à faire des calculs directement, je cours le risque de me tromper. Des tests aléatoires au moyen d’un script Perl réduit le risque de mauvais calculs. Ainsi, la simulation informatique me montre que pour un livre d’environ 90 000 mots (comme le livre « L’homme est-il le responsable du réchauffement climatique », 308 pages), on a la probabilité (au hasard) d’y trouver (en moyenne) 65 mots du New Age (parmi les 24 mots-clés, chaque mot pouvant se répéter au moins une fois par exemple). Et 75 mots New Age pour une liste de 28 mots au lieu de 24. Ainsi, si l’on trouve dans un livre composé de 90 000 mots, une quantité significativement supérieure en mots New Age (je dirais au moins 130 ou au moins 260 mots New Age), alors ledit bouquin sera typiquement New Age.

Maintenant, je réalise une expérience : voici la couverture d’un livre New Age sorti en 1989 en version française.

elecshock

J’ai ouvert la page 13 de ce livre :

page13

J’y ai trouvé 4 mots qui sont familiers au New Age, ce qui porte ma liste à 28 mots.

Les nouveaux mots trouvés : télépathiques, entités spirituelles, esprit, extrasensorielle.

Comme j’ai la flemme de compter tous les mots de la page 13, alors 34 lignes multiplié par 11 mots par ligne = environ 374 mots.

En moyenne, d’après mon script Perl, j’aurais dû trouver 0,295 mots New Age dans la page 13, or il y a 4 mots New Age. C’est la preuve que la page est typiquement New Age.

Ce livre diabolise complètement l’électricité et le confort électrique moderne. Il est vraisemblable que ce genre de littérature anti-électricité, courante dans le New Age, ait pu influencer les gens qui se sentent persécutés et irradiés par les antennes relais et la téléphonie mobile…

D’après vous, quel est l’intérêt du New Age dans leur idéal d’interdiction de l’électricité ? Sans électricité, pas de télévisions ni d’ordinateurs, pas de téléphones et surtout pas d’internet. Une façon extrême d’isoler, de manipuler et d’endoctriner des adeptes du New Age qui ne subiront d’influence que celle de leur secte, sans contacts extérieurs…

Ajout du 7 novembre 2014 :

  • Lorsque, pour un livre de 90 000 mots, la courbe suit une distribution de Poisson, alors avec une moyenne de 75 mots New Age (due au hasard), et en se basant sur une liste de 28 mots-clés, alors le livre est statistiquement significativement New Age (pour une p-value inférieure à 0,05) si on y trouve plus de 89 mots New Age sur 90 000 mots. Avec une p-value inférieure à 0,01, il faudra trouver plus de 95 mots New Age dans un livre de 90 000 mots pour que cela soit un résultat significatif.
  • Sur la base de tests aléatoires avec un script Perl, afin de déterminer l’écart-type de la distribution normale, le résultat est significatif (avec p-value inférieure à 0,05) lorsque le livre contient un nombre supérieur à cet intervalle : de 83 à 92 mots New Age. Ce qui implique qu’au-delà de 92 mots, c’est sûrement significatif.
  • Puis à propos de la page 13, avec une moyenne de 0.295 mot New Age si c’était dû au hasard, alors avec une distribution de Poisson, on a un résultat significatif (avec p-value inférieure à 0,05) quand il y a plus d’un mot New Age à la page 13. Et avec une p-value inférieure à 0,01, le résultat devient significatif quand il y a plus de 2 mots New Age. Or dans la page 13 du livre testé, on trouve 4 mots New Age, c’est fortement significatif. Mais ce genre d’analyse vaut plutôt pour des dizaines ou centaines de pages du livre, on ne doit pas se contenter d’une seule page. En statistiques, on doit utiliser un échantillon suffisamment large.

 

Ajout du 9 novembre 2014 :

  • L’équation qui exprime le nombre de mots-clés New Age dans un texte de 1000 mots en fonction du nombre de mots-clés New Age dans une liste non-exhaustive, est linéaire.
  • Cette équation est y = 0,0330602 x + 0,0301684 et est presque de la forme y = k(x + 1) où k est une constante.
  • Ainsi, sur la base d’un vocabulaire français de culture générale (30000 mots d’après les lexicologues), sur un texte de 90 000 mots, on devrait rencontrer au hasard 142,6 mots New Age en moyenne, sur la base d’une liste de 47 mots New Age distincts. Et qu’un score de 163 à 171 mots-clés trouvés (au moins) dans un texte de 90 000 mots est une preuve statistique significative que le texte est typique du New Age.

linefunction

 

  • La liste des 47 mot-clés du New Age : amour ange ascension astral Atlantide atmique bioénergétique bouddhique causal chakras changement channelling christique conscience cristaux dualité électrosensibilité énergie entité ésotérisme esprit éthérique extraterrestre fin fraternité karma lâcher-prise lémurien lumière mayas méditation mental merkaba new age nouvel âge occultisme paix paradigme paranormal parapsychologie plan quantique réincarnation Septénaire subtil universel Verseau

© 2014 John Philip C. Manson

Publicités