Statistiques de mon blog

En ayant réalisé récemment une sauvegarde zip de mon blog, voici de nouvelles statistiques.

Du 30 avril 2007 jusqu’au 18 décembre 2017 :

  • le blog contient 135 345 lignes réparties dans 4022 pages de format A4 (taille des caractères : 12 pixels),
  • soit au total 865 287 mots (soit 10 067 433 lettres et chiffres) d’un poids de 2,64 Mo.
  • le débit moyen est de 223 mots par jour environ.
Publicités

Médiumnité et ampoules électriques grillées

Supposons une émission télévisée avec un animateur populaire qui met un scène un « puissant médium » qui se prétend capable de griller par télékinésie les ampoules électriques à distance.

Supposons qu’il y ait un million de téléspectateurs qui regardent l’émission, ou plutôt 1 million de domiciles, et que dans chaque domicile il y ait en moyenne 16 ampoules électriques. L’émission est diffusée lors du début du crépuscule, au soir, pendant une durée de 2 heures.

Le médium se concentre (ou feint de se concentrer) sur sa capacité à agir à distance sur des ampoules électriques, prétendument par télékinésie. Soudain au cours de l’émission, le standard téléphonique explose : des milliers d’appels préviennent sur des phénomènes de grillage d’ampoules chez eux. Le médium a t-il donc un mystérieux pouvoir ?

Non ! Le hasard seul peut expliquer cela. Et le médium profite de ce hasard pour détourner l’attention des crédules.

En fait, le grillage des ampoules électriques c’est juste un problème statistique. Une ampoule électrique a une durée de vie limitée (vie de 1000 heures, donc probabilité de grillage de 1 sur 1000 lors de l’heure qui vient, soit une probabilité de 1 sur 501 environ pour qu’une ampoule qui dans un délai de 2 heures). Toutes les ampoules grillent naturellement, par usure normale. Ce qui fait que lorsqu’un charlatan prétend, lors d’une émission télévisée de grande audience, pouvoir faire griller des ampoules à distance juste en se concentrant pendant quelques instants, les quelques instants en question sont suffisants pour que sur le million de téléspectateurs regardant ladite émission, il y en aura 16 x 1000000 x (1/501) = presque 32000 qui verront en effet au moins une ampoule griller chez eux au moment d’allumer la lumière pendant le crépuscule.

Ensuite, les biais humains en matière d’expérimentation (crédulité, généralisation d’un exemple personnel, égoïsme et importance d’un cas personnel, et le fait qu’on ne retient que les exemples marquants) font le reste. Ainsi, ces 32000 personnes environ téléphonent toutes (ou presque) au même moment au standard téléphonique de l’émission qui est littéralement saturé : le charlatan devient crédible. Avec n’importe quel autre phénomène paranormal revendiqué, on peut réaliser n’importe quel autre trucage similaire. Dans la magie, il y a toujours un truc.

La crédulité n’engage que ceux qui se font fait piéger. Ce sont les pigeons qui entretiennent le charlatanisme et le business des escrocs.

Maintenant, voici un témoignage : http://forum.doctissimo.fr/psychologie/Paranormal/ampoules-grillees-semaine-sujet_15936_1.htm Une personne se dit troublée par ces coïncidences d’ampoules grillées les unes après les autres. Là encore, cela n’est qu’un phénomène statistique. Quand une maison possède 16 ampoules électriques, la probabilité de grillage d’une ampoule parmi les 16 est de 1-(1-(1/1000))^16 = 1 chance sur 63 dans un délai d’une heure. Il y a alors 1 chance sur 2 pour qu’au cours des prochaines 43 heures il y ait une ampoule parmi 16 qui grille. Au-delà de 197 heures d’utilisation des 16 ampoules, le grillage d’une ampoule devient probable à 95%. Et alors, en moyenne, parmi 16 ampoules en fonctionnement, on en remplace une toutes les 66 heures. Le délai n’est compté qu’à partir de l’instant où ces ampoules sont allumées. Quand on ne les allume pas, il n’y a pas d’usure. Bref, le grillage des ampoules électriques est statistique, ce n’est certainement pas une affaire de paranormal ni de psychologie (sauf quand on est aveuglément crédule à fond, ce qui peut être considéré soit comme une maladie mentale préoccupante, ou comme une grave paresse intellectuelle). Où est la liberté des personnes si celles-ci sont aveuglément crédules et croient absolument n’importe quoi ? Je pense que l’éducation et le recul critique doivent impérativement être un devoir. Un devoir qui garantit vraiment les libertés. Il n’y a pas de vraie liberté dans la croyance aveugle. S’informer est nécessaire.

Il faut toujours se méfier quand le hasard est caché, oublié ou nié par un charlatan ou un idéologue, comme dans le cas du créationnisme par exemple.

La science compare souvent un phénomène présumé avec le hasard, on essaie de voir alors si le phénomène se démarque significativement du hasard afin de juger de la crédibilité du phénomène. Mais à partir du moment duquel le hasard est oublié ou rejeté, on ne peut plus faire de comparaisons, et c’est la porte ouvertes aux impostures.

Cessons d’alimenter le business des charlatans, en doutant.

Pour en finir avec la clairvoyance et la télépathie

L’expérience réalisée avec les cartes de Zener vise généralement à déterminer le taux de clairvoyance ou de télépathie d’un sujet : un expérimentateur tire les 25 cartes (opaques pour éviter de voir les signes par transparence) l’une après l’autre (après les avoir bien mélangées), sans les montrer au sujet de l’expérience qui doit deviner le symbole inscrit sur chacune d’elles.

  • On a une probabilité de 1 sur 5 de deviner une carte donnée, au hasard.
  • La probabilité de deviner x cartes sur 25 est :
    P(x) = (25! / (x! * (25-x)!)) * (1/5)^x * (4/5)^(25-x)

Un taux normal de réussite (provoqué uniquement par des réponses données au hasard) est défini par ces intervalles de confiance (la moyenne est µ = 5, et l’écart-type vaut 2) :

  • 68,2% de chances pour un intervalle entre 3 et 7 réponses exactes sur 25.
  • 95% de chances pour un intervalle entre 1 et 9 réponses exactes sur 25.
  • 99% de chances pour un intervalle entre 0 et 11 réponses exactes sur 25.

On peut aisément calculer ces probabilités au moyen de la loi binomiale.

  • Faire significativement mieux que le hasard, c’est être en dehors de l’intervalle des 95%.

Vous pouvez vous tester ici :  http://www.charlatans.info/test-cartes-zener.php (moi je suis parfaitement dans la moyenne, c’est donc normal et ordinaire).

  • Pour prouver statistiquement l’existence d’un don de clairvoyance ou de télépathie, il faut obtenir au moins 10 réponses exactes sur 25 (correspondant donc à une probabilité pour que cela arrive au hasard de moins de 5%).
  • Obtenir 25 réponses exactes sur 25 (le score absolu) correspond à une probabilité de 1 sur 298 millions de milliards : il est donc impossible d’obtenir ce score-là par hasard.
  • Avec au moins 11 bonnes réponses, la probabilité pour que ça arrive au hasard est inférieure à 1%.
  • À ce jour, depuis 1920 (année de l’invention des cartes Zener), personne, absolument personne (sauf cas de fraudes ou supercheries démasquées), n’a atteint de façon objective et empiriquement honnête le score d’au moins 10 bonnes réponses sur 25. Jusqu’à preuve du contraire, la clairvoyance et la télépathie sont des mythes, des croyances sans fondement, du charlatanisme…

Comment prouver scientifiquement avec une expérience

Comment prouver scientifiquement l’existence d’un phénomène au moyen d’une expérience, avec l’appui des statistiques ?

Supposons un individu prétentieux qui affirme avoir des pouvoirs paranormaux, en ayant en particulier un prétendu pouvoir de clairvoyance.

Ainsi, si on fait des tests avec un jeu de cartes de Zener, on devrait pouvoir confirmer l’existence d’un phénomène distinct du seul hasard. Si cela n’est pas causé par le hasard, parmi les hypothèses on pourra supposer l’existence d’un don paranormal, mais on peut aussi supposer d’autres explications plus plausibles (sans en négliger aucune), comme la triche, la fraude, l’hallucination, la supercherie…

Mais on peut surtout réfuter l’hypothèse du don paranormal, en prouvant que les résultats obtenus sont les mêmes que ceux que produit le hasard.

 

Voici les cartes Zener, il y en a 5 types distincts :

zener

Un cercle, une croix, des vagues, un carré, et une étoile. En prenant soin que les cartes soient bien opaques (sans transparence), et sans signe extérieur de reconnaissance, afin d’écarter toute fraude.

La probabilité P de deviner, au hasard, une carte, est de 1 sur 5, soit 20%.

Ensuite, on définit par N un nombre d’essais : le nombre de fois que le prétendu médium devra deviner chaque carte Zener. Et plus il y a d’essais, mieux c’est.

Pour évaluer la crédibilité d’un phénomène prétendu, on doit le comparer avec le hasard. En moyenne, selon la loi binomiale, il y a réussite de 5 essais sur 25 tests, plus ou moins 3,92. Plus généralement : N*P ± 1.96 * (N * P(1-P)), avec un seuil p=0,05.

 

  • Pour 25 essais, l’intervalle de confiance à 95% est compris entre 1,08 et 8,92 essais réussis au hasard. En dehors de cet intervalle, on dit qu’un résultat expérimental est significativement différent du hasard.
  • Pour 100 essais, l’intervalle de confiance à 95% est compris entre 12,16 et 27,84 essais réussis au hasard. Là aussi, en dehors de cet intervalle, on dit qu’un résultat expérimental est significativement différent du hasard.

Et quand un résultat expérimental indique un score de réussite situé dans l’intervalle, il n’est pas significatif, et le phénomène est alors attribué au hasard.

  • La probabilité de réussir au hasard 25 essais sur 25 (taux de réussite de 100%) est d’environ 1 chance sur 298 millions de milliards.
  • La probabilité de réussir au hasard 100 essais sur 100 (taux de réussite de 100%) est d’environ 10⁻⁷⁰.

Quand un résultat apparaît comme significatif, prendre d’abord les hypothèses les plus simples et les plus vraisemblables : toujours vérifier d’abord s’il n’y a pas eu triche, fraude, supercherie ou hallucinations, avant de prendre l’hypothèse d’un don paranormal.

 

John Philip C. Manson

 

Etude statistique sur les articles de Wikipedia

Dans la colonne de gauche de fr.wikipedia.org, on peut ouvrir un article au hasard :  https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard

  • Grâce à cette fonctionnalité, j’ai réalisé une étude statistique simple en ouvrant 104 articles au hasard.

Voici le résultat :

  • 50% des articles Wikipedia sont à l’état d’ébauche.
  • 15,38% des articles sont relatifs à l’art sous toutes ses formes (dont 37,5% concerne la littérature, et dont 56,25% la musique).
  • 24,04% des articles concernent une personnalité (donc une biographie).
  • 16,35% des articles sont relatifs aux sciences (hors géographie), dont la zoologie (35,29%), la botanique (17,65%), la médecine (17,65%), la biologie (5,88%), l’astronomie (5,88%), la chimie (11,76%).
  • 13,46% des articles restent sans sources externes pour étayer leur contenu…
  • 19,23% des articles sont relatifs à la géographie (noms de villes, lieux divers, monuments…).
  • 14,42% des articles sont relatifs au sport.
  • 5,77% des articles sont relatifs à la politique.
  • 5,77% concernent l’histoire.
  • 2,88% des articles sont relatifs à l’armée ou les activités militaires (hors Histoire).
  • 1,92% des articles sont relatifs à l’informatique.
  • 0,96% des articles concernent une entreprise.
  • 0.96% relatifs aux télécommunications.
  • 2,88% concernent la linguistique.
  • 1,92% des articles concernent les faits divers ou la criminalité.
  • 1,92% concernent la religion ou la spiritualité.
* (Note : un article peut avoir plusieurs catégories, par exemple : personnalité + politique, ou personnalité + sport)

 

Bilan :

  • Environ 1 article Wikipedia sur 2 est incomplet ou lacunaire (ébauche).
  • Environ 1 article Wikipedia sur 7 a un contenu sujet à précaution car non sourcé.

 

Je vais maintenant vous demander d’être patients : je vais révéler d’autres données concernant la date de création et celle de dernière modification concernant les 104 articles de mon échantillon. Résultat ci-dessous dans quelques heures…

Voila, le traitement des données à la main est très long et fastidieux. Mieux vaut automatiser tout ça avec un programme informatique…

Une nouvelle expérience est réalisée dans un terminale de GNU/Linux :  la commande wget https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard exécutée 71 fois télécharge autant de fois la page https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard qui redirige vers un article Wikipedia au hasard, ensuite on exécute la commande suivante :   cat Spécial* | grep « Derni.re modification de cette page le « 

 

Résultat :

Sur 71 articles Wikipedia téléchargés le jour-même le 7 novembre 2015 :

  • 53 (donc 74,65%) ont été modifiés durant l’année 2015 (il y a donc moins d’un an).
  • 12 (donc 16,9%) ont été modifiés durant l’année 2014.
  • 5 (donc 7%) ont été modifiés durant l’année 2013.
  • 1 (donc 1,4%) a été modifiés durant l’année 2012.

 

Il semble que nous ayons affaire à une loi exponentielle, intéressant ça.

En considérant que l’année 2015 correspond à l’intervalle entre x = 0 et x = 1, alors y = 1,46521 * e^(-1,00758*x), et on constate que la fonction exponentielle décroissante a une courbe qui suit bien les points des données.

En moyenne, la dernière édition d’un article est réalisée au cours de 2015 (donc moins d’un an plus tôt).

Je vais accroître la taille de l’échantillon avec de nouveaux articles Wikipedia, afin de déterminer l’équation de la loi exponentielle.

Avec un nouvel échantillon composé de 200 articles :

  • 99 articles sur 200 sont des ébauches (49,5%), ce qui est cohérent avec le tout premier test statistique relaté ici.

Concernant l’année au cours de laquelle a eu lieu la dernière modification d’article :

  • 143 articles (71,5%) ont été modifiés au cours de 2015.
  • 28 articles (14%) en 2014.
  • 27 articles (13,5%) en 2013.
  • 2 articles (1%) en 2012.
  • 0 (0%) en 2011.

On obtient y=0,709244 * e^(-1,34638*x)

En moyenne, les articles ont été modifiés la dernière fois en 2013 (environ 2 ans plus tôt).

Mais l’équation la plus crédible est y = 1,46521 * e^(-1,00758*x) qui indique que la dernière édition d’un article date de moins d’un an en moyenne.

 

Pour finir, en analysant 20 articles sur les 104 articles du premier échantillon, voici le résultat en approximation :

  • L’âge moyen d’un article Wikipedia (à partir du jour de sa création) est de 5,4 ans plus ou moins 3,32 ans.
  • Le temps écoulé après la dernière modification d’un article Wikipedia est en moyenne de 4,69 mois (plus ou moins 5,49 mois).

 

John Philip C. Manson

 

Détection statistique de mots thématiques dans un texte à analyser

Plusieurs mois plus tôt, j’avais évoqué la détection du vocabulaire New Age dans divers textes.

Plus l’on utilise de mots-clés dans le détecteur, plus les résultats trouvés sur le web sont restreints. Les mot-clés que j’avais utilisé sont les suivants : amour ange ascension astral Atlantide atmique bioénergétique bouddhique causal chakras changement channelling christique conscience cristaux dualité électrosensibilité énergie entité ésotérisme esprit éthérique extraterrestre fin fraternité karma lâcher-prise lémurien lumière mayas méditation mental merkaba new age nouvel âge occultisme paix paradigme paranormal parapsychologie plan quantique réincarnation Septénaire subtil universel Verseau.

 

Mais on peut se contenter de 8 mots, qui sont les plus courants chez le New Age : ascension astral changement conscience énergie fraternité méditation paix. En anglais : ascent astral change awareness energy brotherhood meditation peace.

 

Résultats des analyses lexicologiques :

  • Première observation : l’existence du New Age est manifeste pour les langues occidentales (anglais, français) ; le New Age est marginal ou inexistant dans les Balkans et l’Europe orientale (les mêmes termes en langue albanaise n’ont donné aucun résultat probant).
  • Deuxième observation : dans les documents PDF du web francophone, 47,6% des PDF explicitement New Age contiennent le mot « climatique » ; dans tous les autres formats francophones (sauf PDF), ce taux est de 43,8%. Dans tout le web anglophone, 44 à 45% des pages New Age contiennent le mot « climatique ». Plus inquiétant, si on remplace le mot « climatique » par des mots relatifs aux mythes fondateurs du nazisme (ou l’appartenance/sympathie de membres New Age envers le mysticisme nazi), on trouve quelque chose reliant l’occultisme et le fascisme… A lire : https://fr.wikipedia.org/wiki/Paul_Le_Cour et https://fr.wikipedia.org/wiki/Wotanisme et https://fr.wikipedia.org/wiki/Shambhala_%28mythe%29#Dans_la_Th.C3.A9osophie.2C_le_New_Age_et_les_croyances_modernes_occidentales où Shambhala est un mythe commun du New Age et de l’occultisme nazi…
  • Troisième observation : le contenu de mon blog (avant le 6 octobre 2015) contient 95 mots New Age (sur les 8 mots-clés utilisés pour la détection) sur un total de 54523 mots (soit 0,17%).
  • Quatrième observation : le document à l’adresse http://www.maitrereikiquebec.com/wp-content/uploads/2011/11/REIKI-MULTIDIMENTIONNEL-DES-PLANS-DE-LUMIERE.doc contient 138 mots typiques du New Age sur un total de 922 mots (soit 14,97%).
  • Cinquième observation : le document à l’adresse k.dalton.free.fr/undercover/undercover11/undercover11.doc contient 272 mots typiques du New Age sur un total de 1464 mots (soit 18,58%).
  • Sixième observation : le dictionnaire à l’adresse http://www.authsecu.com/dictionnaire/francais-divers.php contient 11 mots New Age sur un total de 46821 mots (soit 0,023%). Ce dictionnaire peut servir d’étalon de comparaison par rapport aux textes à analyser.
  • Septième observation : un test a été réalisé sur tout le contenu de fr.wikipedia.org, et le résultat est positif pour les articles « New Age » (ce qui est évident), « Expérience de mort imminente », et dans une moindre mesure, « Omraam Mikhaël Aïvanhov » (où le mot « nazi » est présent dans l’article).

 

Bilan :

  • Les textes explicitement New Age contiennent au moins 1000 fois plus les mots du New Age (parmi 8 mots-clés) que dans un dictionnaire. Les textes résolument New Age contiennent au moins 100 fois en fréquence les mots New Age relatés dans mon propre blog. Il serait donc possible de distinguer de façon fiable un texte clairement adhérant au New Age et un texte parlant de New Age dans un but neutre et seulement journalistique, sceptique ou critique.

 

John Philip C. Manson

 

 

Fréquence statistique d’un mot

Depuis quelques jours, je me suis demandé si l’on pouvait évaluer l’abondance d’un mot précis dans un discours ou un texte suffisamment long, et en me demandant aussi si l’utilisation de ce mot précis était significativement plus élevée qu’une valeur moyenne normale.

Ainsi, dans l’émission « Météo à la carte » sur France 3, je me suis aperçu que le mot « climatique » était souvent répété, et même plus souvent que de raison. Je ne voulais pas me limiter à une simple impression, il fallait quantifier cela à l’aide d’un outil statistique.

Tout d’abord, j’ai exporté les articles de mon blog au format XML, en tant que sauvegarde, l’on n’est pas loin des 1000 articles, sur une période allant de fin 2011 à octobre 2015. Après une vérification minutieuse, j’ai établi que mon blog contient environ 54 525 mots uniques, et 565 672 mots environ si l’on tient compte des doublons. Puis aussi, dans mon blog, le mot « climatique » (au singulier et au pluriel) apparaît 142 fois sur 565 672 mots, soit une proportion de 0,025% dans le texte.

J’ai étendu l’exploration statistique sur le web en cherchant des documents DOC (format Word) liés à la météorologie :

  • Un document intitulé « Prospective_méditerranée.doc » contient 32 fois le mot « climatique » parmi 11 436 mots, soit une proportion de 0,28%.
  • Un autre document Word relatif à un appel à projet par des éco-citoyens contient 13 fois le mot « climatique » parmi 1481 mots. Soit 0,88%.
  • Un rapport final d’un laboratoire Jussieu contient 34 fois le mot « climatique » parmi 9169 mots. Soit 0,37%.

 

Ensuite, en analysant attentivement le dossier « Fraude scientifique – Quand les scientifiques trichent », sans prendre en compte les encadrés auxiliaires, dans le magazine Science-et-Vie n°1094 de novembre 2008, je recense 1 fois le mot « climatique » parmi exactement 3690 mots, soit 0,027% (mais 0,19% si on se réfère au mot « climat » et ses dérivés (comme les adjectifs)).

Enfin, avec le tout-puissant moteur Google, je constate que le mot « climatique » apparaît au moins une fois dans 11 500 pages parmi 7,4 millions de pages du site Wikipedia en version francophone. Soit un taux de 0,155%.

Même test en cherchant dans tous les sites gouvernementaux français (c’est-à-dire le domaine .gouv.fr) : le mot « climatique » apparaît 152 000 fois dans autant de pages parmi 71,6 millions de pages référencées. Soit un taux de 0,21%.

Ainsi, il apparaît que la proportion normale (moyenne) du mot « climatique » dans divers textes est d’environ 0,2%. On peut ensuite déterminer l’écart-type pour estimer la dispersion statistique autour de la valeur moyenne. Et à partir de cela, il est a priori possible ensuite de juger si un texte soumis à l’analyse contient le mot « climatique » de façon excessive (comme du matraquage médiatique ou du lavage de cerveau) et estimer si l’écart par rapport à la normal est statistiquement significatif.

Concernant mon blog, le mot « climatique » apparaît 10 fois moins fréquemment que la normale.

 

Cela est approximatif, mais c’est ma première estimation :

  • Pour un texte rapporté à 10 000 mots au total, la fréquence statistique normale du mot « climatique » serait en moyenne de 20 mots avec un écart-type de 4,5 environ, autrement dit : 20 plus ou moins 4,5.

Avec une p-value de 0,05, la normale correspond à un nombre de mot « climatique » entre 11 et 29 occurrences pour un texte de 10 000 mots. Avec une p-value de 0,01, la normale correspond à un nombre de mot « climatique » entre 8 et 32 occurrences pour un texte de 10 000 mots.

Si la quantité d’occurences dans un texte de 10 000 mots est en-dehors de ces intervalles, on dit que la différence est significative.

John Philip C. Manson