Etude statistique sur les articles de Wikipedia

Dans la colonne de gauche de fr.wikipedia.org, on peut ouvrir un article au hasard :  https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard

  • Grâce à cette fonctionnalité, j’ai réalisé une étude statistique simple en ouvrant 104 articles au hasard.

Voici le résultat :

  • 50% des articles Wikipedia sont à l’état d’ébauche.
  • 15,38% des articles sont relatifs à l’art sous toutes ses formes (dont 37,5% concerne la littérature, et dont 56,25% la musique).
  • 24,04% des articles concernent une personnalité (donc une biographie).
  • 16,35% des articles sont relatifs aux sciences (hors géographie), dont la zoologie (35,29%), la botanique (17,65%), la médecine (17,65%), la biologie (5,88%), l’astronomie (5,88%), la chimie (11,76%).
  • 13,46% des articles restent sans sources externes pour étayer leur contenu…
  • 19,23% des articles sont relatifs à la géographie (noms de villes, lieux divers, monuments…).
  • 14,42% des articles sont relatifs au sport.
  • 5,77% des articles sont relatifs à la politique.
  • 5,77% concernent l’histoire.
  • 2,88% des articles sont relatifs à l’armée ou les activités militaires (hors Histoire).
  • 1,92% des articles sont relatifs à l’informatique.
  • 0,96% des articles concernent une entreprise.
  • 0.96% relatifs aux télécommunications.
  • 2,88% concernent la linguistique.
  • 1,92% des articles concernent les faits divers ou la criminalité.
  • 1,92% concernent la religion ou la spiritualité.
* (Note : un article peut avoir plusieurs catégories, par exemple : personnalité + politique, ou personnalité + sport)

 

Bilan :

  • Environ 1 article Wikipedia sur 2 est incomplet ou lacunaire (ébauche).
  • Environ 1 article Wikipedia sur 7 a un contenu sujet à précaution car non sourcé.

 

Je vais maintenant vous demander d’être patients : je vais révéler d’autres données concernant la date de création et celle de dernière modification concernant les 104 articles de mon échantillon. Résultat ci-dessous dans quelques heures…

Voila, le traitement des données à la main est très long et fastidieux. Mieux vaut automatiser tout ça avec un programme informatique…

Une nouvelle expérience est réalisée dans un terminale de GNU/Linux :  la commande wget https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard exécutée 71 fois télécharge autant de fois la page https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard qui redirige vers un article Wikipedia au hasard, ensuite on exécute la commande suivante :   cat Spécial* | grep « Derni.re modification de cette page le « 

 

Résultat :

Sur 71 articles Wikipedia téléchargés le jour-même le 7 novembre 2015 :

  • 53 (donc 74,65%) ont été modifiés durant l’année 2015 (il y a donc moins d’un an).
  • 12 (donc 16,9%) ont été modifiés durant l’année 2014.
  • 5 (donc 7%) ont été modifiés durant l’année 2013.
  • 1 (donc 1,4%) a été modifiés durant l’année 2012.

 

Il semble que nous ayons affaire à une loi exponentielle, intéressant ça.

En considérant que l’année 2015 correspond à l’intervalle entre x = 0 et x = 1, alors y = 1,46521 * e^(-1,00758*x), et on constate que la fonction exponentielle décroissante a une courbe qui suit bien les points des données.

En moyenne, la dernière édition d’un article est réalisée au cours de 2015 (donc moins d’un an plus tôt).

Je vais accroître la taille de l’échantillon avec de nouveaux articles Wikipedia, afin de déterminer l’équation de la loi exponentielle.

Avec un nouvel échantillon composé de 200 articles :

  • 99 articles sur 200 sont des ébauches (49,5%), ce qui est cohérent avec le tout premier test statistique relaté ici.

Concernant l’année au cours de laquelle a eu lieu la dernière modification d’article :

  • 143 articles (71,5%) ont été modifiés au cours de 2015.
  • 28 articles (14%) en 2014.
  • 27 articles (13,5%) en 2013.
  • 2 articles (1%) en 2012.
  • 0 (0%) en 2011.

On obtient y=0,709244 * e^(-1,34638*x)

En moyenne, les articles ont été modifiés la dernière fois en 2013 (environ 2 ans plus tôt).

Mais l’équation la plus crédible est y = 1,46521 * e^(-1,00758*x) qui indique que la dernière édition d’un article date de moins d’un an en moyenne.

 

Pour finir, en analysant 20 articles sur les 104 articles du premier échantillon, voici le résultat en approximation :

  • L’âge moyen d’un article Wikipedia (à partir du jour de sa création) est de 5,4 ans plus ou moins 3,32 ans.
  • Le temps écoulé après la dernière modification d’un article Wikipedia est en moyenne de 4,69 mois (plus ou moins 5,49 mois).

 

John Philip C. Manson