Faire des statistiques automatiques avec Wikipedia

Faire des statistiques à la main sur Wikipedia est long et pénible. Mais on peut parfois automatiser le travail.

Dans un environnement GNU/Linux, les commandes shell sont souvent très utiles. Voici l’astuce pour créer un échantillon de 100 articles Wikipedia francophones ouverts aléatoirement afin de déterminer l’année de la date de dernière modification.

Voici le code source bash :

#!/bin/bash
wkarticle=1
while [[ $wkarticle -le 100 ]]
do
wget -q -O – https://fr.wikipedia.org/wiki/Sp%C3%A9cial:Page_au_hasard | grep « Derni.re modification de cette page le  » | cut -d’ ‘ -f11 >> wk.log
wkarticle=$(($wkarticle + 1))
sleep 1
done

cat wk.log | grep 2015 | wc -l
cat wk.log | grep 2014 | wc -l
cat wk.log | grep 2013 | wc -l
cat wk.log | grep 2012 | wc -l
cat wk.log | grep 2011 | wc -l
cat wk.log | grep 2010 | wc -l
cat wk.log | grep 2009 | wc -l
cat wk.log | grep 2008 | wc -l
cat wk.log | grep 2007 | wc -l
cat wk.log | grep 2006 | wc -l
cat wk.log | grep 2005 | wc -l
cat wk.log | grep 2004 | wc -l
cat wk.log | grep 2003 | wc -l
cat wk.log | grep 2002 | wc -l
cat wk.log | grep 2001 | wc -l

 

J’ai exécuté le programme, et voici le résultat :

  • 68 15 16 2 1 0 0 0 0 0 0 0 0 0 0.
  • Concrètement, 68% des articles Wikipedia ont été modifiés la dernière fois en 2015. 15% en 2014, 16% en 2013, 2% en 2012, 1% en 2011…

 

Si on veut faire des statistiques avec un échantillon de 1000 articles aléatoires, on doit remplacer dans le code while [[ $wkarticle -le 100 ]] par while [[ $wkarticle -le 1000 ]].

John Philip C. Manson