Faire des statistiques avec les articles de Wikipedia

Peut-on réaliser des statistiques au moyen de Wikipedia ? A priori, oui.

Sur Google, on peut rechercher certains mots-clés contenus dans les articles du site fr.wikipedia.org. Et faire des comparaisons en ajoutant des mots-clés.

Par exemple, avec cette requête sur Google : -inurl:Discussion -inurl:Catégorie -intitle:Discussion -intitle:Catégorie site:fr.wikipedia.org « né|née le » intitle:(-« Catégorie »|-« Discussion »|-« Aide »|-« Projet »|- » né le »|-« Liste ») inurl:(-« Catégorie »|-« Discussion »|-« Aide »|-« Projet »|-« Liste ») on  constate qu’il y aurait 273 000 personnes répertoriées sur Wikipedia (personnes ayant une notoriété publique : acteurs, musiciens, chanteurs, politiciens, activistes, etc…).

Par exemple, on peut dénombrer combien il y a de personnes (ainsi que leur pourcentage par rapport à leur totalité) qui sont impliquées dans la mouvance New Age : « new age » -inurl:Discussion -inurl:Catégorie -intitle:Discussion -intitle:Catégorie site:fr.wikipedia.org « né|née le » intitle:(-« Catégorie »|-« Discussion »|-« Aide »|-« Projet »|- » né le »|-« Liste ») inurl:(-« Catégorie »|-« Discussion »|-« Aide »|-« Projet »|-« Liste »)

En apparence, il y aurait 275 personnes parmi 273 000 personnalités notoires (soit 0,1%) qui s’adonneraient au New Age.

Et si l’on exclut les musiciens et les compositeurs, cela se réduit à 251 personnes newagers (~0,09%).

C’est curieux ça… Il y aurait proportionnellement peu de newagers, et pourtant on entend souvent parler de New Age à travers le web, les médias en font régulièrement la propagande jusqu’à l’overdose…

L’on peut aussi tenter de déterminer le pourcentage de personnes homosexuelles : homosexuel|homosexualité| »coming out »|lgbt -inurl:Discussion -inurl:Catégorie -intitle:Discussion -intitle:Catégorie site:fr.wikipedia.org « né|née le » intitle:(-« Catégorie »|-« Discussion »|-« Aide »|-« Projet »|- » né le »|-« Liste ») inurl:(-« Catégorie »|-« Discussion »|-« Aide »|-« Projet »|-« Liste »)

soit environ 4790 sur 273 000, soit 1,7%. Ce serait à peu près le même taux général que dans la population, mais ce taux n’est pas connu avec exactitude.

J’ai également trouvé 1470 articles faisant référence aux féministes. Parmi les féministes j’ai relevé 159 articles faisant à la fois référence aux féministes et aux homosexuelles, soit 10,8% environ.

Ensuite, parmi les 273 000 personnes archivées dans Wikipedia, on relève environ 6560 cas où les personnes ont eu un cancer, ou ont un cancer ou sont mortes d’un cancer, soit 2,4%. Cela semble largement sous-représenté par rapport à la réalité (environ 1 quart à 1 tiers des gens ont eu ou ont ou auront un cancer).

Ensuite, parmi les 273 000 personnes dans Wikipedia, on relève environ de 994 à 1060 cas de personnes notoires séropositives mais néanmoins toujours en vie, soit environ 0,37%. Tandis qu’en France, l’on sait qu’il existe 0,23% de personnes séropositives. Les taux sont assez proches.

Pour terminer ce présent article, j’ai constaté 2590 cas d’entrepreneurs parmi 273 000 personnes notoires, soit à peine 1%, ce qui est peu. En effet, en France, seuls environ 6% des gens sont (ou ont été) entrepreneurs, c’est vraiment peu.

 

Ainsi, l’on voit que Wikipedia peut contribuer à faire des statistiques, mais néanmoins les données restent approximatives, et l’on ne doit pas oublier le risque que les données disponibles ne soient pas fiables.

 

Advertisements