Modèles mathématiques et régressions non linéaires

Je viens de trouver un site meilleur que Wolframalpha.com :

Cette page permet d’obtenir une grande variété d’équations qui définissent une courbe formée à partir des points  qu’on a entrés en paramètres.

Rappel : l’équation la plus simple parmi d’autres, pour un même résultat, est toujours la meilleure (exemple : on préférera évidemment y = x² au lieu de y = x2 – 1.953293612·10-14 * x1/2 + 1.054806674*10-14).

Génial !!!

On peut aussi en profiter avec d’autres types de modèles mathématiques :

 

  • Logarithmic Regression (LnR)
  • Exponential Regression (ExpR)
  • Power Regression (PowR)
  • Polynomial Regression (PR)
  • Multiple Linear Regression (MLR)
  • Multiple Polynomial Regression (MPR)
  • Nonlinear Regression (NLR)
  • Weighted Linear Regression (WLR)
  • Constrained Linear Regression (CLR)

 

Cependant, les régressions non linéaires fonctionnent avec deux dimensions : X (abscisses) et Y (ordonnées).

Il est plutôt intéressant de pouvoir travailler en plusieurs dimensions, comme X, Y et Z par exemple, et cela est seulement possible avec Wolframalpha.com.

Ah, tiens ! En fait, finalement on peut faire avec plus de 2 paramètres avec cette page : http://www.xuru.org/rt/MLR.asp on peut en effet tester avec X et Y et Z. Le résultat affichera alors X1 et X2 pour exprimer X et Y, et Y pour exprimer Z. Voila, très bien.

Je vais pouvoir créer des modèles plus précis.  😉

Publicités

Pour en finir avec la clairvoyance et la télépathie

L’expérience réalisée avec les cartes de Zener vise généralement à déterminer le taux de clairvoyance ou de télépathie d’un sujet : un expérimentateur tire les 25 cartes (opaques pour éviter de voir les signes par transparence) l’une après l’autre (après les avoir bien mélangées), sans les montrer au sujet de l’expérience qui doit deviner le symbole inscrit sur chacune d’elles.

  • On a une probabilité de 1 sur 5 de deviner une carte donnée, au hasard.
  • La probabilité de deviner x cartes sur 25 est :
    P(x) = (25! / (x! * (25-x)!)) * (1/5)^x * (4/5)^(25-x)

Un taux normal de réussite (provoqué uniquement par des réponses données au hasard) est défini par ces intervalles de confiance (la moyenne est µ = 5, et l’écart-type vaut 2) :

  • 68,2% de chances pour un intervalle entre 3 et 7 réponses exactes sur 25.
  • 95% de chances pour un intervalle entre 1 et 9 réponses exactes sur 25.
  • 99% de chances pour un intervalle entre 0 et 11 réponses exactes sur 25.

On peut aisément calculer ces probabilités au moyen de la loi binomiale.

  • Faire significativement mieux que le hasard, c’est être en dehors de l’intervalle des 95%.

Vous pouvez vous tester ici :  http://www.charlatans.info/test-cartes-zener.php (moi je suis parfaitement dans la moyenne, c’est donc normal et ordinaire).

  • Pour prouver statistiquement l’existence d’un don de clairvoyance ou de télépathie, il faut obtenir au moins 10 réponses exactes sur 25 (correspondant donc à une probabilité pour que cela arrive au hasard de moins de 5%).
  • Obtenir 25 réponses exactes sur 25 (le score absolu) correspond à une probabilité de 1 sur 298 millions de milliards : il est donc impossible d’obtenir ce score-là par hasard.
  • Avec au moins 11 bonnes réponses, la probabilité pour que ça arrive au hasard est inférieure à 1%.
  • À ce jour, depuis 1920 (année de l’invention des cartes Zener), personne, absolument personne (sauf cas de fraudes ou supercheries démasquées), n’a atteint de façon objective et empiriquement honnête le score d’au moins 10 bonnes réponses sur 25. Jusqu’à preuve du contraire, la clairvoyance et la télépathie sont des mythes, des croyances sans fondement, du charlatanisme…

Détection mathématique de triche dans une classe d’école

Je propose un exercice inédit que j’ai inventé.

On suppose que la distribution des notes dans une classe de N élèves est une courbe gaussienne normale centrée sur une moyenne. Ces notes forment une courbe gaussienne classique qui reste habituelle, sans changements de notes majeurs.

Je pose m=intégrale de x=a à x=b de (1/(k*(2*pi)^0.5)) * e^(-(x-µ)²/(2*k²)).

m est ici une valeur entre 0 et 1, c’est la proportion d’élèves ayant une note comprise entre a et b, selon un écart-type k.

Il peut arriver que les élèves se mettent à travailler mieux afin d’améliorer leur note, ce qui modifierait du coup la courbe gaussienne. L’intérêt est d’évaluer la variation par rapport à la courbe habituelle.

Supposons un cas où la moyenne de la classe est µ = 14,01 (sur 20), lors du dernier trimestre par exemple. Son écart-type est de k = 3,76. On obtient alors une courbe gaussienne particulière, véritable signature instantanée de la classe.

On va ensuite exposer une problématique. Lors du trimestre suivant : parmi une classe de N élèves, x élèves obtiennent chacun une note supérieure ou égale à 18. La question : y a t-il eu triche ?

Probabilité pour que x élèves aient plus de 18 sur 20 : on calcule T = l’intégrale de x=18 à x=20 de (1/(3,76*(2*pi)^0.5)) * e^(-(x-14,01)²/(2*3,76²)) avec un écart-type k = 3,76.

La probabilité devient P = (N! / ((N-x)!*x!)) * T^x * (1-T)^(N-x).

Si la probabilité est inférieure à 0,05, on peut légitimement soupçonner une fraude. Dans notre exemple ci-dessus, si x est supérieur ou égal à 5, on peut avoir des doutes. Parmi ceux qui ont eu plus de 18/20, il y a des fraudeurs mais il peut y avoir aussi ceux qui ont mérité leur note. On peut détecter la fraude mais on ne peut pas identifier les tricheurs, le meilleur choix est de coller un zéro à tout le monde, comme sanction, on est sûr alors d’avoir atteint les tricheurs, même si on fait des victimes collatérales…

  • Voici un autre débat : la suppression des notes à l’école.

Certains pédagogues ont l’idée saugrenue de supprimer la notation des élèves… Supprimer les notes, c’est tromper les élèves. Et surtout, comment ferait-on pour détecter la probabilité de triche lors d’un examen de mathématiques par exemple ?

Le but des mauvaises notes quand on en reçoit, c’est d’identifier ses propres erreurs, de se remettre en question dans le but de s’améliorer. Je n’ai pas toujours été bon en maths autrefois (il y a bien longtemps), et une mauvaise notation contraint à redoubler d’efforts pour progresser. Quand on veut comprendre, on finit toujours par y arriver, on le peut. Les efforts réguliers produisent toujours une progression. Se dire « Je suis nul en maths » c’est en fait un effet nocebo (contraire du placebo), une méthode Coué avec des effets délétères et fatalistes. Si on ne note plus les élèves, on ne fera que masquer et nier un problème de plus. L’école est nivelée par le bas, et bientôt il ne finira par ne plus rien rester du tout !

  • La notation sur 10 ou sur 20 offre une évaluation fiable : elle est le meilleur critère pour évaluer le travail de l’élève et permet aux parents de savoir où en est leur enfant. La note est la mesure d’une compétence. Elle n’a pas pour seule vocation de « juger » un élève ni même de les comparer entre eux. Elle a aussi pour avantage d’être simple, en comparaison des autres systèmes d’évaluation par « acquisition de compétences » avec des codes de couleurs (rouge, orange, jaune, vert), de lettres (ABCD) ou de chiffres (de 1 à 4). Avec ces systèmes alternatifs, il serait plus complexe pour les enseignants de mesurer ce qui est acquis et ce qui ne l’est pas. Il y aurait aussi un risque que ces barèmes aboutissent à trop de laxisme. Les notes sur 10 ou sur 20 peuvent inciter les élèves à travailler pour progresser, à condition que les professeurs précisent ce qu’il faut améliorer et encouragent les élèves. A l’école, la sélection est naturelle, elle ne dépend que des efforts des élèves, un prof ne donne pas des mauvaises notes par injustice ni par sadisme. Moi je le dis clairement : niveler l’école selon les désirs des élèves ou celui de leurs parents, pour leur faire plaisir, ça ne les aide absolument pas ! Le progrès scolaire n’est possible qu’avec une contrainte ou une difficulté, une bonne note ça doit se mériter. Le remède contre l’échec scolaire ne tient qu’en un seul mot : le travail, aussi bien de la part des profs que celle de leurs élèves. La question à se poser : le problème est-il la notation elle-même ou les échecs qu’elle révèle ?

 

Comment une telle erreur de pourcentage est-elle possible ?

CmwodTyXYAQy_Hk.jpg-large

J’ai aperçu récemment cette image sur Twitter.

L’image est un extrait du JT de France 2, diffusé le 19 février 2013, dans lequel un économiste diplômé de l’Ecole supérieure de commerce raconte qu’une succession d’une élévation de 6% par an consécutive sur 5 ans est égale à 30% en 5 ans, selon une simple multiplication.

Mais c’est faux !

En effet, quand on parle de pourcentages, ils ne s’additionnent pas de façon linéaire, car ils suivent une courbe parabolique.

  • Une valeur qui augmente de 30% (donc x = 0,3) en 5 ans, ça équivaut à multiplier la valeur initiale par 1,3, puisque (1 + x)^1 = 1,3.
  • Mais une valeur augmenté de 6% par an (donc x = 0,06), sur 5 années, ça équivaut à multiplier la valeur initiale par 1,33822, puisque (1 + x)^5 = 1,33822.
  • En mathématiques : 5 hausses successives de 6% ne donnent pas une hausse de 30%. En réalité ce sont 5 hausses de 5,39% par an qui correspondent à 30% sur 5 ans.

En France, la notion de pourcentage est étudiée en classe de 4e, au collège.

Comment est-il possible qu’une bourde pareille se soit glissée dans le JT, alors que l’économiste (de niveau universitaire) est présumé maîtriser les notions de pourcentages ?

  • Peut-être pour simplifier au maximum pour le public, mais même avec une erreur de 3% environ, cette différence existe. En maths, comme la hâte, la simplification maximum est l’ennemie de l’exactitude.
  • C’était peut-être un test délibéré, afin de voir si ça passe ou pas. C’est passé à l’antenne, et c’est passé (presque) inaperçu. Il est donc possible de raconter n’importe quoi sans conséquence, du moins à la télévision… Ce n’est pas rassurant.

 

Exercice de maths

maths

Sauriez-vous résoudre l’exercice ? Je ne demande pas l’aumône, puisque je connais déjà la solution.  😉

 

Miss France : hasard ou déterminisme ?

12317514_915114218566031_1782966905_n

Dans la couverture du magazine ci-dessus, on voit 6 candidates du concours Miss France, choisies pour la photo de couverture, parmi un total de 31 candidates.

Or la nouvelle Miss France, élue samedi 19 décembre 2015, est Miss Pas-de-Calais, qui figure parmi les 6 candidates de la couverture de Télé Poche, ci-dessus.

On me demande : c’est du hasard que la gagnante soit sur Télé Poche avant d’être élue, ou alors c’est truqué ?

J’ai la réponse à cette question.

Premièrement, j’ai réalisé un script Perl qui effectue un calcul stochastique.

Voici le code source :

 

$n = 0;
for ($t = 1; $t <= 1000000; $t++)
{
$p = 31;
for ($f = 1; $f <= 6; $f++)
{
$alea = 1 + int(rand($p));
if ($alea == 1)
{
$n = $n + 1;
}
}
}
$n = $n * 100 / 1000000;
print(« $n % \n »);

 

Selon le résultat du script Perl, il y a environ 19,4% de probabilité pour que la future gagnante soit parmi les 6 candidates de la photo de couverture du magazine.

Mathématiquement, la probabilité est P = 1 – (1 – (1/31))^6 = 0,177.   Soit 17,7%.

Ce qui suit ci-dessous est la réédition du 4 janvier 2016 :

Amélioration du calcul stochastique avec un nouvel opérateur conditionnel (=~) : je trouve environ 15% comme résultat, qui demeure presque identique à ce que j’ai trouvé.

Donc oui, cela peut être dû au hasard.

Mais ce n’est pas fini ! On me dit aussi : « Mais attendez ! Sur la photo des 6 candidates parmi 31, il y a la nouvelle Miss France mais aussi ses 3 premières dauphines ! ».

Quelle est la probabilité pour que Miss France 2016 apparaisse avec ses 3 premières dauphines sur une photo de 6 candidates à partir d’un ensemble de 31 candidates, sachant que la photo a été réalisée avant l’élection ?

Mon résultat par calcul stochastique, avec le nouvel opérateur conditionnel (lequel détecte des nombres précis dans une chaine de caractères), livre ce résultat implacable : la probabilité est de 0,012%, soit environ une chance sur 8475. Là, ce n’est plus du tout un hasard…

 

Le nouveau code Perl amélioré :

$lot = « -« ;
$n = 0;
for ($t = 1; $t <= 1000000; $t++)
{
$p = 31;
$lot = « -« ;
for ($f = 1; $f <= 6; $f++)
{
$alea = 1 + int(rand($p));
$lot = « $lot-$alea »;
} #2
if (($lot =~ « -1-« ) and ($lot =~ « -2-« ) and ($lot =~ « -3-« ) and ($lot =~ « -4-« ))
{
$n = $n + 1;
}
$lot = « -« ;
} #1
$n = $n * 100 / 1000000;
print(« $n % \n »);

 

—-

John Philip C. Manson

 

P.S.: Je trouve que Miss Provence était la plus jolie… Mais bon, la beauté est un critère très subjectif… Et dans l’ensemble, je les trouve toutes bien maigres cette année…