Archive for the ‘Proba’ Category

Entropie des mots de passe

Lundi, août 15th, 2011

L’un des derniers xkcd illustre de façon assez intéressante une application de la théorie de l’information pour la mise au point de mot de passe. Quelques explications s’imposent (et on le verra, le cartoon est en fait quelque peu auto-contradictoire).
(Lire la suite…)

Un cygne noir de pétrole

Mercredi, juin 2nd, 2010

Le New York Times -dans un article au titre inspiré de “Spillonomics”- trace un parallèle intéressant entre la crise financière récente et la marée noire du Golfe du Mexique.
(Lire la suite…)

Comment gagner à "Questions pour Un Champion"

Samedi, mai 15th, 2010

Vous le savez peut-être, la fameuse “cagnotte” du jeu télévisé “Questions pour un champion” (QPUC) vient de tomber. Il se trouve que la championne en question, Sophie, est une bonne copine, qui a agi en très bonne scientifique pour remporter la victoire. Retour sur THE stratégie gagnante.
(Lire la suite…)

Probabilité d'exister

Jeudi, octobre 15th, 2009

Je m’étonnais il y a quelques semaines de l’utilisation un peu étrange de probabilités dans la publicité.
(Lire la suite…)

Probabilité et cigarette

Jeudi, juin 18th, 2009

Cette publicité qui passe en ce moment en France m’a un petit peu gêné :
(Lire la suite…)

Probabilité et catastrophe aérienne

Lundi, juin 1st, 2009

La nouvelle du (probable) crash du vol Rio-Paris me glace le sang. A n’en pas douter, d’ici quelque jours, nous allons voir ressurgir dans les media de nombreuses statistiques sur le fait que l’avion est le moyen de transport le plus sûr du monde. Ce matin, j’ai eu envie de chercher les chiffres bruts, avec quelques réflexions en complément.
(Lire la suite…)

Catastrophysiciens et probabilités

Samedi, mai 2nd, 2009

Jon Oliver, du Daily Show, apprend les maths avec les catastrophysiciens
(Lire la suite…)

Marge d'erreur socialiste (II)

Mardi, novembre 25th, 2008

On a vu dans le billet précédent qu’une marge d’erreur matérielle existait lors d’un vote, et que si cette marge d’erreur matérielle était trop grande, il est impossible d’avoir un résultat fiable lorsque les résultats sont trop serrés. D’où la question suivante dans le cas du PS : à partir de quel degré de fiabilité des résultats peut-on valider le vote ?
(Lire la suite…)

Sondages et marges d'erreur

Vendredi, février 16th, 2007


Avouons-le : si nous essayons de ne pas y croire, nombreux sont ceux qui suivent avec attention les sondages. Les uns sont grisés quand un candidat atteint des sommets, les autres vont nous sortir la fameuse marge d’erreur pour essayer de discuter les sondages. Tiens tiens, une marge d’erreur… Mais bien sûr, mon sang de physicien ne fait qu’un tour : si tout sondage, tout échantillon statistique comporte bien une marge d’erreur, celle-ci est intrinsèque à la mesure. Il est impossible de faire des statistiques vraiment fiables sur des petits nombres : si on fait deux fois la même mesure sur le même ensemble (la même photographie comme disent les sondeurs), il est relativement peu probable de trouver deux fois le même résultat à cause de cette marge d’erreur intrinsèque.

Or que se passe-t-il lorsqu’on compare les différents sondages ? Les échantillons réduisent comme peau de chagrin : un sondage récent concernait 870 personnes, dont seulement 678 exprimaient un vote au second tour. La marge d’erreur est de l’ordre de 1 sur la racine carrée de l’échantillon : on frise donc dans la plupart des sondages au second tour les 4% d’erreur. D’un sondage à l’autre, on devrait donc voir une danse des courbes “explorant” ces 4% d’erreurs. De fait, je me suis amusé à faire quelques petites simulations par ordinateur, en considérant 678 électeurs, votant au hasard soit entre Ségo, soit entre Sarko (et arrondissant à l’entier le plus proche (1) pour Sarko, déduisant par différence le score de Ségo, par ailleurs je n’ai pris qu’une seule série de nombres aléatoires pour mes sondages). Les simulations sont dans la figure, avec les cotes associées (j’ai pris Sarko gagnant à tous les coups puisque lui-même pense qu’il a déjà gagné). J’ai sondé mes électeurs 20 fois de suite. On voit clairement que les intentions de votes fluctuent énormément et s’inversent plusieurs fois : même à 51-49, Ségo atteint 53 par moments, à 53-47, on arrive à 50-50, mais on a aussi une pointe à 56 pour Sarko ! La courbe indexée “Réel” représente l’évolution des enquêtes depuis le fameux discours de Sarko (j’ai trouvé 12 sondages consécutifs où il était gagnant, mais il paraît qu’on est pas loin de 20 maintenant, source : sondages 2007). Or on voit à l’oeil nu que les courbes varient extrêmement peu d’un sondage à l’autre : on a même 4 sondages consécutifs avec à peu près le même score, ce qui n’arrive jamais dans les simulations aléatoires (une fois 3 fois le même score pour 53-47). Les sondeurs me diraient qu’ils ont une façon de corriger, pour lisser les courbes. C’est tout bonnement impossible : encore une fois, l’erreur est intrinsèque au processus même de la mesure ! (sinon, j’engage les sondeurs à immédiatement soumettre leur technique à Nature, cela peut intéresser pas mal de monde). A dire vrai, j’ai l’impression que la fameuse méthode des quotas ne peut même qu’amplifier ces erreurs (puisqu’on échantillonne par tranche sur des populations encore plus petites, et donc je ne vois pas comment les erreurs sur une population peuvent compenser celles faites sur une autre population puisque celles-ci sont différentes).

Histoire de quantifier un peu plus tout cela, j’ai fait travailler ma cellule de sondage virtuelle d’arrache-pied pour lui faire faire 100000 sondages sur ma population à 52% sarkozyste. La courbe ci-contre donne le pourcentage de sondages donnant un résultat donné (on retrouve évidemment une gaussienne). On voit très clairement qu’à peine 20% des sondages donnent le “bon” résultat, qu’au contraire 40% des sondages se trompent de plus de deux points, et 20% donnent Sarko à 50% ou moins. Cela relativise considérablement les disours du genre “Ségo s’écroule” quand elle perd 1 point par rapport au sondage précédent. De plus, on voit que dans une période où l’ opinion est à 52-48, 1 sondage sur 5 donne carrément le mauvais résultat, tandis qu’un autre sondage sur 5 donne une victoire à plates-coutures du bon candidat. Le tout au même moment, sur le même échantillon, je vous le rappelle ! Evidemment, cela ferait désordre si les Instituts de sondages donnaient des résultats si contradictoires…
Pour conclure, il me semble que la multiplication des sondages actuellement est potentiellement très mauvaise pour les instituts, car comme ils donnent tous les mêmes résultats à un point (deux ?) près, cela révèle sans ambiguité à mon avis qu’ils sont complètement truqués !

(1) et pas la partie entière comme je l’avais fait pour la première version de ce billet


Nombre de pages vues : 836989