
Avouons-le : si nous essayons de ne pas y croire, nombreux sont ceux qui suivent avec attention les sondages. Les uns sont grisés quand un candidat atteint des sommets, les autres vont nous sortir la fameuse marge d’erreur pour essayer de discuter les sondages. Tiens tiens, une marge d’erreur… Mais bien sûr, mon sang de physicien ne fait qu’un tour : si tout sondage, tout échantillon statistique comporte bien une marge d’erreur, celle-ci est intrinsèque à la mesure. Il est impossible de faire des statistiques vraiment fiables sur des petits nombres : si on fait deux fois la même mesure sur le même ensemble (la même photographie comme disent les sondeurs), il est relativement peu probable de trouver deux fois le même résultat à cause de cette marge d’erreur intrinsèque.
Or que se passe-t-il lorsqu’on
compare les différents sondages ? Les échantillons réduisent comme peau de chagrin : un sondage récent concernait 870 personnes, dont seulement 678 exprimaient un vote au second tour. La marge d’erreur est de l’ordre de 1 sur la racine carrée de l’échantillon : on frise donc dans la plupart des sondages au second tour les 4% d’erreur. D’un sondage à l’autre, on devrait donc voir une danse des courbes “explorant” ces 4% d’erreurs. De fait, je me suis amusé à faire quelques petites simulations par ordinateur, en considérant 678 électeurs, votant au hasard soit entre Ségo, soit entre Sarko (et arrondissant à l’entier le plus proche (1) pour Sarko, déduisant par différence le score de Ségo, par ailleurs je n’ai pris qu’une seule série de nombres aléatoires pour mes sondages). Les simulations sont dans la figure, avec les cotes associées (j’ai pris Sarko gagnant à tous les coups
puisque lui-même pense qu’il a déjà gagné). J’ai sondé mes électeurs 20 fois de suite. On voit clairement que les intentions de votes fluctuent énormément et s’inversent plusieurs fois : même à 51-49, Ségo atteint 53 par moments, à 53-47, on arrive à 50-50, mais on a aussi une pointe à 56 pour Sarko ! La courbe indexée “Réel” représente l’évolution des enquêtes depuis le fameux discours de Sarko (j’ai trouvé 12 sondages consécutifs où il était gagnant, mais il paraît qu’on est pas loin de 20 maintenant, source :
sondages 2007). Or on voit à l’oeil nu que les courbes varient extrêmement peu d’un sondage à l’autre : on a même 4 sondages consécutifs avec à peu près le même score, ce qui n’arrive jamais dans les simulations aléatoires (une fois 3 fois le même score pour 53-47). Les sondeurs me diraient qu’ils ont une façon de corriger, pour lisser les courbes. C’est tout bonnement impossible : encore une fois, l’erreur est intrinsèque au processus même de la mesure ! (sinon, j’engage les sondeurs à immédiatement soumettre leur technique à Nature, cela peut intéresser pas mal de monde). A dire vrai, j’ai l’impression que la fameuse méthode des quotas ne peut même qu’amplifier ces erreurs (puisqu’on échantillonne par tranche sur des populations encore plus petites, et donc je ne vois pas comment les erreurs sur une population peuvent compenser celles faites sur une autre population puisque celles-ci sont différentes).
Histoire de quantifier un peu plus tout cela, j’ai fait travailler ma cellule de sondage virtuelle d’arrache-pied pour lui faire faire 100000 sondages sur ma population à 52% sarkozyste. La courbe ci-contre donne le pourcentage de sondages donnant un résultat donné (on retrouve évidemment une gaussienne). On voit très clairement qu’à peine 20% des sondages donnent le “bon” résultat, qu’au contraire 40% des sondages se trompent de plus de deux points, et 20% donnent Sarko à 50% ou moins. Cela relativise considérablement les disours du genre “Ségo s’écroule” quand elle perd 1 point par rapport au sondage précédent. De plus, on voit que dans une période où l’ opinion est à 52-48, 1 sondage sur 5 donne carrément le mauvais résultat, tandis qu’un autre sondage sur 5 donne une victoire à plates-coutures du bon candidat. Le tout au même moment, sur le même échantillon, je vous le rappelle ! Evidemment, cela ferait désordre si les Instituts de sondages donnaient des résultats si contradictoires…
Pour conclure, il me semble que la multiplication des sondages actuellement est potentiellement très mauvaise pour les instituts, car comme ils donnent tous les mêmes résultats à un point (deux ?) près, cela révèle sans ambiguité à mon avis qu’ils sont complètement truqués !
(1) et pas la partie entière comme je l’avais fait pour la première version de ce billet