La fabrique des sondages

facebook twitter google tumblr reddit pinterest email

Horreur, malheur ! Marine le Pen est en tête au premier tour ! C’est un sondage qui l’a dit ! Et deux fois en plus ! Mais que faut-il vraiment penser de ce sondage ? La vérité statistique vaut-elle vérité politique ? D’ailleurs, ce sondage est-il au moins valable statistiquement ? Toutes ces questions ont empêché le Poisson Rouge de dormir, et il est donc parti rencontrer un statisticien (un vrai), qui a répondu à nos questions.

Marine Le Pen à 23%, c’est vraiment possible ?

Ce n’est pas une surprise en tous cas. La stratégie de l’UMP de chasser sur les terres du Front National est évidemment un échec. Le seul résultat concret qu’elle ait amené c’est que les fachos sont sortis du bois, à l’UMP comme ailleurs. Mais les électeurs frontistes continuent à soutenir les Le Pen, d’autant plus que Marine a su rafraîchir l’image du parti (avec l’aide des médias qui participent honteusement à la banalisation du FN). De son côté, le Parti Socialiste est de plus en plus inaudible, entre querelles internes et cache-cache pour les primaires. Ajoutez à ça le conflit Sarkozy-Villepin, le scandale du procès Chirac, Hortefeux, MAM et compagnie, saupoudrez d’un peu de « tous pourris » et vous avez un bon paquet de gens qui se disent que la Marine a peut-être raison.

Les journalistes ont donc eu raison de s’alarmer ?

Pas vraiment. En fait, la seule chose que montre ce sondage, c’est que 23% des personnes interrogées par Harris ont répondu qu’ils voteraient Marine Le Pen au premier tour des élections présidentielles… qui aura lieu dans 14 mois ! Il est complètement idiot de tirer la moindre conclusion d’un tel sondage ! Déjà, les candidats ne sont pas encore connus. Même Sarkozy n’a pas confirmé qu’il y allait. Les primaires socialistes n’ont pas encore eu lieu, on ne sait pas ce que feront le NPA et les Verts, et Mélenchon n’a pas encore été officiellement désigné. Donc présenter un premier tour Besancenot-Mélenchon-Aubry-Sarkozy-Le Pen n’a aucun sens. Les débats sur les programmes n’ont pas commencé non plus : l’élection présidentielle a beau être surtout une histoire de têtes, on peut quand même penser que les programmes influencent au moins un peu le choix des électeurs. Ajoutons également qu’en termes d’élections, plus de la moitié des votants font leur choix définitif dans l’isoloir. Alors qui peut penser qu’à 14 mois de l’élection les gens ont une idée de pour qui ils vont voter ? Enfin, surtout, si on prend en compte les intervalles de confiance, le résultat n’est plus si évident que ça.

Les intervalles de confiance ?

Le principe d’un sondage, c’est exactement celui des problèmes de probabilité comme on peut en faire au lycée. On a une urne avec des boules de toutes les couleurs, on en tire 1000 au hasard, on les compte et on essaie d’en conclure quelque chose sur la composition réelle des boules dans la boîte. Le raisonnement basique c’est donc « on a 23% de boules brunes, 21% de boules bleues et 21% de boules roses dans ce qu’on a tiré, donc on a environ 23% de boules brunes, 21% de boules bleues et 21% de boules roses dans l’urne ». Tout est dans le « environ ». La théorie des probabilités nous apprend en effet que quand on tire au hasard, on fait une estimation du nombre réel, qui sera d’autant plus précise qu’on aura tiré un nombre important de boules, mais qu’en aucun cas on a calculé le nombre réel ! L’intervalle de confiance, c’est la taille de cet « environ ».

Donc le 23% de Marine Le Pen n’est peut-être pas un 23% ?

Ce n’est certainement pas un 23%. Un calcul de probabilité assez rapide montre que quand on interroge 1000 personnes (l’échelle classique des sondages en France), l’intervalle de confiance (à 95%) est au minimum de plus ou moins 2%. Si l’on était rigoureux, on devrait donc dire « le score au premier tour des élections présidentielles de Marine Le Pen a 95% de chances de se situer entre 21 et 25% ». Du coup si on fait pareil avec les autres candidats, on obtient que le score d’Aubry et de Sarkozy est situé entre 19 et 23%. On comprend vite que l’ordre publié par Harris est quand même plus que douteux et que mathématiquement, une configuration avecAubry ou Sarkozy en tête est également possible avec ce sondage.

Le sondage anal est le seul sondage avec le quel on sait à quoi s'attendre...

Tu as encore utilisé un terme technique : l’intervalle de confiance à 95%. Que signifie-t-il ?

C’est la dernière subtilité mathématique que je voulais aborder. Les intervalles de confiance ne sont eux-mêmes pas justes. En théorie, on peut uniquement affirmer que le vrai paramètre a 95% de chances d’être dans l’intervalle qu’on donne. Ça signifie tout de même que dans 5% des cas, le vrai paramètre est en dehors de l’intervalle de confiance donné par le sondage. Revenons à notre urne : il est parfaitement possible qu’on tire un jour des boules qui soient toutes de la même couleur. La probabilité est très faible, mais la possibilité est réelle. La probabilité de gagner au loto est très faible aussi, ça n’empêche pas qu’à chaque tirage, il y ait des gagnants. Pourquoi ? Tout simplement parce que beaucoup de monde joue. Eh bien avec la multiplication des sondages on est en train d’assister à un phénomène analogue : la probabilité qu’un sondage se trompe est relativement petite (mais encore beaucoup plus grande que celle de gagner au loto, soyez-en assurés), mais comme on publie de plus en plus de sondages, on en publie de plus en plus qui sont faux. Il faut donc prendre beaucoup de recul par rapport à leurs résultats.

Pourtant, en refaisant le sondage avec d’autres candidats socialistes, Harris arrive au même résultat pour Marine Le Pen. Peuvent-ils se tromper trois fois de suite ?

Là, on peut avancer deux hypothèses. La première c’est qu’effectivement, on a bien Marine Le Pen à 23%. Comme je l’ai dit précédemment, au vu de la situation politique actuelle, ce n’est pas impossible du tout. D’autant plus qu’on a assisté à un week-end hallucinant, à répéter à tout bout de champ que voter FN c’était être complètement con, ce qui renforce naturellement la position victimaire que ce parti adopte régulièrement. On avait déjà un Front en forme, après le week-end, on n’a fait que le renforcer. La seconde hypothèse, c’est que Marine n’est pas à 23%. Cela signifie que les trois sondages seraient faux. Mathématiquement, il est possible qu’on ait trois fois de suite des résultats faux avec un sondage bien fait, mais cela reste vraiment peu probable. Là, c’est plutôt la méthode d’Harris Interactive qu’on doit remettre en cause. Le sondage par internet est la pire des choses : entre la fracture numérique, la difficulté technique de contrôler l’identité des répondants,  le manque de sincérité des réponses et les incitations financières, on a une sorte de guide de tout ce qu’il ne faut pas faire en termes de sondage. La vérité est sans doute entre les deux : Marine Le Pen est semble-t-il au meilleur de sa forme, mais les sondages Harris surestiment probablement son score réel. Au-delà de ces deux hypothèses, on remarquera que dans les deux nouveaux sondages, les intervalles de confiance se chevauchent toujours, et qu’on ne peut donc toujours rien conclure des chiffres obtenus.

A qui profite le crime ?

Daniel Schneidermann sur @rrêt sur images a plutôt bien analysé la situation. Le premier à tirer profit de cette affaire c’est évidemment le Parisien, qui vend deux journaux sur un même sujet, sans avoir à creuser quoi que ce soit : total bénéf’. Le deuxième, c’est Harris, à qui l’on achète trois sondages coup sur coup, sans que ses méthodes quand même douteuses soient remises en cause. Quoiqu’il en soit, cette affaire montre deux choses. La première c’est que ni les journalistes, ni les politiques, n’ont la culture mathématique suffisante pour pouvoir comprendre ce qu’est un sondage, et que cela conduit à des non-sens totaux dont on fait des débats de portée nationale. La deuxième, c’est que le besoin d’une loi pour encadrer la publication des sondages, que ce soit en terme de nombre, de rigueur scientifique ou de publication des données brutes est de plus en plus évident, et que les députés UMP ont tout intérêt à se dépêcher de se remettre au travail sur la question.

facebook twitter google tumblr reddit pinterest email

7 commentaires sur “La fabrique des sondages

  • Merci pour ta clarté Gilles. Je savais que y’avais un souci avec
    cette histoire de sondage, mais je savais pas a quel niveau. Très bon article.

    Répondre
  • très bon article, clair, net, intelligent. Sur le débat de fond que cela engendre toutefois, il me semble qu’il ne faut pas sous estimer la montée de l’extrême droite à laquelle nous sommes confrontés. Le fait qu’un tel sondage puisse paraître et avoir autant de retentissement est pour moi symptomatique de l’époque que nous traversons. Même si les chiffres sont inexacts, ce sondage représente parfaitement la pente glissante sur laquelle nous nous trouvons. Nous aurions tort de ne pas le considérer, car notre époque est malheureusement des plus réactionnaires, et sans en avoir peur, je constate juste que ceux qu’on disait morts il y a quelques mois sont peut être plus vivants que jamais…

    Répondre
  • Lèche les boulles de l’As (je partage son avis). Ah Ah, il s’appelle le statisticien, le vrai?

    Répondre
  • Le statisticien le vrai souhaite rester anonyme. Il dit qu’il aime bien utiliser le pseudonyme « Smirnov », eu égard à son amour pour la Vodka et pour les probabilistes russes. Nous n’en saurons pas plus…

    Répondre
  • Bon article pour remettre les choses aux clair!
    J aurais aimé en plus une petite stat qui montre l’importance de la manière de poser les questions, etc .. ce qui réduit donc d autant la credibilité de ce genre de sondage

    Répondre
  • Ping : Poisson Rouge » Cantonales que l’amour

  • Ping : La fête aurait dû être belle. Mais… « Le Cri du Peuple

Répondre à Jean B. Annuler la réponse.

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Vous pouvez utiliser ces balises et attributs HTML : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>