Une élection serrée implique des sondages serrés - PollsPosition

Pourquoi on aurait tort de s’exciter autour du RN et de LREM

Une élection serrée implique des sondages serrés

Par Alexandre Andorra

Le 08/05/2019

Nos analyses - où vous voulez, quand vous voulez Abonnez-vous au Podcast

Ca y est, la campagne a démarré. A quoi le voit-on ? Jetez un œil à votre fil Twitter ou à une chaîne d’info continue. A un moment, il y a de grandes chances que vous voyiez apparaître un titre familier : « Européennes : un sondage donne le RN devant LREM ». Parfois le titre met en avant deux sondages ; ça fait toujours un sondage de plus...

Ces titres étaient assez rares. Mais toutes les bonnes choses ont une fin – probablement parce que le nombre de sondages publiés augmente à mesure que la campagne avance. C’est exactement pour cela que nous avons créé PollsPosition , donc au lieu de nous plaindre, tentons de débunker les mythes les plus fréquents, et dressons un portrait que nous espérons plus précis des rapports de force.

L’élément de langage du moment : « LREM est en difficulté dans les sondages. Le RN est même en tête dans tel et tel sondage ! »

Première observation: LREM n'est pas en difficulté dans les sondages. Son soutien médian est stable, aux alentours de 22,5%, avec un intervalle à 5 chances sur 6 (83%) entre 19,5% et 25%. De même, le RN est stable, avec 5 chances sur 6 d’obtenir entre 18,5% et 24% des voix et une médiane à 21,5%.

Le soutien populaire obtenu 5 fois sur 6

Les lignes solides représentent le pourcentage médian de voix obtenu. Les zones translucides représentent l'intervalle où le pourcentage réel a 5 chances sur 6 de tomber (83% de chances). Un intervalle entre 20% et 25% avec une médiane à 22,5% par exemple, signifie que le parti en question a 5 chances sur 6 d'obtenir entre 20% et 25% des voix exprimées, et que la distribution est centrée à 22,5%.
Pourquoi 5 chances sur 6 ? Voyez-le comme la probabilité d'obtenir n'importe quel chiffre sauf le 6 quand vous lancez un dé classique. Survolez le graphe avec votre souris pour voir les détails. Vous pouvez masquer/afficher un parti en cliquant sur son nom dans la légende.

Donc soutenir qu’En Marche a particulièrement souffert la semaine dernière, ou inversement que le RN a progressé n’est pas factuel et consiste à faire du cherry-picking de données : il est toujours possible de trouver des sondages isolés qui montrent que le RN a progressé, mais c’est précisément lié à ce que nous répétons souvent : les points isolés sont soumis à des variations aléatoires, auxquelles la moyenne est moins sensible car les variations ont tendance à se compenser – l’une va à la hausse, l’autre va à la baisse. En cela, la moyenne réduit le bruit statistique.

Autrement dit, si la tendance esquissée par un sondage particulier ne se vérifie pas dans la moyenne, c’est probablement que ce sondage était un outlier plutôt que le premier signe d’un grand pivot. N’ayez crainte : si la majorité des sondages commence à montrer un RN en hausse, la moyenne le reflétera, et le modèle s’en rendra compte.

Mais alors, pourquoi le RN est-il en tête dans certains sondages s’il n’a pas augmenté ? Pour les mêmes raisons, mais je vais y répondre autrement : comme le modèle estime que le RN a 3 chances sur 10 de finir premier , il n’est pas étonnant de voir ce parti en tête dans plusieurs sondages – si je devais parier, je dirais dans 30% d’entre eux.

Distribution de l'écart entre RN et LREM

D’ailleurs, sur les 10 sondages sortis la semaine dernière, le RN est arrivé en tête dans… 3 d’entre eux – je vous assure que j’ai fait le calcul après avoir mon a priori de 1/3 en tête, mais je ne pensais pas que ça fonctionnerait aussi bien ! Vous pouvez vérifier par vous-même avec le tableau en bas de la page des prévisions (de Harris 28 avril à Harris 4 mai). En bref, l’élection est serrée, donc c’est normal que le vainqueur fluctue selon les sondages – c’est l’inverse qui serait étonnant.

Mais si vous nous lisez régulièrement, je ne vous apprends rien – c’est ce que dit le modèle depuis deux mois : l’élection est serrée entre les deux favoris depuis début mars, et elle l’est toujours aujourd’hui. En mars, LREM et RN avaient respectivement 5 chances sur 9 et 3 chances sur 10 de finir premier – soit exactement le même niveau qu’aujourd’hui.

Si la baisse s’accentue pour En Marche, alors Nathalie Loiseau pourra s’inquiéter. Mais en plus de deux semaines avant le scrutin elle peut aussi remonter ou, scénario le plus probable, rester au niveau qui est le sien depuis deux mois.

Quels sont les autres duels intéressants ?

Après le sermon sur la moyenne, le sermon sur la corrélation : quand vous souhaitez comparer deux partis, calculez l’écart entre les deux, ne vous contentez pas de comparer leurs intervalles ou distributions respectifs.

Par exemple, si vous prenez le premier graphe de nos prévisions , ce n’est pas en superposant les distributions de LFI et EELV que vous obtiendrez l’écart entre les deux. Si vous voulez la différence, il faut la calculer. Pourquoi ? Parce que les partis sont corrélés – avec les effets de seuil, ce qui touche un parti n’a pas un impact linéaire sur les autres, comme on le disait la dernière fois.

Cet effet s’observe d’autant mieux sur les partis proches du seuil des 0 sièges :

Distribution de l'écart entre le PS et EELV

On voit bien ici que la différence entre les deux partis n’a pas du tout la même forme que la distribution de chacun de ces partis (cf. premier graphe de notre page prévisions ). L’enseignement en l’occurrence est qu’EELV est désormais nettement favori face au PS, alors qu’ils étaient à égalité en novembre 2018.

Le parti écologiste fait maintenant jeu égal avec LFI, dans ce qui constitue le duel le plus serré de cette élection :

Distribution de l'écart entre LFI et EELV

A grands traits, les deux partis ont environ 2 chances sur 5 de finir devant l’autre, et 1 chance sur 5 de finir à égalité. Si les choses en restent là, cette élection marquera une forte chute pour LFI (-11 points par rapport à la présidentielle 2017), qu’elle finisse devant EELV ou pas.

A l’autre bout du spectre, vous avez les duels où figure LR, intéressants pour leur certitude plutôt que pour leur incertitude. Le parti de droite est en effet quasi-assuré – d’après le modèle et les données actuelles – de finir devant EELV et LFI, mais derrière RN et LREM.

Voici le duel le plus « incertain », mais vous trouverez les trois autres sur la page des prévisions :

Distribution de l'écart entre le RN et LR

LR a donc 7% de chances de faire mieux ou autant que le RN. Cela reste peu probable mais nous ne sommes plus dans le royaume du négligeable. On s’approche des 9 chances sur 10, ce qui permet d’imaginer des scénarios où, pour diverses raisons, les sondages se trompent lourdement dans le sens de LR.

Sur les 800 sondages et 15 élections de notre base de données, les sondeurs se sont trompés d’1,5 point en moyenne (dans un sens comme dans l’autre), tous partis confondus. Ils ont de plus surestimé l'extrême-droite de 2 points en moyenne – une erreur dans le sens dont a besoin LR – cette tendance étant fortement influencée par les cinq dernières élections.

Bien sûr, l’écart médian en voix entre les deux partis étant de 5 points, il faudrait que toutes les planètes soient alignées en faveur de LR pour que ces scénarios se réalisent – c’est pour cela que le modèle indique une probabilité faible mais clairement supérieure à 0. En comparaison, les 6+ points séparant le soutien médian pour LREM et celui pour LR semblent réclamer une erreur des sondages encore plus forte que d’habitude. D’où les 3% de chances de faire mieux ou autant qu’En Marche – toujours pas impossible, mais très improbable.

Se focaliser sur les égalités revient à jeter une partie de l’information

Vous avez peut-être remarqué la barre grisée dans les graphes des duels. Elle représente la probabilité que les deux partis considérés obtiennent le même nombre de sièges. Plus elle est élevée, plus elle est probable. Cela nous semble utile car chaque duel est en fait un « truel » – le parti 1 gagne, le parti 2 gagne, les deux partis sont à égalité – donc il ne faut pas oublier ce cas de figure, en général assez probable.

Mais il y a le revers de la médaille : ne se concentrer que sur ce cas de figure ; ne remarquer que les sondages qui montrent LREM et RN à égalité par exemple – comme on trouve plus de voitures rouges dans la rue quand on en cherche activement. Ce faisant, on jette une grosse partie de l’information disponible.

Reprenons le duel LFI-EELV par exemple, le duel le plus serré et où le scénario « égalité » est le plus probable avec près d’1 chance sur 5. Précisément, en se focalisant sur cette chance sur 5, on oublie ce qu’il se passe 4 fois sur 5 – on jette 80% de l’information disponible.

C’est pourquoi nous essayons de ne pas nous focaliser sur un scénario très précis dans nos analyses, et qu’à chaque fois qu’on voit des analyses qui se concentrent sur un sondage où deux partis sont à égalité, on se demande : pourquoi privilégier ce sondage en particulier ? Les autres sondages donnent-ils aussi ces partis à égalité ? Quels biais de confirmation peuvent amener l’auteur à se focaliser sur ce scénario ?

Les sondages et le modèle tiennent-ils compte de l’abstention ?

C’est une question qu’on nous pose souvent. Pour les sondages, cela dépend vraiment des instituts et je me garderai bien de parler en leur nom. A grands traits, les sondeurs posent une question à des électeurs inscrits sur les listes électorales pour distinguer les abstentionnistes – cette question change selon l’institut. Ensuite, ils demandent leur intention de vote à ceux qui pensent avoir une chance – même minime – de voter. L’abstention est ainsi prise en compte – à divers degrés – par les intentions de vote. Ce qui semble logique : difficile d’imaginer les sondeurs demander leur intention de vote à des personnes qui se disent sures de ne pas voter.

Donc je pense que ce qu’on nous demande en réalité c’est : « les sondages tiennent-ils compte de l’incertitude liée à l’abstention ? ». Et là la réponse est non : les sondages reportent des moyennes, et les intervalles qui les accompagnent ne représentent que l’erreur d’échantillonnage – celle liée au fait qu’on n’interroge qu’une partie de la population – et pas les autres sources d’erreur.

Pour quantifier l’incertitude, il faut un modèle. Les méthodes qu’on utilise sont précisément faites pour cela. L’erreur que le modèle simule n’est d’ailleurs pas conceptuellement restreinte à l’abstention : elle peut être due à une erreur dans la méthode des sondages eux-mêmes, à un évènement médiatique la veille de l’élection, à un attentat, etc. Mais le résultat est toujours le même : ces variables génèrent de l’incertitude, qu'il faut prendre compte.

Ce qui m’amène à la conclusion : des dizaines d’autres variables que l’abstention influencent les résultats d’une élection, donc attention à « l’effet voitures rouges » (à trop se focaliser dessus, on risque d’oublier les autres variables). D’autant qu’on peut douter de l’effet cygne noir de l’abstention : historiquement, elle est rarement très éloignée d’une élection à l’autre – elle a beaucoup plus de chances de passer de 60 à 55 que de 60 à 20 par exemple. Il y a de plus des effets plancher et plafond – des électeurs qui votent toujours/jamais quelle que soit l’élection. Tout cela limite ses effets disruptifs.

Enfin, l’abstention n’est peut-être pas la variable la plus intéressante scientifiquement. Ce n’est pas elle qui explique pourquoi certains électeurs ne votent pas : elle est un agrégat d’autres variables qui, elles, expliquent potentiellement l’absence de vote – météo le jour du vote, désintérêt pour la vie publique, problèmes d’inscription sur les listes électorales, incompréhension de l’élection, manque de représentativité des idées…

******

Vous avez d'autres questions sur le modèle ou l'évolution de la campagne ? Envoyez -les nous, on se fera un plaisir d'y répondre !

Alexandre Andorra est co-fondateur de PollsPosition.