Le classement des sondeurs

Nos analyses - où vous voulez, quand vous voulez Abonnez-vous au Podcast

PollsPosition calcule son classement en analysant la performance historique de chaque sondeur au premier tour de toutes les élections présentant assez de sondages ¹ .

Pourquoi le premier tour ? Principalement parce que les cinq grandes familles politiques y sont (presque) toujours représentées, ce qui apporte de la stabilité et donne une base de comparaison. Et accessoirement, la multiplicité des candidats au premier tour complexifie nettement le travail du sondeur par rapport au second tour. Notre hypothèse est que cela permet d'évaluer plus finement la qualité de chaque institut - "qui peut le plus peut le moins".

Avec tous ces filtres, notre classement s'établit sur près de 800 sondages, et prend en compte les tailles d'échantillon, les dates de terrain, l'ancienneté de l'institut, et la performance des autres sondeurs au cours de la même élection.

Si vous mourrez d'envie de découvrir notre méthode, vous en trouverez une présentation plus détaillée ci-dessous. Si vous avez autre chose à faire - c'est dommage, mais on comprend - vous pouvez vous contenter de regarder les notes obtenues par chaque institut pour chaque parti. Elles sont précisément faites pour synthétiser nos résultats, même si elles ne sauraient s'y substituer.

Institut	Extrême-gauche	Gauche	Centre	Droite	Extrême-droite
BVA	D	A	B	C	D
CSA	C	A	D	D	D
Elabe	A	C	B	B	A
Harris	A	A	C	C	A
Ifop	C	D	D	B	C
Ipsos	B	C	A	A	A
Kantar	D	B	A	A	B
Odoxa	A	B	A	D	B
OpinionWay	B	D	C	A	C

Sources : Commission des sondages, sites des sondeurs, Sondothèque de Sciences Po, archives des journaux, sites d’open data et moteurs de recherche ; calculs PollsPosition sur 748 sondages réalisés par l'ensemble des instituts de sondages (Ifop, Kantar Sofres, Ipsos, BVA, CSA, Harris Interactive, OpinionWay, Odoxa et Elabe).

Ce tableau documente la note (allant en décroissant de A à D) de chaque sondeur pour chaque parti au premier tour de quinze élections présidentielles, législatives, européennes et régionales. Les notes sont régressées vers la moyenne pour tenir compte du nombre d'élections que chaque institut a couvert.

Une note de A indique que l'institut fait partie en moyenne des 25% les plus performants pour ce parti. Les 25% suivants obtiennent la note de B, et ainsi de suite jusqu'à D. Autrement dit, un institut ayant A a mieux performé que l'ensemble des sondeurs en moyenne, tandis qu'un D traduit une moins bonne performance moyenne. B et C sont des mesures intermédiaires, signalant respectivement une performance légèrement supérieure ou inférieure à la moyenne.

Par exemple, en moyenne, Kantar a mieux évalué le candidat de droite que les 3/4 des sondeurs, mais il a sous-performé le marché pour le candidat d'extrême-gauche.

Ce qui suit est une présentation plus détaillée de la méthode nous permettant d'établir le classement.

Comment PollsPosition constitue-t-il son classement des sondeurs ?

Comparé aux États-Unis, le traitement statistique des élections dans la presse française reste artisanal. Le suivi des intentions de vote est assimilé à une course hippique où la spéculation informée occupe beaucoup plus de place que l’utilisation systématique des informations empiriques disponibles. Non pas que celle-ci soit inutile ou que celle-là soit la panacée. Mais il nous semble qu’un mix des deux est complémentaire.

L’approche actuelle, où chaque nouvelle observation chasse l’ancienne, ne tire pas pleinement profit des informations fournies par les sondages d’intentions de vote. Parce qu’on a le nez sur la vitrine, on n’a pas la vue d’ensemble . Le consensus est alors plus difficile à repérer que les données aberrantes, qui attirent notre œil parce qu’elles semblent raconter une autre histoire – même si ce n’est pas la bonne.

Deuxièmement, le traitement médiatique des sondages en France met implicitement tous les instituts sur le même plan, ne tenant compte ni de leurs performances historiques, ni de leurs méthodologies, ni de la taille de leurs échantillons. Notre classement vise à changer cet état de fait, en introduisant une méthode scientifique d'interprétation des sondages. Une méthode reproductible et systématique, et non plus une analyse au doigt mouillé cherchant à confirmer ce que l'on pensait déjà.

L’idée est simple : certains sondeurs sont-ils structurellement meilleurs que d’autres ? Si oui, pourquoi ? Cela vient-il de leur méthodologie ou de facteurs exogènes ? Les sondeurs les plus connus ou les plus anciens sont-ils les meilleurs ? Les meilleurs aujourd’hui seront-ils les meilleurs demain ?

Plus globalement, le but est aussi d’interroger l’idée reçue selon laquelle « les sondages se trompent tout le temps » : qu’est-ce que signifie se tromper pour un sondeur ? Peut-on mieux faire avec les méthodes actuelles ? Y a-t-il d’autres méthodes de mesure d’intentions plus efficaces ?

L'état de l'art

A notre connaissance, il n’existe aucun classement des sondeurs dans le paysage français. Par classement des sondeurs nous entendons une classification selon leur performance passée. Une telle classification prend en compte l’ancienneté des instituts, leur méthodologie ² , la précision historique, la performance des autres sondeurs analysant la même élection, etc.

Au moins deux difficultés apparaissent quand on entreprend cette tâche. D’une part, le paysage politique français est assez complexe, notamment du fait de son multipartisme à deux tours – menant à des scénarios plus divers que le bipartisme à un tour des États-Unis par exemple.

De manière plus pratique encore, la France ne compte que onze instituts de sondages ³ actifs dans le domaine des études d’intentions de vote, quand les États-Unis en dénombrent plusieurs centaines. Cela induit une baisse du nombre de sondages dans notre base de données, mais ne remet cependant pas en cause le principe et l’intérêt d’un classement comparatif.

Etape 1 : collecter et trier les sondages

Cela paraît trivial, mais c’est assez compliqué. Nous avons passé des heures à chercher et collecter les sondages d'élections présidentielles, législatives, européennes et régionales, en remontant jusqu’en 1965 (date de la première élection présidentielle au suffrage universel). Résultat : notre base de données contient tout simplement tous les sondages dont nous avons eu connaissance – soit environ 1500 sondages.

Les données n’étant jamais parfaites, nous avons dû faire certains arbitrages :

Les sondages sont rattachés à leur date médiane pas à leur date de publication. Par exemple, un sondage réalisé du 2 au 4 février et publié le 7 février sera daté du 3 février.
Nous nommons les sondages en fonction de l’institut, pas du média qui l’a commandé (par exemple, Ifop et non Paris Match). Le but est d’associer le sondage à l’entité qui a le plus contribué à sa méthodologie.
Les vieux sondages n’indiquent pas toujours leur taille d’échantillon. Nous avons contourné la difficulté en générant des échantillons au hasard dans des zones proches de la taille d'échantillon moyenne de chaque institut.
En France, la plupart des sondeurs publient les résultats sur la base des électeurs inscrits sur les listes électorales. Néanmoins, quand un sondage était aussi publié sur la base des électeurs inscrits et certains d’aller voter, nous avons sélectionné cette dernière version.
Quand un sondage est publié en deux versions (une avec un ou plusieurs petits candidats ; une autre sans), nous prenons la version « avec », car nous considérons que c’est aux électeurs de sélectionner les candidats, pas au sondeur.

La distribution par institut de sondage et par élection est inégalitaire : plus un institut est ancien, plus nous avons de données sur lui ; plus une élection est récente, plus il y a de sondages disponibles. Par exemple, l’élection de 1965 n’a été analysée que par l’Ifop, alors que 2012 était suivie par huit instituts. Ce sont des limitations inhérentes à ce sujet d’étude, sur lesquelles nous n’avons pas de prise directe.

Nous pensons cependant qu’il reste quelques sondages dans la nature – notamment pour les anciennes élections, pour lesquelles le travail de numérisation n’a pas été systématique. C’est pourquoi nous travaillons à élargir notre base de données. Malgré les heures que nous lui avons consacrées, il est aussi possible que notre base de données contienne quelques erreurs – introduites par nous-mêmes ou provenant de nos sources.

Nos sources, justement, sont diverses et publiques : la Commission des sondages, les sites internet des sondeurs qui ont publié leurs archives (à cet égard, l’ex TNS Sofres a fait un travail remarquable), la Sondothèque de Sciences Po ⁴ , les archives des journaux, les sites d’open data et, tout simplement, les moteurs de recherche.

Terminons par une question qu’on nous pose souvent : pourquoi ne pas inclure les sondages des primaires dans la base de données ? Premièrement, l’expérience américaine nous indique que les sondages de primaires présidentielles se trompent beaucoup plus que les sondages d’élections générales. Les raisons sont moins liées aux sondeurs ou aux États-Unis qu’à l’exercice des primaires : la participation est beaucoup plus basse ; les candidats sont proches idéologiquement et donc l’électorat passe plus facilement de l’un à l’autre ; les électeurs tardent à se décider. Il est donc fort possible que ces facteurs jouent aussi en France. Deuxièmement, l’exercice des primaires est très récent en France, ce qui diminue la significativité des résultats des sondeurs. Pour ces deux raisons, nous n’incluons pas les sondages des primaires dans notre classement – pour l’instant.

Etape 2 : calculer l’erreur relative par élection

Une fois les données récoltées et nettoyées, nous pouvons commencer à les traiter. Le but de cette étape est de voir à quel point chaque institut s’est trompé au cours de chaque élection et pour chaque parti.

Avant toute chose, le classement ne prend pas compte directement la méthode de collecte, principalement parce que la plupart des sondeurs ont la même – les questionnaires auto-administrés en ligne - ce qui empêche de discriminer de manière objective. Mais nous faisons l'hypothèse que les méthodes de collecte influencent indirectement le classement, dans le sens où une bonne méthodologie est reflétée par une faible erreur sur le long terme. Cela dit, nous encourageons fortement la diversification des méthodes de collecte (téléphones fixes et portables, questionnaires en ligne, big data) ⁵ et modifierons notre pondération le cas échéant, pour privilégier les instituts aux méthodes diversifiées. C'est d'ailleurs déjà ce que nous faisons pour l'agrégateur de popularité , où les sondeurs semblent plus ouverts à l'expérimentation. Espérons que cela soit un prélude aux prochaines élections.

Le modèle commence par agréger les sondages de chaque institut, pour chaque candidat et chaque élection. Par exemple, il calcule le sondage moyen que l'on aurait obtenu pour François Fillon en 2017 si l'on n'avait regardé que l'Ifop.
Le modèle fait ensuite la même chose, mais pour l'ensemble des sondeurs, ce que nous appelons par la suite "le marché". Pour reprendre notre exemple, il regarde l'intention de vote moyenne pour Fillon 2017, tous sondages confondus. Comme signalé plus haut, ces agrégations prennent en compte la date de terrain et la taille d’échantillon de chaque sondage.
Ensuite, pour chaque candidat et chaque élection, le modèle regarde à quel point chaque sondeur s'est éloigné du résultat - ce que nous appelons "l'erreur simple". Il calcule également l'erreur du marché - à quel point le marché s'est-il éloigné du résultat ? Par exemple, si le marché indique 25% pour Fillon en 2017 et que ce dernier obtient 20%, alors le marché s'est trompé de 5 points – l’erreur est la même si Fillon obtient 30% le jour de scrutin.
Enfin, le modèle évalue la distance entre les prévisions du marché et celles de chaque sondeur, obtenant ainsi ce que nous appelons "l'erreur relative". Autrement dit, le modèle observe, à chaque élection, dans quelle mesure chaque institut s'est éloigné du marché.
Cela permet de savoir qui a sous-performé / sur-performé le marché, tout en controlant pour la difficulté de l'élection : connaître l'erreur d'un sondeur est utile, mais ne place pas sa performance dans le contexte historique. Imaginez que l'institut X ait très bien performé en 2017; si le marché a lui aussi très bien visé, on ne peut pas dire que X ait fait mieux que les autres. Mais si le marché a été mauvais, pendant que X s'en sortait très bien, alors on peut conclure que X a surnagé. Inversement, si X loupe complètement la cible une année, mais que c'est aussi le cas pour le marché, alors on peut émettre l'hypothèse que cette élection était particulièrement difficile à sonder et que X ne mérite pas d'être pénalisé outre mesure. L'erreur relative neutralise ces effets contextuels et permet de vraiment comparer les sondages entre eux.

Etape 3 : calculer l’erreur relative totale, la transformer en poids et en faire des notes

Le modèle agrège alors ces erreurs sur toutes les élections, en donnant plus d'influence aux présidentielles et aux élections les plus récentes (celles ayant lieu après 2006). Autrement dit, nous avons établi la performance au cours du temps de chaque sondeur, pour chaque parti (yay!).
Le modèle attribue ensuite un poids à chaque institut, le meilleur (celui qui a la plus petite erreur) pesant le plus et le moins bon pesant le moins. Mais pour constituer une inférence raisonnable des performances futures des sondeurs, ces poids doivent tenir compte du nombre de sondages menés par chacun des instituts. Imaginez que vous avez 10 sondages du sondeur A et 100 sondages du sondeur B; lequel pouvez-vous évaluer avec la plus grande certitude ? B bien sûr, parce que votre échantillon de ses performances passées est 10 fois plus grand, et permet donc d'avoir plus d'informations sur ses performances à venir. En revanche, il y a encore de très fortes chances pour que les résultats de A soient dûs au hasard, et vous êtes obligés de rester sur votre benchmark (par exemple la performance moyenne des sondeurs en France). Vous appliquez le même raisonnement quand vous observez un jeune joueur de foot marquer 2 buts en 2 matchs : vous n'allez pas conclure que c'est le futur Messi; vous attendez de voir ce qu'il donne sur au moins toute une saison - c'est-à-dire sur un plus grand échantillon. En bref : plus votre échantillon est petit, plus la statistique que vous étudiez sera soumise à des variations aléatoires - donc non attribuables à des causes précises. ⁶
Pour prendre en compte cette illusion d'optique statistique, nous régressons les poids attribués aux instituts vers un poids moyen en fonction du nombre de sondages qu'ils ont menés. De cette manière, plus nous avons de données sur un institut, plus son poids reflétera ses performances passées ; moins nous en avons, plus son poids sera proche de la moyenne. Voyez cela comme une façon de suspendre son jugement sur la qualité d'un institut, le temps d'acquérir de nouvelles données.
Ces retraitements nous permettent d'utiliser le classement dans nos modèles et nos agrégateurs , chose qu'il est impossible de faire à l'oeil nu. Voilà ce qu'on entend par méthode scientifique : le classement fournit un système d'analyse, une manière de trier l'information qui vous oblige à prendre en compte les données et réaligner vos opinions si besoin.
Dernière étape, plus ludique que fonctionnelle, nous transformons le poids de chaque institut en une note allant de A à D, que vous pouvez voir dans le tableau en haut de cette page. Soulignons que, grâce à la régression vers la moyenne, les notes tiennent compte de l'ancienneté des instituts - elles compensent l'illusion d'optique dûe aux différents nombre de sondages menés par chaque sondeur. Cela permet de se rendre compte que la hiérarchie change selon le parti analysé et que peu de sondeurs sont structurellement parmi les premiers; d’où l’intérêt d’agréger les sondages plutôt que d’espérer que l’un d’entre eux tire dans le mille.

Il y a beaucoup de choses à dire sur ce classement, mais la première est que la hiérarchie qu'il établit reste mouvante. Avec les nouvelles élections, la position de chaque sondeur évoluera. Ne surinterprétez pas les résultats de ce classement : Elabe et Odoxa, n'ont suivi que trois élections, tandis que les données historiques d'Harris Interactive sont étonnamment peu accessibles. Les erreurs de ces trois sondeurs comportent donc plus de bruit que de signal. Même les anciens, comme Ifop ou Kantar, n'ont suivi qu'une vingtaine d'élections, ce qui reste peu.

Chaque élection permettra de dissiper peu à peu ce brouillard, mais la certitude n'est pas de ce monde. En cela, notre démarche est fondamentalement bayésienne. Une démarche qui peut être résumée par la célèbre phrase (probablement apocryphe) de John Maynard Keynes : "quand les faits changent, je change d'avis. Et vous Monsieur, que faites-vous ?"

Alexandre Andorra, Alexis Bergès et Bérengère Patault sont les fondateurs de PollsPosition. @alex_andorra