L'agrégateur de popularité - PollsPosition

L'agrégateur de popularité

Comment PollsPosition calcule-t-il l'agrégateur de popularité ?

Par Alexandre Andorra

Mis à jour le 21 juin 2018

Agrégateur Analyse

Les prochaines élections vous semblent bien loin. Et pourtant... Les européennes se tiendront dans moins d'un an, suivies par les municipales en 2020, les départementales et régionales en 2021, et les présidentielles en 2022. Autrement dit, au moins une élection par an. Quelle que soit l’élection, les futurs candidats doivent se positionner dès maintenant sur les diverses initiatives du gouvernement Macron.

Et leur sort sera, au moins en partie, lié à celui du président : historiquement, la popularité du locataire de l’Elysée est un bon indicateur des futures performances électorales de son parti.

C’est pourquoi nous avons construit le premier agrégateur de popularité en France. Vous connaissez notre refrain : deux sondages valent mieux qu’un ; et plusieurs valent mieux que deux. En agrégeant les données vous obtenez une vision plus claire, moins volatile, et donc plus fiable : les valeurs extrêmes se compensent, le bruit statistique diminue et vous avez plus de chances de repérer le signal envoyé par les données. D’où l’intérêt de nos agrégations.

Techniquement, l’agrégation se justifie par l’existence inévitable de biais statistiques dans les données utilisées par les sondeurs, aussi bien que dans leurs méthodes. Souvent, ces biais sont propres à chaque sondeur, si bien que l’agrégation de différents sondages, issus de différents instituts, utilisant différentes méthodes, tend à compenser ces imperfections. L’agrégation est d’autant plus utile quand 1/ de nombreux sondages sont disponibles, 2/ ces sondages sont issus de sources (méthodes, échantillons, instituts) différentes, et 3/il est difficile de savoir a priori quel institut sera le plus précis. Le paysage français remplit bien ces conditions.

A l’image de notre modèle des présidentielles, l’agrégateur de popularité utilise tous les sondages, mais les pondère en fonction de la date de terrain ancienneté, de la méthode de collecte, de la taille d’échantillon et de la performance historique du sondeur. Vous trouverez ci-dessous une présentation plus détaillée de notre méthode.

Collecter les sondages

Nous utilisons tous les sondages publics. Nos sources sont diverses et publiques : la commission des sondages, les sites internet des sondeurs, les archives des journaux, les sites d’open data et, tout simplement, les moteurs de recherche.

Si vous constatez qu’il manque un sondage dans notre base de données, c’est probablement que :

  • il est très récent et nous n’avons pas encore eu le temps de l’intégrer
  • nous l’avons intégré sous un nom diffèrent de celui que vous cherchez : PollsPosition nomme les sondages en fonction de l’institut qui l'a conduit, pas du média qui l’a commandé (par exemple, Ifop et non Paris Match)
  • il a été réalisé par un institut inconnu jusque-là, sur lequel nous n’avons pas assez d’informations méthodologiques
  • il a été commandé directement par un parti politique ou la campagne d’un candidat

Les sondages qui ne respectent pas les règles de la commission des sondages ne sont pas inclus dans notre base de données. En particulier, nous excluons de notre base de données les simulations de vote réalisées sur des échantillons d’internautes par des journaux ou tout autre site. D’une part, ces enquêtes n’ont rien à voir avec des sondages au sens statistique du terme – cela revient à mesurer la popularité du PSG en interrogeant ses supporters. D’autre part, ce ne sont même pas des sondages selon la loi : « les enquêtes de ce type, qui ne sont pas menées auprès d’échantillons représentatifs de la population, ne constituent pas des sondages entrant dans le champ de la loi du 19 juillet 1977 ».

La quasi-totalité des sondages de popularité interrogent des échantillons représentatifs de la population française de plus de 18 ans. Par souci d’exhaustivité, nous intégrons aussi les sondages sur d’autres populations (inscrits sur les listes électorales, certains d’aller voter…), mais quand il y a plusieurs versions d’un même sondage, nous privilégions la version représentative de la population adulte. C’est en effet le périmètre d’étude traditionnelle sur ces sondages, ce qui permet une comparaison historique des différentes cotes de popularité.

Enfin, chaque sondage a une date de terrain. Les sondeurs indiquent les dates de début et de fin. Les dates indiquées dans notre modèle correspondent à la date médiane. Par exemple, si un sondage s’est déroulé du 2 au 4 février et a été publié le 7, le modèle le datera au 3 février. Nous ne prenons pas en compte la date de publication – et vous encourageons à en faire de même lorsque vous analysez un sondage. Ce qui compte, c’est le moment où les sondés ont répondu aux questions, pas le moment où leurs réponses apparaissent dans la presse.

Pondérer les sondages

La méthode de collecte des données est au moins aussi importante que leur analyse. Contrairement aux sondages d’intentions de vote, les instituts français utilisent des méthodes différentes quand ils interrogent sur la popularité de l’exécutif. Cela renforce encore la robustesse de notre agrégation. La majorité en reste aux questionnaires auto-administrés en ligne, mais certains – comme parfois l’Ifop – mélangent internet et téléphone. D’autres, comme Kantar TNS, interrogent même leurs panels en face à face. Notre agrégateur donne ainsi plus de poids aux instituts qui recourent à des méthodes de collecte diversifiées ou à l’interrogation en personne.

Au-delà de la méthode, nous tenons compte de la performance historique des sondeurs. Comme le montre notre classement, tous les instituts ne se valent pas. Certains performent mieux sur les partis de gauche, d'autres sur les partis de droite. Notre agrégateur tient compte de ces différences et pondère les sondages en fonction, ce que vous ne pouvez pas faire à l'oeil nu.

Les sondages sont aussi pondérés selon leur taille d’échantillon : un échantillon plus gros donne plus de poids, mais les rendements sont décroissants à partir d’un certain point. L’erreur diminue substantiellement entre un échantillon de 1 000 adultes et un autre de 200, mais elle diminue marginalement entre un panel de 10 000 et une autre de 1 000. Surtout, un échantillon aléatoire de 2 000 réponses est bien plus utile qu’un échantillon biaisé de 20 000 réponses. Au bout d’un moment, la qualité compte plus que la quantité.

Enfin, plus un sondage est récent, plus il a de poids dans l’agrégation. Pour résumer, notre agrégateur tient compte de la méthodologie, de la performance historique, de la taille d’échantillon et de l’ancienneté de chaque sondage.

Satisfaction, approbation, confiance ?

Comparer les sondages de popularité n’est pas toujours immédiat, parce que la question posée varie selon les instituts. Kantar et Elabe demandent aux sondés s’ils font confiance au président pour résoudre les problèmes actuels. Les autres interrogent en général sur l’action du président (Ipsos, YouGov), ou sur la satisfaction envers le président (Ifop, BVA, ViaVoice).

L’idéal serait que la question posée soit la même à travers les instituts (elle est l’est au sein de chaque institut au cours du temps). Mais nous considérons que ces questions sont assez proches pour être agrégées sous l’appellation « popularité ».

Faire parler les données

Pour évaluer la popularité du président et du premier ministre, notre agrégateur prend donc tous les sondages (les points que vous voyez sur le graphique) et les pondère selon les critères détaillés ci-dessus. On obtient la ligne continue que vous voyez sur le graphique, et qui fait ressortir la tendance sous-jacente à partir des données ponctuelles.

Comme toute inférence statistique, cette moyenne est associée à des incertitudes, que nous illustrons avec les deux aires colorées, qui répondent au doux nom "d'intervalles de confiance (IC) à 99%". Malheureusement, cela ne veut pas dire que le vrai paramètre (en l'occurrence la popularité du président) a 99% de chances de se trouver dans cet intervalle - ce serait trop beau; enfin c'est le cas quand on utilise des méthodes bayésiennes, mais ce n'est pas le sujet. Les IC donnent une autre information : ils vous indiquent à quel point votre estimation est fiable en vous montrant la zone dans laquelle elle se situerait si vous pouviez refaire l'expérience - i.e reconduire tous les sondages.

Vous êtes toujours là ? Rassurez-vous, l'interprétation des IC classiques est très contre-intuitive. Retenez simplement que, si l'on pouvait refaire l'expérience, 99 fois sur 100 l’agrégation se trouverait dans l’aire colorée. Evidemment, plus cette aire est large, moins on peut avoir confiance dans notre agrégation.

Cote popularité Macron : l'indicateur agrégé

Par exemple, début octobre, l’indice de popularité d’Emmanuel Macron s’établit à 42%, plus ou moins 3 points. Donc, si l'on pouvait refaire l'expérience, l'indice serait compris entre 39% et 45%, 99 fois sur 100. La largeur de l'aire dépend notamment de deux facteurs : 1/ le degré de désaccord entre les sondages (moins d'accord = plus d'incertitude); 2/ le nombre de sondages sur la période (moins de sondages = plus d’incertitude).

Soulignons également que les cotes de popularité tendent à être plus volatiles en début de mandat, ce qui incite à avoir en tête une diversité de scénarios.

On vous laisse sur ce rappel : les intervalles de confiance ne quantifient que l'erreur d'échantillonage, c'est-à-dire l'erreur dûe au fait que l'on n'interroge qu'une partie de la population (une erreur au bout du compte assez petite quand vous considérez que nous sommes environ 50 millions d'adultes et que les échantillons avoisinent les 1000 personnes). Il faut rajouter au moins deux autres erreurs, plus difficiles à quantifier et souvent plus élevées : le biais d'échantillonage et l'erreur de mesure.

Alexandre Andorra est co-fondateur de PollsPosition.


Nos remerciements à Ifop, Ipsos, Kantar et BVA pour l'accessibilité de leurs archives.