Le Paradoxe de Simpson


Rien à voir avec notre cher Homer Simpson, le paradoxe de Simpson ou effet de Yule-Simpson est un paradoxe statistique décrit par Edward Simpson en 1951 et George Udny Yule en 1903, dans lequel un phénomène observé de plusieurs groupes semble s’inverser lorsque les groupes sont combinés.

Ce résultat qui semble contradictoire est lié à des éléments qui ne sont pas pris en compte (comme la présence de variables non indépendantes ou de différences d’effectifs entre les groupes, etc.) est souvent rencontré dans la réalité, en particulier dans les sciences sociales et les statistiques médicales.

Ces éléments non pris en compte sont nommés : facteurs de confusions.

Exemple :

Supposons que l’on mesure la performance scolaire de différents élèves en fonction de la quantité de sport pratiqué.

Les résultats sont présentés dans le graphique ci-dessous :

  • l’axe horizontal x (abscisse) représente la quantité de sport pratiqué.
  • l’axe vertical y (ordonnée) représente la performance scolaire.

Dans cet exemple, on voit que parmi les élèves « bleus » ceux qui pratiquent davantage de sport sont meilleurs à l’école et il en est de même dans le groupe « rouge ».

Pourtant, quand on combine les deux groupes ensemble (axes en noir) on a une relation inversée qui semble indiquer que plus on pratique de sport (x élevé), moins on obtient de bonnes performances scolaires (baisse sur l’axe y) : l’observation des deux groupes combinés semble contredire ce qu’on a observé dans chacun des groupes pris séparemment, c’est ça le Paradoxe de Simpson.

x le nombre d’heures consacrées au sport, y les notes.

L’exemple illustre le fait qu’il existe des différences entre les groupes (bleu et rouge) dont on n’a pas tenu compte dans l’analyse. En les négligeant, on peut donc aboutir à des conclusions qui semblent contradictoires.

L’explication peut simplement être que le nombre d’étudiants du groupe bleus est (nettement) différent de celui du groupe rouge, le nombre d’étudiants est ici le facteur de confusion.

Conclusion : Toujours faire attention aux conclusions tirées à partir de données statistiques, l’erreur écologique, le paradoxe de Simpson et bien d’autres peuvent fausser notre interprétation finale.

Enfin, j’aimerais finir sur une citation d’un économiste, démographe et sociologue français Alfred Sauvy :

« Les chiffres sont des êtres fragiles qui, à force d’être torturés, finissent par avouer tout ce qu’on veut leur faire dire »

L’erreur écologique

L’inférence écologique présentée précédemment m’a fait découvrir ce qu’on appelle l’erreur écologique.

Encore une fois, rien à voir avec l’écologie, l’erreur écologique est tout bonnement une erreur de raisonnement dans l’interprétation de résultats statistiques au niveau individuel à partir de données agrégées.

Autrement dit, lorsqu’on travaille avec des données agrégées, il n’est pas judicieux de tirer des conclusions sur les individus qui composent un cas observé.

Par exemple :

Observer que les pays catholiques ont des partis démocrates-chrétiens forts ne permet pas de dire que les catholiques votent davantage démocrates-chrétiens que les protestants.
C’est possible, mais rien ne le prouve dans notre raisonnement..

Ici, les données agrégées sont : Les pays catholiques ont des partis démocrates-chrétiens forts

L’interprétation au niveau individuel à partir de données agrégées : les catholiques votent davantage démocrates-chrétiens que les protestants.

Un autre exemple :

L’exemple, mais dans le sens inverse.

En mesurant le QI d’un groupe d’individus, on aboutit à un résultat nettement inférieur à celui du QI moyen de la population.

L’erreur écologique est de considérer qu’en prenant un individu au hasard, ce dernier aura un QI inférieur au QI moyen de la population. Rien ne le prouve.

Mathématiquement, cela s’explique par le fait qu’une distribution mathématique peut avoir une moyenne positive, mais une médiane négative.

Enfin, les interprétations se basant uniquement sur la moyenne sont souvent peu pertinentes, c’est pour cela que d’autres mesures existent (médiane, écart-type, asymétrie, etc..)

Inférence écologique

Le titre fait penser à l’écologie, mais il n’en est rien !

Les sciences sociales sont un ensemble de disciplines académiques ayant en commun l’étude du social humain, et des interactions sociales entre les individus, les groupes et leurs environnements.


En sciences sociales, l’inférence écologique désigne le processus par lequel on cherche à obtenir des conclusions sur les comportements individuels à partir de données agrégées.
Par exemple, à partir des résultats électoraux d’un district et de sa composition démographique, on peut vouloir tirer des conclusions sur le comportement électoral des différents groupes sociaux.

Lors de l’élection présidentielle américaine de 2000, plusieurs bulletins de vote ont été illégalement pris en compte en Floride. Dans un article publié en 2004, Gary King et Kosuke Imai utilisent des méthodes d’inférence écologique pour savoir si ces bulletins ont modifié le résultat final de l’élection.

Gary King, est un politologue et un statisticien américain.
Il est notamment connu pour ses contributions méthodologiques à la science politique quantitative. Il est professeur de sciences politiques à l’université Harvard, il est notamment célèbre pour ses recherches sur l’inférence écologique.

Gary King

Pour finir sur une note française, la start-up LMP, renommé eXplain utilise des algorithmes d’inférence écologique de Gary King pour optimiser le démarchage électoral grâce au big data.