Le Paradoxe de Simpson


Rien à voir avec notre cher Homer Simpson, le paradoxe de Simpson ou effet de Yule-Simpson est un paradoxe statistique décrit par Edward Simpson en 1951 et George Udny Yule en 1903, dans lequel un phénomène observé de plusieurs groupes semble s’inverser lorsque les groupes sont combinés.

Ce résultat qui semble contradictoire est lié à des éléments qui ne sont pas pris en compte (comme la présence de variables non indépendantes ou de différences d’effectifs entre les groupes, etc.) est souvent rencontré dans la réalité, en particulier dans les sciences sociales et les statistiques médicales.

Ces éléments non pris en compte sont nommés : facteurs de confusions.

Exemple :

Supposons que l’on mesure la performance scolaire de différents élèves en fonction de la quantité de sport pratiqué.

Les résultats sont présentés dans le graphique ci-dessous :

  • l’axe horizontal x (abscisse) représente la quantité de sport pratiqué.
  • l’axe vertical y (ordonnée) représente la performance scolaire.

Dans cet exemple, on voit que parmi les élèves « bleus » ceux qui pratiquent davantage de sport sont meilleurs à l’école et il en est de même dans le groupe « rouge ».

Pourtant, quand on combine les deux groupes ensemble (axes en noir) on a une relation inversée qui semble indiquer que plus on pratique de sport (x élevé), moins on obtient de bonnes performances scolaires (baisse sur l’axe y) : l’observation des deux groupes combinés semble contredire ce qu’on a observé dans chacun des groupes pris séparemment, c’est ça le Paradoxe de Simpson.

x le nombre d’heures consacrées au sport, y les notes.

L’exemple illustre le fait qu’il existe des différences entre les groupes (bleu et rouge) dont on n’a pas tenu compte dans l’analyse. En les négligeant, on peut donc aboutir à des conclusions qui semblent contradictoires.

L’explication peut simplement être que le nombre d’étudiants du groupe bleus est (nettement) différent de celui du groupe rouge, le nombre d’étudiants est ici le facteur de confusion.

Conclusion : Toujours faire attention aux conclusions tirées à partir de données statistiques, l’erreur écologique, le paradoxe de Simpson et bien d’autres peuvent fausser notre interprétation finale.

Enfin, j’aimerais finir sur une citation d’un économiste, démographe et sociologue français Alfred Sauvy :

« Les chiffres sont des êtres fragiles qui, à force d’être torturés, finissent par avouer tout ce qu’on veut leur faire dire »