Quartet d’Anscombe en Python

En 1973, le statisticien Francis Anscombe a construit un jeu de données constitué de 4 ensembles (d’où le nom Quartet d’Anscombe) dans le but de démontrer l’importance de tracer des graphiques avant d’analyser des données, car cela permet notamment d’estimer l’incidence des données aberrantes sur les différents indices statistiques que l’on pourrait calculer.

Ces jeux de données possèdent les mêmes propriétés statistiques suivantes :

  • Même moyenne
  • Même variance
  • Même coefficient de corrélation
  • Même équation de droite de régression linéaire
  • Même somme des carrés des erreurs relativement à la moyenne

Malgré les fortes similarités, leurs représentations graphiques sont radicalement différentes, ce qui montre le rôle indispensable des graphiques dans chaque analyse de données !

Source des données : Wikipédia

Code Python :

Le théorème central limite en Python

En théorie des probabilités et en statistique, les lois normales sont parmi les lois de probabilité les plus adaptées pour modéliser des phénomènes naturels issus de plusieurs événements aléatoires.

Aussi, le théorème central limite (aussi improprement appelé théorème de la limite centrale ou centrée) établit la convergence en loi de la somme d’une suite de variables aléatoires (indépendantes, et identiquements distribuées) vers la loi normale.

Intuitivement, ce résultat affirme que toute somme de variables aléatoires indépendantes tend dans certains cas vers une variable aléatoire gaussienne.

Notre simulation vise à reproduire ce résultat, mais en utilisant le théorème central limite.

En sommant par colonne, les résultats d’un tirage aléatoire d’une matrice de taille 10000 x 10000, on obtient :

L’histogramme se rapproche fortement de la courbe en cloche, c’est l’illustration du TCL.

Code Python :

ARIMA et le PIB Français en Python

Une série temporelle, ou série chronologique est une suite de valeurs numériques représentant l’évolution d’une quantité spécifique au cours du temps.
De telles séries sont analysées mathématiquement à travers des concepts de probabilités et de statistique, afin de comprendre leurs évolutions passées et pour en prévoir le comportement futur.

En statistique et économétrie, et en particulier en analyse de séries chronologiques, un modèle de moyenne mobile intégrée autorégressive (ARIMA) est une généralisation d’un modèle de moyenne mobile autorégressive (ARMA) et permet de faire ce type d’analyse.

Je me suis intéressé au modèle ARIMA, et j’ai choisi l’évolution du PIB Français depuis 1950 (Source : Insee) comme série temporelle, pour analyser le comportement, et réaliser des prédictions sur le PIB de la France.

Avant de prédire, constater l’évolution : le PIB a presque été multiplié par 10 en 70 ans !
De plus, le ralentissement causé par la crise des subprimes peut être constaté.

L’étape d’après consiste à utiliser des modèles statistiques (que je ne maîtrise pas encore, pour l’instant !) basés sur quelques paramètres pour réaliser les prédictions.

En fonction des paramètres, les prédictions changent de manière significative, d’où l’important bagage statistique requis pour la compréhension de ces paramètres et de leurs valeurs.

Les résultats de la prédiction sont présentés ci-dessous :

En orange, les vraies valeurs et en bleu les prédictions.
Selon le modèle, le PIB de la France atteindra les 3000 md d’€ en 2040.

Code Python :