Prédire les loyers Parisiens avec une régression linéaire

Inutile de rappeler qu’à Paris, les logements sont un vrai parcours du combattant, l’informatique étant un de mes violons d’Ingres, j’ai voulu mettre à l’épreuve la régression linéaire face aux loyers de la capitale.

Pour rappel, un modèle de régression linéaire cherche à établir une relation linéaire (y = ax+b) entre une variable, dite expliquée, et une ou plusieurs variables, dites explicatives.

Le jeu de données utilisé provient d’openclassrooms, et contient 2 informations :

  • La surface du logement
  • Son prix

Ici, la variable expliquée est donc le prix des loyers, et la variable explicative est la surface.

À partir de ces 2 informations, il est possible d’entraîner un modèle, puis de réaliser des estimations du prix, et ce, en fonction de la surface fournie.

On voit clairement que le nuage de points suit un modèle linéaire, c’est-à-dire que le loyer est une fonction de la surface

Ainsi, selon le modèle, un 31m² à Paris devrait coûter 1217€ par mois, en regardant les différentes annonces, pour un modèle prenant en compte uniquement la surface, je trouve que ce n’est pas très loin de la réalité !

Code Python :

L’aiguille de Buffon en Python

Grâce à l’expérience introduite précédemment, je ne regarderai plus un parquet de la même manière, j’ai voulu naturellement essayer et voir jusqu’à quelle précision je pouvais approcher Pi avec cette méthode.

Heureusement, avec un peu de programmation, c’est possible de faire l’expérience en restant assis sur sa chaise !

Avec 2 millions d’aiguilles lancées de façon aléatoire, et en regardant 15 chiffres après la virgule, j’ai un résultat précis à 98% ! Plutôt satisfait.

Modèle trinomial en Python

En finance, le modèle trinomial fournit une méthode numérique pour l’évaluation des options.

Il a été développé par Phelim Boyle en 1986. Il s’agit d’une extension du modèle CRR et est conceptuellement similaire, la principale différence, est que l’on suppose que le prix du sous-jacent peut évoluer de 3 manières différentes (contre 2 précédemment), il peut augmenter, baisser, ou rester constant.

à gauche, les différentes évolutions possibles du prix du sous-jacent, à droite, les valeurs des différents paramètres du modèle.

J’ai appris son existence une fois que j’ai fait l’implémentation du modèle CRR, les ressources sur le modèle trinomial sont assez rares, il n’a d’ailleurs pas de page Wikipédia en français !

Voici le code correspondant en Python :