Sentiment Analysis en Python

En informatique, le sentiment analysis est l’analyse des sentiments à partir de sources textuelles dématérialisées sur de grandes quantités de données (big data).

Ce procédé apparait au début des années 2000 et connait un succès grandissant dû à l’abondance de données provenant de réseaux sociaux, notamment celles fournies par Twitter.
Il a pour objectif d’analyser une grande quantité de données afin d’en déduire les différents sentiments qui y sont exprimés. Les sentiments extraits peuvent ensuite faire l’objet de statistiques sur le ressenti général d’une communauté.

Il peut aussi être utilisé pour l’étude de paroles de chansons ou de discours politiques.

Plus surprenant, une étude a montré que le taux d’émotion sur Twitter (espoir, peur, joie) était proportionnel à l’évolution des indices boursiers !

Pour explorer cette démarche, j’ai procédé comme suit :

  • Tirer 10000 tweets parlant du covid-19.
  • Tirer 10000 tweets de manières aléatoires (peu importe leurs sujets).
  • Réaliser des nuages de mots pour chacun des tirages
  • Voir si des mots premiers tirages, se retrouvent dans le second; le cas échéant, ça signifierait que les tweets parlant du covid sont assez récurrents pour apparaitre dans ceux tirés aléatoirement, ce qui n’est guère surprenant vu le contexte .

Les résultats :

Tirage de tweets contenant covid-19 : Sans surprise, la plupart des mots reflètent des éléments d’actualités.

Tirage aléatoire de tweets

Code Python :

Le mois de mai le plus chaud depuis 1979

Le programme Copernicus, a publié récemment un article affirmant qu’au niveau de la planète, nous venons de traverser le mois de mai le plus chaud depuis 1979 (date du début d’enregistrement des données) les données étant publiques, un petit programme informatique permet de confirmer ça !

Par ailleurs, il y’a de fortes chances que les images utilisées par Copernicus soit également faites en Python.

Avant 2020, mai 2016 était le mois le plus chaud

En affichant tous les mois et toutes les années on obtient :

La tendance à la hausse est clairement visible !

Code Python :

Les arbres connectés d’Issy-les-Moulineaux

Le code QR a été créé par Masahiro Hara, ingénieur de l’entreprise japonaise Denso-Wave, en 1994 pour suivre le chemin des pièces détachées dans les usines de Toyota, Il est rendu public en 1999.

QR Code (de l’anglais Quick Response) signifie que le contenu du code peut être décodé rapidement après avoir été lu par un lecteur de code-barres, un smartphone par exemple.
Son avantage est de pouvoir stocker plus d’informations qu’un code à barres, et surtout, il permet de déclencher facilement des actions depuis son téléphone.

Depuis peu, la ville d’Issy-les-Moulineaux a mis en place des QR Code pour 50 arbres dans la ville, ces derniers donnent accès à un site mobile personnalisé, illustré et multimédia (photographies, vidéos, bandes-son) donnant accès à un descriptif complet sur l’arbre.

Étant donné que la ville contient bien plus que 50 arbres, tous les trouver de façon aléatoire risque de prendre pas mal de temps.
Puisque la ville a rendu publiques les données concernant les arbres, et notamment leurs emplacements, l’Informatique peut intervenir !

Je penserai à aller voir le Sephora du Japon à mon prochain passage à Issy !

Code Python :