Analyse émotionnelle des données de tweet à grande échelle par NLTK

introduction

Cette fois, j'ai analysé les données de tweet de ** anglais ** pendant environ un an en utilisant la méthode d'analyse des émotions appelée VADER proposée dans ICWSM-14. Pour VADER, je me suis référé à l'article L'analyse des sentiments est arrivée chez NLTK. Je vous remercie.

VADER VADER est implémenté dans le package de traitement du langage naturel de Python nltk. Essayez de l'utiliser.


In [1]: from nltk.sentiment.vader import SentimentIntensityAnalyzer

In [2]: analyzer = SentimentIntensityAnalyzer()

In [3]: analyzer.polarity_scores("I am happy!!!")
Out[3]: {'compound': 0.6784, 'neg': 0.0, 'neu': 0.179, 'pos': 0.821}

Et "composé", "neg" (nagatif), "neu" (neutre), "pos" (positif) sont émis de 0 à 1.

Ensemble de données et expérience

Tweets en anglais obtenus de l'API Twitter Streaming du 31/10/2014 au 28/10/2015 (je l'ai obtenu de mon senior!). Il y avait 1089358 tweets par jour. Une analyse émotionnelle a été effectuée sur chaque tweet et la valeur de «pos» a été moyennée quotidiennement. De plus, les données finales ont été standardisées de sorte que la moyenne soit de 0 et l'écart type de 1.

Recherche connexe (?)

Dans un article intitulé Twitter humeur prédit le marché boursier, les résultats suivants ont été obtenus en utilisant OpinionFinder, un outil d'analyse de polarité, et GPOMS, qui analyse six types de facteurs d'émotion. A été obtenu. bollen.png On s'attend à ce que la valeur de «pos» cette fois soit proche du résultat Happy d'Opinion Finder et de GPOMS.

résultat

Les résultats obtenus sont tracés sous forme de graphique chronologique. figure_1.png Faites attention au fait que certaines parties dépassent au-dessus.

Thanksgiving (27/11/2014)

figure_1.png

Vacances de Noël et du Nouvel An

figure_1.png

La Saint-Valentin

figure_1.png

en conclusion

Tout le monde est positif lorsqu'il y a un événement pour s'amuser! !! Je voulais analyser la partie où la valeur de "nég" est grande, mais je n'ai pas compris la cause après tout.

Recommended Posts

Analyse émotionnelle des données de tweet à grande échelle par NLTK
Analyse des données financières par pandas et leur visualisation (1)
Visualisation des données par préfecture
Première analyse de données satellitaires par Tellus
10 sélections d'extraction de données par pandas.DataFrame.query
Animation des géodonnées par geopandas
Recommandation d'analyse des données à l'aide de MessagePack
Analyse des séries chronologiques 3 Prétraitement des données des séries chronologiques
Traitement des données 2 Analyse de divers formats de données
Une analyse simple des données de Bitcoin fournie par CoinMetrics en Python
Pratique de l'analyse de données par Python et pandas (Tokyo COVID-19 data edition)
Analyser émotionnellement les données de bouche-à-oreille d'entreprise des réunions de changement de carrière à l'aide de l'apprentissage en profondeur
Exemple d'analyse de squelette tridimensionnelle par Python
Analyse émotionnelle des tweets avec apprentissage en profondeur
Analyse d'image de microtomographie à rayons X par Python
Prédire les travaux de courte durée de Weekly Shonen Jump par apprentissage automatique (Partie 1: Analyse des données)
Analyse de l'utilisation de l'espace partagé par l'apprentissage automatique
Environnement enregistré pour l'analyse des données avec Python
Histoire de l'analyse de données par apprentissage automatique
Analyse de données python
Analyse des données Titanic 1
Analyse des données Titanic 3
[Python] [Word] [python-docx] Analyse simple des données de diff en utilisant python
Analysons les données de l'enquête par questionnaire [4e: Analyse des émotions]
Détection d'anomalies des données de séries chronologiques par LSTM (Keras)
Essayez une analyse rudimentaire des sentiments sur les données de l'API Twitter Stream.
Analyse des données de mesure ①-Mémorandum de montage scipy-
Histoire de l'analyse d'image du fichier PDF et de l'extraction de données
Analyse des données de mesure (2) -Hydrobacter et raccord, recommandation lmfit-
Comment visualiser les données par variable explicative et variable objective
Analysons les émotions de Tweet en utilisant Chainer (1er)