GReeeen écoutait fou dans sa jeunesse. Je me demande pourquoi je ne l'ai pas écouté maintenant alors que je l'écoutais tellement ... J'ai commencé à penser de cette façon. Nous visualiserons la tendance du message des chansons de GReeeen et analyserons les paroles pour comprendre pourquoi vous avez arrêté d'écouter = pourquoi vous ne pouviez pas sympathiser avec la chanson.
[Python] J'ai visualisé les paroles d'Arashi avec WordCloud et essayé de démêler ce que je voulais transmettre aux fans lors de la 20e année de formation
https://qiita.com/yuuuusuke1997/items/122ca7597c909e73aad5
Uta-Net
https://www.uta-net.com/
Grattage de Uta Net.
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
#Créer une table pour contenir les données récupérées
list_df = pd.DataFrame(columns=['Paroles'])
for page in range(1, 3):
#Adresse du haut de la page de la chanson
base_url = 'https://www.uta-net.com'
#Page de liste des paroles
url = 'https://www.uta-net.com/artist/5384/' + str(page) + '/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'lxml')
links = soup.find_all('td', class_='side td1')
for link in links:
a = base_url + (link.a.get('href'))
#Page de détail des paroles
response = requests.get(a)
soup = BeautifulSoup(response.text, 'lxml')
song_lyrics = soup.find('div', itemprop='lyrics')
song_lyric = song_lyrics.text
song_lyric = song_lyric.replace('\n','')
#Attendez 1 seconde pour ne pas charger le serveur
time.sleep(1)
#Ajouter les paroles acquises au tableau
tmp_se = pd.DataFrame([song_lyric], index=list_df.columns).T
list_df = list_df.append(tmp_se)
print(list_df)
#csv enregistrer
list_df.to_csv('/Users/Nom d'utilisateur/greeeen/list.csv', mode = 'a', encoding='cp932')
from janome.tokenizer import Tokenizer
import pandas as pd
import re
#list.Lire le fichier csv
df_file = pd.read_csv('/Users/Nom d'utilisateur/greeeen/list.csv', encoding='cp932')
song_lyrics = df_file['Paroles'].tolist()
t = Tokenizer()
results = []
for s in song_lyrics:
tokens = t.tokenize(s)
r = []
for tok in tokens:
if tok.base_form == '*':
word = tok.surface
else:
word = tok.base_form
ps = tok.part_of_speech
hinshi = ps.split(',')[0]
if hinshi in ['nom', 'adjectif', 'verbe', 'adverbe']:
r.append(word)
rl = (' '.join(r)).strip()
results.append(rl)
#Remplacement du code de caractère supplémentaire
result = [i.replace('\u3000','') for i in results]
print(result)
text_file = '/Users/Nom d'utilisateur/greeeen/wakati_list.txt'
with open(text_file, 'w', encoding='utf-8') as fp:
fp.write("\n".join(result))
from wordcloud import WordCloud
text_file = open('/Users/Nom d'utilisateur/greeeen/wakati_list.txt', encoding='utf-8')
text = text_file.read()
#Chemin de la police japonaise
fpath = '/System/Library/Fonts/Hiragino Mincho ProN.ttc'
#Suppression de mots qui semble dénuée de sens
stop_words = ['alors', 'Absent', 'Est', 'Faire', 'Tel quel', 'Yo', 'Teru', 'Devenir', 'chose', 'Déjà', 'Bien', 'y a-t-il', 'aller', 'Être']
wordcloud = WordCloud(background_color='white',
font_path=fpath, width=800, height=600, stopwords=set(stop_words)).generate(text)
#L'image est wordcloud.Enregistrez png dans le même répertoire que le fichier py
wordcloud.to_file('./wordcloud.png')
Il existe de nombreux mots tels que «nous» et «aujourd'hui» qui sont proches de la personne ou du présent en termes de temps et d'espace. D'autres sont associés au progrès et au changement comme «aller», «avancer» et «changer», et «probablement» avec l'incertitude apparaît fréquemment. Après cela, vous pouvez voir "rire" et "sourire".
Cette analyse a révélé que mon esprit d'adulte est assez dur.
Je pense que j'avais le cœur froid pour m'adapter à la société, mais il semble que j'ai perdu le cœur brûlant et croyant que j'avais dans ma jeunesse.
Sur la base de ce résultat, je ferai de mon mieux pour avoir la jeunesse comme la jeunesse.
Je pense que je vais augmenter le nombre de fois où je ris pour le moment ...
Recommended Posts