J'ai fait référence à l'article suivant.
Introduction à la pratique du grattage Web Python Aide-mémoire BeautifulSoup4 (sélecteur, etc.)
Les données cibles cette fois sont la tendance sur la page supérieure de Qiita.
de cette façon
<div data-hyper-app = 'Trend' data-hyper-props = 'trend json data'>
Puisqu'il existe des données JSON à la mode sous la forme de, le but est de les acquérir.
Nous utilisons une bibliothèque appelée «Beautiful Soup».
python
import urllib.request
from bs4 import BeautifulSoup
import json
QIITA_TOP_URL = 'https://qiita.com/'
def get_trend_items():
req = urllib.request.Request(QIITA_TOP_URL)
with urllib.request.urlopen(req) as res:
body = res.read()
soup = BeautifulSoup(body, "html.parser")
target_div = soup.select('div[data-hyperapp-app="Trend"]')[0]
trend_items = json.loads(target_div.get('data-hyperapp-props'))
return trend_items
Recommended Posts