L'extraction de données récupérées avec Python n'est pas utile pour les balises HTML ou les minutes ultérieures Des informations supplémentaires sont souvent obtenues.
Dans un tel cas, *** readability-lxml *** est tout ce dont vous avez besoin. Je vais expliquer ici
(env)$pip install readability-lxml
Créez une classe utilitaire comme celle ci-dessous
utils.py
# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
"""
À partir de chaînes HTML(Titre,Texte)Obtenez le tapple de.
"""
document = readability.Document(html)
content_html = document.summary()
#Débarrassez-vous des balises HTML et obtenez uniquement le corps du texte.
content_text = lxml.html.fromstring(content_html).text_content().strip()
short_title = document.short_title()
return short_title, content_text
Testez si vous pouvez réellement obtenir le titre et le contenu à l'aide de la classe utilitaire (J'ai utilisé un article de Yahoo News)
import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)
Veuillez confirmer que l'article est acquis comme suit.
--2019 / 12/31 nouvellement créé
Recommended Posts