Obtenez uniquement des articles de pages Web en Python

Une bibliothèque qui vous permet d'extraire facilement du texte à partir de pages Web

L'extraction de données récupérées avec Python n'est pas utile pour les balises HTML ou les minutes ultérieures Des informations supplémentaires sont souvent obtenues.

Dans un tel cas, *** readability-lxml *** est tout ce dont vous avez besoin. Je vais expliquer ici

Installez d'abord

(env)$pip install readability-lxml

Créez une classe utilitaire comme celle ci-dessous

`utils.py`


# -*- coding:utf8 -*-
import lxml.html
import readability
def get_content(html):
    """
À partir de chaînes HTML(Titre,Texte)Obtenez le tapple de.
    """

    document = readability.Document(html)
    content_html = document.summary()
    #Débarrassez-vous des balises HTML et obtenez uniquement le corps du texte.
    content_text = lxml.html.fromstring(content_html).text_content().strip()
    short_title = document.short_title()
    return short_title, content_text

Testez si vous pouvez réellement obtenir le titre et le contenu à l'aide de la classe utilitaire (J'ai utilisé un article de Yahoo News)

import utils
import requests
obj = requests.get('https://headlines.yahoo.co.jp/hl?a=20191230-00000310-oric-ent')
title,content = utils.get_content(obj.content)
print(title)
print(content)

Veuillez confirmer que l'article est acquis comme suit.

Journal des modifications

--2019 / 12/31 nouvellement créé

Recommended Posts

Obtenez uniquement des articles de pages Web en Python

Obtenir des données de Quandl en Python

Obtenez des taux de change à partir des taux de change ouverts en Python

Obtenez le niveau de la batterie de SwitchBot avec Python

Obtenez la probabilité de précipitation de XML avec Python

Obtenir l'historique des métriques de MLflow en Python

Obtenez des données de séries chronologiques de k-db.com avec Python

Obtenez des données du module GPS à 10 Hz avec Python

Obtenez des commentaires YouTube en Python

Obtenez le mois dernier en Python

OCR à partir de PDF en Python

Obtenez des notes Evernote en Python

Obtenez des synonymes japonais avec Python

Obtenez votre fréquence cardiaque à partir de l'API fitbit en Python!

Obtenez la valeur tout en spécifiant la valeur par défaut de dict en Python

Appuyez sur REST en Python pour obtenir des données de New Relic

Obtenir des constantes de macro à partir du fichier d'en-tête C (++) (.h) en Python

Obtenir le message du premier offset avec le consommateur kafka en python

Obtenez des données LeapMotion en Python.

pythonweb scraping-get éléments en vrac

Obtenez le chemin du bureau en Python

Obtenez une capture d'écran Web avec python

Obtenez le chemin du script en Python

Extraire du texte d'images avec Python

Obtenir, publier un mémo de communication en Python

Obtenez le chemin du bureau en Python

Obtenez le nom d'hôte en Python

le codeur Web a essayé d'exceller en Python

Démarrez avec Python avec Blender

Extraire des chaînes de fichiers avec Python

Comment obtenir une chaîne à partir d'un argument de ligne de commande en python

Obtenez des données supplémentaires vers LDAP avec python

[Python] Application Web à partir de 0! Pratique (2) -Bonjour le monde-

[Python] Application Web à partir de 0! Pratique (3) - Mise en œuvre de l'API

Python VBA pour obtenir une capture de la page WEB entière avec Selenium

Obtenir le code HTML de l'élément avec du sélénium Python

[Note] Obtenir des données de PostgreSQL avec Python

Obtenir l'équilibre Suica en Python (en utilisant libpafe)

Récupérer les frappes de / dev / input (python evdev)

Python: lecture de données JSON à partir de l'API Web

Relancé de "pas d'accès Internet" en Python

Empêcher le double lancement de cron en Python

Obtenez les données de l'API Google Fit en Python

Comment obtenir la valeur du magasin de paramètres dans lambda (en utilisant python)

Comment obtenir stacktrace en python

Obtenez des données Youtube en Python à l'aide de l'API Youtube Data

[Python] Application Web à partir de 0! Pratique (4) - Mise en forme des données-

Obtenez un jeton pour conoha avec python

Commençons avec TopCoder en Python (version 2020)

Générer une classe à partir d'une chaîne en Python

Générer un langage C à partir d'une expression S avec Python

Obtenir la liste de codes EDINET en Python

Convertir de Markdown en HTML en Python

Obtenez Cloud Logging disponible en Python en 10 minutes

[Python] Application Web à partir de 0! Pratique (0) -Construction environnementale-

[Python] Obtenir une liste de dossiers uniquement

[Python] Obtenez la couleur principale de la capture d'écran

Débarrassez-vous des images DICOM en Python