[Note personnelle] Scraping de pages Web en python3

Précautions lors du grattage

Cliquez avec le bouton droit sur le code source de la page pour afficher la source de la page à la place スクリーンショット 2017-03-10 14.30.22.png

Utilisez celui affiché dans les outils de développement スクリーンショット 2017-03-10 14.30.39.png

Extraire le texte

<dt>prix<span class="tax">(taxe inclu)</span></dt>

Pour extraire le texte de la balise span incorporée dans la balise dt comme

source = '<dt>prix<span class="tax">(taxe inclu)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
soup.text

Et .text peut être extrait en spécifiant

Suppression des espaces blancs

<dt>
prix
    <span class="tax">(taxe inclu)</span>
</dt>

Lorsqu'il y a un caractère vide dans la balise tel que

def remove_whitespace(str):
    return ''.join(str.split())

source = '<dt>prix<span class="tax">(taxe inclu)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
remove_whitespace(soup.text)

Peut être retiré

Puisque l'espace au centre ne peut pas être supprimé avec strip (), le caractère espace est utilisé comme délimiteur avec split (). Rejoindre avec .join

Trouver dans Beautiful Soup

Si vous voulez trouver une classe particulière

Dans un cas

soup.find(class_='hoge')

Lors de la recherche de tous

soup.find_all(class_='hoge')

Si vous souhaitez trouver un identifiant spécifique

Dans un cas

soup.find(id='hoge')

Lors de la recherche de tous

soup.find_all(id='hoge')

Si vous voulez trouver une balise spécifique

Dans un cas

soup.find('hoge')

Lors de la recherche de tous

soup.find_all('hoge')

Ils peuvent également avoir plusieurs conditions en même temps

soup.find('hoge',class_='fuga)

Recommended Posts

[Note personnelle] Scraping de pages Web en python3

Grattage WEB avec Python (pour mémo personnel)

Web scraping débutant avec python

Grattage WEB avec BeautifulSoup4 (page en couches)

Web scraping avec Python Première étape

J'ai essayé webScraping avec python.

Premiers pas avec Python Web Scraping Practice

Site de courses de chevaux Web scraping avec Python

Premiers pas avec Python Web Scraping Practice

Pratiquer le web scraping avec Python et Selenium

Scraping Web facile avec Python et Ruby

Grattage WEB avec BeautifulSoup4 (page du numéro de série)

[Pour les débutants] Essayez le web scraping avec Python

Grattage en Python (préparation)

Essayez de gratter avec Python.

Grattage avec Python + PhantomJS

Grattage avec du sélénium [Python]

Scraping avec Python + PyQuery

Scraping RSS avec Python

Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron

[python] Récupérez rapidement les métadonnées de la page Web avec lassie

Web scraping avec Python (prévisions météo)

Web scraping avec Python (cours de l'action)

Extraire des données d'une page Web avec Python

J'ai essayé de gratter avec Python

Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~

Grattage au sélénium en Python

Grattage avec chromedriver en python

Grattage festif avec Python, scrapy

Enregistrez des images avec le web scraping

Grattage avec du sélénium en Python

[Note] Faites fonctionner MongoDB avec Python

Scrapage Web rapide avec Python (tout en prenant en charge le chargement JavaScript)

Grattage Web facile avec Scrapy

Grattage avec Tor en Python

API Web avec Python + Falcon

Les débutants en Python sont bloqués dans leur premier scraping Web

Web scraping avec Selenium (Python)

Scraping prévisions météorologiques avec python

Grattage avec Selenium + Python Partie 2

[AtCoder] Note personnelle ABC165C [Python]

Application Web avec Python + Flask ② ③

J'ai essayé de gratter avec du python

Gratter la page i-town avec du sélénium

Rationalisez la recherche Web avec Python

Application Web avec Python + Flask ④

[Pour les débutants] Web scraping avec Python "Accédez à l'URL de la page pour obtenir le contenu"

[Part.2] Exploration avec Python! Cliquez sur la page Web pour vous déplacer!

Exploration Web, scraping Web, acquisition de caractères et sauvegarde d'image avec python

Essayez de gratter avec Python + Beautiful Soup

Scraping avec Selenium en Python (Basic)

Grattage avec Python, Selenium et Chromedriver

Premiers pas avec les applications Web Python

Gratter le classement Web d'Alexa avec pyQuery

Grattage avec Python et belle soupe

Surveillez les applications Web Python avec Prometheus

Obtenez une capture d'écran Web avec python