[Note personnelle] Scraping de pages Web en python3

Précautions lors du grattage

Cliquez avec le bouton droit sur le code source de la page pour afficher la source de la page à la place スクリーンショット 2017-03-10 14.30.22.png

Utilisez celui affiché dans les outils de développement スクリーンショット 2017-03-10 14.30.39.png

Extraire le texte

<dt>prix<span class="tax">(taxe inclu)</span></dt>

Pour extraire le texte de la balise span incorporée dans la balise dt comme

source = '<dt>prix<span class="tax">(taxe inclu)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
soup.text

Et .text peut être extrait en spécifiant

Suppression des espaces blancs

<dt>
prix
    <span class="tax">(taxe inclu)</span>
</dt>

Lorsqu'il y a un caractère vide dans la balise tel que

def remove_whitespace(str):
    return ''.join(str.split())

source = '<dt>prix<span class="tax">(taxe inclu)</span></dt>'
soup = BeautifulSoup(source, "html.parser")
remove_whitespace(soup.text)

Peut être retiré

Puisque l'espace au centre ne peut pas être supprimé avec strip (), le caractère espace est utilisé comme délimiteur avec split (). Rejoindre avec .join

Trouver dans Beautiful Soup

Si vous voulez trouver une classe particulière

Dans un cas

soup.find(class_='hoge')

Lors de la recherche de tous

soup.find_all(class_='hoge')

Si vous souhaitez trouver un identifiant spécifique

Dans un cas

soup.find(id='hoge')

Lors de la recherche de tous

soup.find_all(id='hoge')

Si vous voulez trouver une balise spécifique

Dans un cas

soup.find('hoge')

Lors de la recherche de tous

soup.find_all('hoge')

Ils peuvent également avoir plusieurs conditions en même temps

soup.find('hoge',class_='fuga)

Recommended Posts

[Note personnelle] Scraping de pages Web en python3
Grattage WEB avec Python (pour mémo personnel)
Web scraping débutant avec python
Grattage WEB avec BeautifulSoup4 (page en couches)
Web scraping avec Python Première étape
J'ai essayé webScraping avec python.
Premiers pas avec Python Web Scraping Practice
Site de courses de chevaux Web scraping avec Python
Premiers pas avec Python Web Scraping Practice
Pratiquer le web scraping avec Python et Selenium
Scraping Web facile avec Python et Ruby
Grattage WEB avec BeautifulSoup4 (page du numéro de série)
[Pour les débutants] Essayez le web scraping avec Python
Grattage en Python (préparation)
Essayez de gratter avec Python.
Grattage avec Python + PhantomJS
Grattage avec du sélénium [Python]
Scraping avec Python + PyQuery
Scraping RSS avec Python
Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron
[python] Récupérez rapidement les métadonnées de la page Web avec lassie
Web scraping avec Python (prévisions météo)
Web scraping avec Python (cours de l'action)
Extraire des données d'une page Web avec Python
J'ai essayé de gratter avec Python
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
Grattage au sélénium en Python
Grattage avec chromedriver en python
Grattage festif avec Python, scrapy
Enregistrez des images avec le web scraping
Grattage avec du sélénium en Python
[Note] Faites fonctionner MongoDB avec Python
Scrapage Web rapide avec Python (tout en prenant en charge le chargement JavaScript)
Grattage Web facile avec Scrapy
Grattage avec Tor en Python
API Web avec Python + Falcon
Les débutants en Python sont bloqués dans leur premier scraping Web
Web scraping avec Selenium (Python)
Scraping prévisions météorologiques avec python
Grattage avec Selenium + Python Partie 2
[AtCoder] Note personnelle ABC165C [Python]
Application Web avec Python + Flask ② ③
J'ai essayé de gratter avec du python
Gratter la page i-town avec du sélénium
Rationalisez la recherche Web avec Python
Application Web avec Python + Flask ④
[Pour les débutants] Web scraping avec Python "Accédez à l'URL de la page pour obtenir le contenu"
[Part.2] Exploration avec Python! Cliquez sur la page Web pour vous déplacer!
Exploration Web, scraping Web, acquisition de caractères et sauvegarde d'image avec python
Essayez de gratter avec Python + Beautiful Soup
Scraping avec Selenium en Python (Basic)
Grattage avec Python, Selenium et Chromedriver
Premiers pas avec les applications Web Python
Gratter le classement Web d'Alexa avec pyQuery
Grattage avec Python et belle soupe
Surveillez les applications Web Python avec Prometheus
Obtenez une capture d'écran Web avec python