Beautiful Soup
Une bibliothèque de scraping avec une API simple et facile à retenir.
from urllib.parse import urljoin
from bs4 import BeautifulSoup
#Lire le fichier HTML
with open('fichier html') as f:
soup = BeautifulSoup(f, 'html.parser')
#Obtenez la liste des éléments que vous souhaitez obtenir avec select
for a in soup.select(élément)
#Retirez l'élément que vous souhaitez obtenir
pyquery
pyquery est une bibliothèque qui peut être extraite du HTML de la même manière que jQuery. Il utilise lxml en interne et peut traiter à grande vitesse.
from pyquery import PyQuery as pq
#Lire le fichier HTML et obtenir l'objet PyQuery
d = pq(filename='fichier html')
#Obtenez la liste des éléments que vous souhaitez obtenir
for a in d(élément):
#Retirez l'élément que vous souhaitez obtenir
Recommended Posts