Je voudrais vous présenter un module Python appelé gaspacho
que j'ai récemment appris.
gaspacho est une "bibliothèque simple, rapide et moderne pour le web scraping".
gazpacho is a simple, fast, and modern web scraping library. The library is stable, actively maintained, and installed with zero dependencies. (https://pypi.org/project/gazpacho/)
Le nombre d'étoiles est encore mineur à 400, donc je pense qu'il est préférable de le garder pour un usage personnel.
BeautifulSoup
etc., vous deviez d'abord obtenir le HTML avec les requêtes, etc.
—— Moins de méthodes à retenir
--Analyser avec une commande find
Tout d'abord, installez le module.
pip install gazpacho
Je vais gratter et sortir le titre du livre à partir du site suivant présenté dans le tutoriel.
https://scrape.world/books
from gazpacho import get, Soup
#Obtenir du HTML basé sur l'URL spécifiée
html = get('https://scrape.world/books')
#Créer une instance pour l'analyse
soup = Soup(html)
#Obtenez les éléments dont vous avez besoin. Liste si plus d'un est trouvé[Soup]Retours (soupe pour single)
#Le premier argument est une balise HTML
#Le deuxième argument est la spécification de l'id et de la classe
#Si la troisième spécification permet une correspondance partielle
#Dans l'exemple, la classe est"book-"Parce que c'est"book-early"Etc. match
books = soup.find('div', {'class': 'book-'}, partial=True)
for book in books:
name_header = book.find('h4')
#Le champ de texte contient le contenu de la balise
name = name_header.text
print(name)
Personnellement, je l'utilise correctement comme indiqué ci-dessous.
Le module lui-même de gaspacho est simple, je pense donc trouver le temps de le lire.
J'espère que plus de gens liront et utiliseront cet article!
Recommended Posts