Les débutants en programmation apprennent le grattage. Pour le moment, le contenu récupéré peut maintenant être téléchargé dans un fichier local, alors faites une note comme mémorandum avant de l'oublier.
#Exemple pour récupérer des articles et des URL de sites Web et télécharger les résultats sur un PC local
#Importer les modules requis
from bs4 import BeautifulSoup
import requests
import pandas as pd
#Créer un bloc de données
columns = ["Le titre de l'article", "URL"]
df = pd.DataFrame(columns = columns)
#Obtenez le contenu du site Web avec les demandes et traitez le contenu avec Beautiful Soup
res = requests.get("https:~~ URL du site Web que vous souhaitez gratter ~~")
soup = BeautifulSoup(res.content, 'html.parser') #Belle initialisation de soupe
tags = soup.find_all("XXXXX", {"class": "YYYYYY"}) #X et Y varient en fonction du site Web
#Ajouter le nom de l'article et l'URL au bloc de données
for tag in tags:
article = tag.a.string
url = tag.a.get("href")
se = pd.Series([article, url], columns)
df = df.append(se, columns)
#「to_Enregistrez le fichier csv dans le même dossier où le code est enregistré en utilisant «csv»
df.to_csv("./news.csv")
print("Fin")
Recommended Posts