C'est un mémorandum au moment du scribing web avec python.
from bs4 import BeautifulSoup
import reuest
import os
"""Prise en charge du proxy"""
os.environ["https_proxy"] = "http://xxx.xx.xx.xx:8080"
url = "https://www.python.org/"
html = requests.get(url)
soup = BeautifulSoup(html.text, "lxml")
print(soup)
print("----------------------------------------------")
# python.Si vous souhaitez obtenir uniquement la chaîne dans org
name = soup.find_all("div", class_="introduction")
# name = soup.find_all("div", {"class": "introduction"}Peut être décrit comme.
name = name[0].text
print(name)
title = soup.find_all("title")
title = title[0].text
print(title)
résultat
Python is a programming language that lets you work quickly and integrate systems more effectively. Learn More
Welcome to Python.org
Recommended Posts