Chaque fois que vous grattez
test.py
from bs4 import BeautifulSoup
Comme il est difficile d'écrire comme ça, je vais créer un modèle qui est sûr de l'utiliser pour le moment.
test.py
!apt-get update
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin
!pip install selenium
!pip install requests-html
Tout d'abord, lié à la bibliothèque. J'utilise habituellement clb, donc je vais mettre ça pour le moment.
test.py
import pandas as pd
import datetime
from tqdm.notebook import tqdm
import requests
from bs4 import BeautifulSoup
import time
import re
from urllib.request import urlopen
import urllib.request, urllib.error
from requests_html import HTMLSession
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
#Au point d'obtenir du HTML
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')
driver = webdriver.Chrome('chromedriver',options=options)
driver.implicitly_wait(10)
url="https://www.XXX.com"
driver.get(url)
html = driver.page_source.encode('utf-8')
soup = BeautifulSoup(html, "html.parser")
Oui, il est acceptable de copier et coller à cause de la mort cérébrale jusqu'à présent. plus tard
test.py
soup
Avec cela, vous pouvez atteindre le point où html est sorti pour le moment en quelques secondes.
À proprement parler, il y a des bibliothèques que je n'utilise pas, comme tqdm, mais j'emballe aussi tout le code qui importe les bibliothèques que j'utilise dans l'ensemble presque chaque fois que je gratte personnellement.
Je copie moi-même et l'utilise tout le temps.
Recommended Posts