Racler plusieurs pages avec Beautiful Soup

À la hâte, il y avait une demande de sauvegarde de données qui s'étendent sur plusieurs pages dans une base de données, alors je l'ai écrite dans un travail précipité. Les sélecteurs CSS sont extrêmement utiles, n'est-ce pas?

Situation actuelle

scl.py


import requests, os, re, csv, bs4
import sqlite3
import lxml.html

a = 0
i = 0

url = 'https://www.〜'

while a < 55:
    a += 1
    
    res = requests.get(url)
    res.raise_for_status()
    soup = bs4.BeautifulSoup(res.text, 'lxml')


    for u in soup.select('.plan-module > .plan-link.plan-image-container'):
        urls = 'https://www.〜' + u.attrs['href']

        #print (urls)

        con = sqlite3.connect('url.db')
        c = con.cursor()
        c.execute('''CREATE TABLE IF NOT EXISTS urldata(urls unique)''')
        c.execute('INSERT INTO urldata VALUES (?)',[urls])
        con.commit()
        con.close()

    i += 1
    url = 'https://www.〜?=' + str(i)


print ('success')

Cependant, il s'est avéré que la pagination est un élément dynamique et qu'il est inutile sans utiliser Selenium.

Recommended Posts

Racler plusieurs pages avec Beautiful Soup
Gratter avec une belle soupe
Grattage de table avec belle soupe
Essayez de gratter avec Python + Beautiful Soup
Grattage avec Python et belle soupe
Gratter avec une belle soupe en 10 minutes
Grattage de site Web avec Beautiful Soup en Python
Triez les visages d'anime en grattant les pages de personnages d'anime avec Beautiful Soup et Selenium
Pratique de l'exploration avec Beautiful Soup
Belle soupe
[Python] Gratter une table avec Beautiful Soup
Supprimez les balises HTML indésirables avec Beautiful Soup
Grattage au sélénium
Grattage avec Python
Grattage avec Python
Belle note de soupe
Belles éclaboussures de soupe
Grattage avec du sélénium
Écrivez un "bot" de scraping web sans tête de base en Python avec Beautiful Soup 4
Grattage réussi avec Selenium
Sélection multiple avec Jupyter
Grattage en Python (préparation)
Essayez de gratter avec Python.
Grattage avec Python + PhantomJS
Ma belle soupe (Python)
Grattage avec coquille tremblante
J'ai essayé différentes choses avec Python: le grattage (Beautiful Soup + Selenium + PhantomJS) et l'analyse morphologique
Grattage avec du sélénium [Python]
Notez que j'ai traité du HTML dans Beautiful Soup
Scraping avec Python + PyQuery
[Python] Supprimer en spécifiant une balise avec Beautiful Soup
Scraping RSS avec Python
Gratter les résultats de recherche de Google Actualités en Python (2) Utiliser Beautiful Soup
J'ai essayé de gratter avec Python
Télécharger automatiquement des images avec grattage
Web scraping avec python + JupyterLab
Grattage au sélénium en Python
Grattage avec Selenium + Python Partie 1
Grattage avec chromedriver en python
Analyse de régression multiple avec Keras
Grattage festif avec Python, scrapy
Enregistrez des images avec le web scraping
Grattage avec du sélénium en Python
Grattage Web facile avec Scrapy
Grattage avec Tor en Python
Scraping prévisions météorologiques avec python
Gratter la moyenne du Nikkei avec le dramaturge-python
Grattage avec Selenium + Python Partie 2
Obtenez l'URL de destination du lien en spécifiant la phrase de texte avec le grattage Python (Beautiful Soup) + XPath
J'ai essayé de gratter avec du python
Web scraping débutant avec python
Animer plusieurs graphiques avec matplotlib
Contrôlez plusieurs robots avec jupyter-lab
Gratter la page i-town avec du sélénium