L'accès https via un proxy dans le scraping Web Python était facile avec les demandes

J'essaye le web scraping avec urllib et Beautifulsoup en Python3. La dernière fois, j'ai eu affaire à une erreur de communication due à Proxy. Que faire s'il n'y a pas de réponse en raison des paramètres de proxy dans le scraping Web Python La communication par http fonctionnait bien avec la méthode ci-dessus, mais lorsque je suis devenu un site https, la communication n'a pas été établie et une erreur s'est produite. J'ai des problèmes car il y a beaucoup de https sur les sites Web récents. .. : déçu_relieved: L'ajout de l'élément "https" aux proxys comme indiqué ci-dessous ne résout pas le problème. proxies={"http":"http:proxy.-----.co.jp/proxy.pac", "https":"http:proxy.-----.co.jp/proxy.pac"}

Quand j'ai cherché, j'ai trouvé une bibliothèque appelée requests. J'ai essayé de l'utiliser à la place de urllib et c'était étonnamment facile à résoudre.

Voici un exemple de son utilisation.

requsts_sample.py


import requests

proxies = {
"http":"http://proxy.-----.co.jp/proxy.pac",
"https":"http://proxy.-----.co.jp/proxy.pac"
}
r = requests.get('https://github.com/timeline.json', proxies=proxies)
print(r.text)

Lors de l'utilisation de Beautifulsourp, il semble que vous deviez transmettre le contenu de l'objet obtenu par requests.get. Voici un exemple simple.

python::requests_beautifulsoup_sample.py


import requests
from bs4 import BeautifulSoup

proxies = {
'http':'http://proxy.-----.co.jp/proxy.pac',
'https':'http://proxy.-----.co.jp/proxy.pac'
}

def getBS(url):
    html = requests.get(url, proxies=proxies)
    bsObj = BeautifulSoup(html.content, "html.parser")
    return bsObj

htmlSource = getBS("https://en.wikipedia.org/wiki/Kevin_Bacon")

#Afficher les liens qui existent sur la page
for link in htmlSource.findAll("a"):
    if 'href' in link.attrs:
        print(link.attrs['href'])

La bibliothèque de requêtes a été incluse lorsque j'ai installé Python 3.5.2 sur Anaconda. Vous pouvez vérifier les packages installés par Anaconda Navigator. Si vous avez installé l'interface graphique sous Windows, vous pouvez le trouver dans Windows-> Tous les programmes-> Anaconda3-> Anaconda Navigator.

Cliquez ici pour le démarrage rapide de la bibliothèque de requêtes

Recommended Posts

L'accès https via un proxy dans le scraping Web Python était facile avec les demandes
Scraping Web facile avec Python et Ruby
Web scraping avec python + JupyterLab
Grattage facile avec Python (version compatible JavaScript / Proxy / Cookie)
Grattage Web facile avec Scrapy
Web scraping débutant avec python
Web scraping avec Python Première étape
J'ai essayé webScraping avec python.
Grattage WEB avec Python (pour mémo personnel)
Premiers pas avec Python Web Scraping Practice
[Note personnelle] Scraping de pages Web en python3
Site de courses de chevaux Web scraping avec Python
Premiers pas avec Python Web Scraping Practice
Application Web facile avec Python + Flask + Heroku
Pratiquer le web scraping avec Python et Selenium
[Pour les débutants] Essayez le web scraping avec Python
Grattage avec Python
Grattage avec Python
Exécutez régulièrement le scraping WEB avec AWS-Lambda + Python + Cron
Web scraping avec Python (prévisions météo)
Web scraping avec Python (cours de l'action)
Essayez de gratter avec Python.
Analyse de données pour améliorer POG 1 ~ Web scraping avec Python ~
Scrapage Web rapide avec Python (tout en prenant en charge le chargement JavaScript)
J'étais accro au grattage avec Selenium (+ Python) en 2020
Les débutants en Python sont bloqués dans leur premier scraping Web
[Pour les débutants] Web scraping avec Python "Accédez à l'URL de la page pour obtenir le contenu"
Grattage avec du sélénium [Python]
Réessayer avec des requêtes python
Scraping avec Python + PyQuery
Obtenir des données de la base de données via ODBC avec Python (Access)
Scraping RSS avec Python
Exploration Web, scraping Web, acquisition de caractères et sauvegarde d'image avec python
J'ai essayé de gratter avec Python
Grattage au sélénium en Python
Grattage avec Selenium + Python Partie 1
[Analyse de co-occurrence] Analyse de co-occurrence facile avec Python! [Python]
Grattage avec chromedriver en python
Grattage festif avec Python, scrapy
Enregistrez des images avec le web scraping
Synchronisation facile des dossiers avec Python
Grattage avec du sélénium en Python
Grattage avec Tor en Python
API Web avec Python + Falcon
Web scraping avec Selenium (Python)
Scraping prévisions météorologiques avec python
Compilation facile de Python avec NUITKA-Utilities
Serveur HTTP facile avec Python
Connexion proxy facile avec django-hijack
Grattage avec Selenium + Python Partie 2
Accédez à Google Drive avec Python
Application Web avec Python + Flask ② ③
J'ai essayé de gratter avec du python
Rationalisez la recherche Web avec Python
Application Web avec Python + Flask ④
Essayez de gratter avec Python + Beautiful Soup