Le premier de la série que j'ai publié pour la première fois est Python autant que possible ... (Cette série se déroule-t-elle correctement?) De plus, cette série n'est pas comme écrire du code qui peut automatiser le travail tel quel, mais c'est une série qui en fait ** l'automatisation, etc. ** **
** Veuillez vous assurer de lire ceci. ** ** Tout d'abord, le grattage signifie que l'ordinateur fait le travail que font les humains, vous pouvez donc y accéder plusieurs fois. Cependant, cela impose un fardeau au serveur, il est donc nécessaire de prendre des mesures telles qu'une fois par seconde.
De là, c'est le plus important. Vous devez vérifier ** le site que vous raclez permet le scraping **, etc.
Je vais l'écrire pour ceux qui sont vieux et qui gratteront vite sans dire une chose pareille.
Tout d'abord, installez les bibliothèques nécessaires au scraping.
C'est une bibliothèque appelée Beautiful Soup.
Si Anaconda est installé, il est inclus depuis le début, mais si vous obtenez une erreur, exécutez ce code.
conda install BeautifulSoup4 lxml
La commande conda n'est-elle pas un pip? Cela ne peut pas être aidé. ~~ Gentle Faguri l'écrira. ~~
pip install BeautifulSoup4 lxml
Veuillez exécuter le.
code.py
from bs4 import BeautifulSoup
import requests
page_data = requests.get('https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A7%E3%83%96%E3%82%B9%E3%82%AF%E3%83%AC%E3%82%A4%E3%83%94%E3%83%B3%E3%82%B0').text
page = BeautifulSoup(page_data, 'lxml')
for element in page.select("#mw-content-text > div > p:nth-child(1)"):
print(element.text)
Web scraping (en anglais: Web scraping) est une technologie logicielle informatique qui extrait des informations de sites Web. Aussi connu sous le nom de robot d'exploration [1] ou d'araignée Web [2]. Ces logiciels acquièrent généralement du contenu WWW en implémentant un HTTP de bas niveau ou en intégrant un navigateur Web.
Pour ceux qui viennent de commencer, je pense que c'est Nanikore, en particulier "for element in page.select (" # mw-content-text> div> p: nth-child (1) "):" Je vais. # mw-content-text> div> p: nth-child (1) "): Comment le trouver (comme l'explication des mathématiques) Faites un clic droit dans Google Chrome> Vérification> Et![Verification.png](https: / /qiita-image-store.s3.ap-northeast-1.amazonaws.com/0/551445/6751d074-acea-990a-04af-3e246bd654fb.png)
Cliquez sur la zone entourée par le cadre rouge, placez le curseur sur la zone à gratter, cliquez avec le bouton droit de la souris sur la zone bleu clair, copiez-la avec le sélecteur Copier> Copier et collez-la dans cette zone. ~~ Cela ne se plaindra pas même pour les débutants ~~
Cela dépend de la personne, mais Python peut être gratté par cela seul. Faites attention à votre corps!
Recommended Posts