Il s'agit d'un article "Qu'est-ce que le grattage?" Écrit pour les débutants (ou pour moi-même dans le passé). Ceci est un aperçu pour ceux qui vont essayer le scraping, donc j'espère que cela vous sera utile comme première étape.
"Web scraping est une technologie logicielle informatique qui extrait des informations de sites Web (source Wikipedia)"
En d'autres termes, la technologie qui récupère les informations que vous souhaitez à partir d'une page Web est appelée «scraping».
Il y a aussi «ramper» qui est facilement confondu. C'est "Le programme suit des liens sur Internet pour visiter des sites Web et duplique et enregistre des informations sur les pages Web (dictionnaire weblio 82% AF% E3% 83% AD% E3% 83% BC% E3% 83% AA% E3% 83% B3% E3% 82% B0) Source) "
Quelle est la différence ...? Ensemble ...? Vous pourriez penser, mais ce sentiment est presque correct. Les deux technologies sont destinées à la collecte d'informations. Cependant, la partie qui met l'accent est un peu différente. Le grattage met l'accent sur "l'extraction uniquement des informations nécessaires à partir des informations du site Web (= extraction)", et l'exploration met l'accent sur "la visite de plusieurs sites Web et la collecte d'informations (= collection)". Il semble y avoir. Donc, si vous voulez obtenir uniquement les informations dont vous avez besoin en parcourant plusieurs pages Web, vous devez "explorer et gratter". Il semble que les gens pensent un peu différemment, mais il est normal de l'interpréter comme "une technologie qui se complète (= collecte et extraction)".
Étant donné que l'exploration acquiert automatiquement des informations sur le site Web, elle peut dans certains cas enfreindre les lois sur les droits d'auteur et les politiques du site. Soyez très prudent lorsque vous enquêtez sur quoi que ce soit. À l'inverse, supposons que vous ne souhaitiez pas que votre site soit exploré. Il existe plusieurs façons de procéder, mais il est important de commencer par écrire clairement dans la politique de votre site. Cependant, il peut ne pas être remarqué par la personne qui explore automatiquement (soi-disant bot, etc.), alors créons ** robots.txt **. Si vous écrivez des paramètres tels que l'autorisation ou non de l'exploration dans ce fichier, vous pouvez éviter l'exploration sauf si vous êtes une personne malveillante. En tant que site de référence, je voudrais vous présenter "Our Howtonote".
Eh bien, j'ai expliqué la différence entre le grattage et l'exploration plus tôt, mais une bonne personne peut avoir pensé cela.
"Dois-je faire l'exploration et le scraping séparément?"
Il existe de nombreux cadres pour l'exploration et le grattage, mais en fait, il existe des cadres pour l'exploration et le grattage. C'est ** Scrapy **.
Présentation du site de référence "note.nkmk.me" sur l'utilisation de Scrapy. Sur ce site, Scrapy Tutorial des explications et des exemples faciles à comprendre sont écrits, donc si vous voulez l'essayer! Si vous pensez, veuillez vous y référer. (Je l'ai également utilisé comme référence.)
C'est la première fois que je poste sur Qiita, donc cette fois je l'ai simplifié comme un article qui sert également de pratique d'écriture. Des ajouts / corrections seront effectués lorsqu'ils seront signalés ou lorsque mes connaissances seront mises à jour.
Recommended Posts