Qu'est-ce que le grattage? [Résumé pour les débutants]

introduction

Il s'agit d'un article "Qu'est-ce que le grattage?" Écrit pour les débutants (ou pour moi-même dans le passé). Ceci est un aperçu pour ceux qui vont essayer le scraping, donc j'espère que cela vous sera utile comme première étape.

Qu'est-ce que le grattage?

"Web scraping est une technologie logicielle informatique qui extrait des informations de sites Web (source Wikipedia)"

En d'autres termes, la technologie qui récupère les informations que vous souhaitez à partir d'une page Web est appelée «scraping».

Il y a aussi «ramper» qui est facilement confondu. C'est "Le programme suit des liens sur Internet pour visiter des sites Web et duplique et enregistre des informations sur les pages Web (dictionnaire weblio 82% AF% E3% 83% AD% E3% 83% BC% E3% 83% AA% E3% 83% B3% E3% 82% B0) Source) "

Quelle est la différence ...? Ensemble ...? Vous pourriez penser, mais ce sentiment est presque correct. Les deux technologies sont destinées à la collecte d'informations. Cependant, la partie qui met l'accent est un peu différente. Le grattage met l'accent sur "l'extraction uniquement des informations nécessaires à partir des informations du site Web (= extraction)", et l'exploration met l'accent sur "la visite de plusieurs sites Web et la collecte d'informations (= collection)". Il semble y avoir. Donc, si vous voulez obtenir uniquement les informations dont vous avez besoin en parcourant plusieurs pages Web, vous devez "explorer et gratter". Il semble que les gens pensent un peu différemment, mais il est normal de l'interpréter comme "une technologie qui se complète (= collecte et extraction)".

point important

Étant donné que l'exploration acquiert automatiquement des informations sur le site Web, elle peut dans certains cas enfreindre les lois sur les droits d'auteur et les politiques du site. Soyez très prudent lorsque vous enquêtez sur quoi que ce soit. À l'inverse, supposons que vous ne souhaitiez pas que votre site soit exploré. Il existe plusieurs façons de procéder, mais il est important de commencer par écrire clairement dans la politique de votre site. Cependant, il peut ne pas être remarqué par la personne qui explore automatiquement (soi-disant bot, etc.), alors créons ** robots.txt **. Si vous écrivez des paramètres tels que l'autorisation ou non de l'exploration dans ce fichier, vous pouvez éviter l'exploration sauf si vous êtes une personne malveillante. En tant que site de référence, je voudrais vous présenter "Our Howtonote".

Scrapy

Eh bien, j'ai expliqué la différence entre le grattage et l'exploration plus tôt, mais une bonne personne peut avoir pensé cela.

"Dois-je faire l'exploration et le scraping séparément?"

Il existe de nombreux cadres pour l'exploration et le grattage, mais en fait, il existe des cadres pour l'exploration et le grattage. C'est ** Scrapy **.

Présentation du site de référence "note.nkmk.me" sur l'utilisation de Scrapy. Sur ce site, Scrapy Tutorial des explications et des exemples faciles à comprendre sont écrits, donc si vous voulez l'essayer! Si vous pensez, veuillez vous y référer. (Je l'ai également utilisé comme référence.)

en conclusion

C'est la première fois que je poste sur Qiita, donc cette fois je l'ai simplifié comme un article qui sert également de pratique d'écriture. Des ajouts / corrections seront effectués lorsqu'ils seront signalés ou lorsque mes connaissances seront mises à jour.

Recommended Posts

Qu'est-ce que le grattage? [Résumé pour les débutants]
Qu'est-ce que xg boost (1) (pour les débutants)
À quoi sert Linux?
A quoi sert l'interface ...
Python pour la déclaration ~ Qu'est-ce qui est itérable ~
Web scraping pour les débutants en Python (1)
À quoi sert le trait de soulignement Python (_)?
Web scraping pour les débutants en Python (4) -1
Lien récapitulatif des bases de Pandas pour les débutants
[Résumé des commandes Linux] Liste des commandes [À voir absolument pour les débutants]
Résumé du tutoriel Django pour les débutants par les débutants ③ (Afficher)
Fonctionnement Linux pour les débutants Résumé des commandes de base
[Statistiques pour les programmeurs] Qu'est-ce qu'un événement?
Résumé du tutoriel Django pour les débutants par les débutants ⑤ (test)
[Pour les débutants] Essayez le web scraping avec Python
Qu'est-ce que l'espace de noms
Qu'est-ce que copy.copy ()
Qu'est-ce que Django? .. ..
Qu'est-ce que dotenv?
Qu'est-ce que POSIX
Qu'est-ce que Linux
Qu'est-ce que le klass?
[Exemple d'amélioration de Python] Quel est le site d'apprentissage recommandé pour les débutants en Python?
Qu'est-ce que SALOME?
Qu'est-ce que Linux?
Qu'est-ce que python
Qu'est-ce que l'hyperopt?
Qu'est-ce que Linux
Qu'est-ce que pyvenv
Qu'est-ce que __call__
Qu'est-ce que Linux
Qu'est-ce que Python
Résumé du tutoriel Django pour les débutants par les débutants ⑦ (Personnaliser l'administrateur)
[Pour les débutants] Que faire après l'installation d'Anaconda
Résumé du tutoriel Django pour les débutants par les débutants ① (création de projet ~)
Résumé du didacticiel Django pour les débutants par les débutants ④ (Vue générique)
[Pour les débutants] Après tout, qu'est-ce qui est écrit dans Deep Learning fait à partir de zéro?
Qu'est-ce qu'une distribution?
Qu'est-ce que le F-Score de Piotroski?
Web scraping pour les débutants en Python (1) Version améliorée
Paramètres Spacemacs (pour les débutants)
Qu'est-ce que Raspberry Pi?
Qu'est-ce que Calmar Ratio?
Qu'est-ce qu'un terminal?
[Tutoriel PyTorch ①] Qu'est-ce que PyTorch?
Qu'est-ce que le réglage des hyper paramètres?
Résumé des méthodes de prétraitement pour les débutants en Python (trame de données Pandas)
Qu'est-ce qu'un hacker?
Manuel python pour les débutants
Qu'est-ce que JSON? .. [Remarque]
Qu'est-ce qu'un pointeur?
Qu'est-ce que l'apprentissage d'ensemble?
Qu'est-ce que TCP / IP?
Algorithme Dikstra pour les débutants
Qu'est-ce qu'un moteur de recommandation? Résumé des types
Résumé de l'apprentissage RAPIDS
Qu'est-ce que __init__.py de Python?