Jusqu'à ce que vous commenciez à explorer avec Scrapy

Qu'est-ce que Scrapy

Scrapy est le framework d'exploration et de scraping de Python. En utilisant cela, vous pouvez coder selon la manière du framework au lieu d'importer la bibliothèque dans le code que vous avez écrit.

Installer Scrapy

$pip install scrapy

Créer un projet

Pour créer un projet, exécutez la commande suivante.

$scrapy startproject (Nom du projet)

Le nom du projet peut être tout ce que vous voulez. Si vous l'exécutez, vous obtiendrez de nombreux répertoires.

Définir l'intervalle de téléchargement

Si vous ne définissez pas l'intervalle de téléchargement, cela mettra une charge sur le système de destination de l'exploration, vous devez donc y prêter une attention particulière.

Ajoutez l'instruction suivante à setting.py à partir du dossier de nom de projet.

DOWNLOAD_DERAY = 1

Créer un article

C'est un endroit pour stocker ce que vous avez obtenu en rampant. Définissez une classe dans items.py.

class [nom de la classe](scrapy.Item):
    [Le nom de ce que vous récupérez] = scrapy.Field()

item = [nom de la classe]()
item['Le nom de ce que vous récupérez'] = 'Examples'

Créer une araignée

Les détails de l'exploration et du grattage sont principalement décrits dans l'araignée. Entrez la commande suivante pour créer une araignée.

$scrapy genspider [nom de l'araignée] [Domaine du site à récupérer]

Cela créera un fichier [nom de l'araignée] .py dans le dossier de l'araignée.

Après cela, l'araignée sera décrite en fonction du site à explorer.

Je vous serais reconnaissant si vous pouviez signaler des erreurs.

Recommended Posts

Jusqu'à ce que vous commenciez à explorer avec Scrapy
Jusqu'à ce que vous mettiez Python dans Docker
Jusqu'à ce que vous mettiez pyaudio dans Mavericks
Jusqu'à ce que l'exemple de changefinder s'exécute sur python
Jusqu'à ce que vous créiez une nouvelle application dans Django
Jusqu'à ce que vous insériez des données dans une feuille de calcul en Python
Jusqu'à ce que vous installiez MySQL-python
Jusqu'à ce que vous exécutiez le serveur Django avec Visual Studio Code
Jusqu'à ce que TensorFlow-GPU soit installé avec pip dans l'environnement Windows
[Gimp] Lancez la création de scripts avec Python
Compromis dans le scraping et l'exploration Web
Ecrire des tests Spider dans Scrapy
Commencez dans 5 minutes GIMP Python-Fu