[Scrapy] Seul le point final n’explore pas et ne patrouille pas

J'ai commencé à l'implémenter avec Scrapy parce que je voulais pouvoir commencer à partir du point de terminaison au lieu de simplement explorer le point de terminaison, mais j'en suis accro, alors prenez-en note.

J'ai implémenté le scraping en me référant au contenu ici. http://qiita.com/meltest/items/b445510f09d81276a420 http://qiita.com/checkpoint/items/0c8ad814c25e85bbcfa2#_reference-2f452f48c4e974829586 http://qiita.com/tamonoki/items/ce58ff209f8eae808162 http://web-tsukuru.com/570

Statut

J'ai essayé de mettre en œuvre la règle de scraping en imitant le site ci-dessus, mais pour une raison quelconque, il n'explore que le point de terminaison.

    #Paramètres de règle de raclage
    rules = (
             #Spécifiez les règles de l'URL à supprimer
             Rule(LinkExtractor(deny=deny_list,unique=True), callback='parse'),
             #Spécifiez l'URL que l'araignée suivra
             Rule(LinkExtractor(), follow=True)
            )

    def parse(self, response:

Cause

Il semble qu'il y ait eu un problème avec le nom de la fonction (parse) lu par Callback. Peut-être que c'est écrit ci-dessous? Je ne peux pas lire l'anglais. https://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.spiders.Spider.parse

Correspondance

Changez simplement le nom de la fonction et elle sera grattée dans l'ordre du point de terminaison.

    #Paramètres de règle de raclage
    rules = (
             #Spécifiez les règles de l'URL à supprimer
             Rule(LinkExtractor(deny=deny_list,unique=True), callback='downloadPic'),
             #Spécifiez l'URL que l'araignée suivra
             Rule(LinkExtractor(), follow=True)
            )

    def downloadPic(self, response):

Recommended Posts

[Scrapy] Seul le point final n’explore pas et ne patrouille pas
[Scrapy] Seul le point final n’explore pas et ne patrouille pas
N'omettez pas __init__.py
Le websocket de toio (nodejs) et python / websocket ne se connecte pas.