Dans la continuité de la dernière fois, nous allons créer la partie acquisition de Qiita.
Grattage de brouillon Qiita
Obtenez votre propre projet de liste de Qiita
Puisqu'il s'agit d'un processus de système de connexion comme la dernière fois, utilisez Mechanize.
crawler.rb
crawler.rb
page = agent.get("https://qiita.com/drafts")
doc = Nokogiri::HTML.parse(page.body, nil, 'utf-8')
json = JSON.parse(doc.css('.js-react-on-rails-component')[1].inner_html)
json['creating_draft_items'].each do |item|
if item['raw_body'].match(/Publication de réservation/)
id = item['item_uuid']
title = item['title']
raw_body = item['raw_body']
tags = item['tag_notation'].split(' ')
agent.get("https://qiita.com/drafts/#{id}")
tag_data = []
tags.each do |tag|
tag_data.push({name:tag,versions: []})
end
end
end
Ajoutez la phrase ci-dessus en ajoutant et en modifiant à partir de la dernière fois. Le code ci-dessus obtient une liste d'informations brouillon, et s'il y a un mot «poste réservé» dans celui-ci, cette information est obtenue. La dernière fois, j'ai spécifié l'URL comme identifiant dans la partie d'acquisition du brouillon, mais elle sera redirigée par / drafts, donc cela peut être fait.
【la prochaine fois】 Je vais enfin faire une partie de post, mais cela semble être plus difficile que je ne le pensais ... Peut-être que je vais compter sur le sélénium ...
Recommended Posts