[JAVA] Scraping Web facile avec Jsoup

introduction

Le scraping Web est facile avec une bibliothèque appelée Jsoup. Si vous le gérez, vous pouvez également faire de l'automatisation Web. Je présenterai également le traitement simple qui peut être effectué avec Jsoup en tant qu'API.

Remarques

La possibilité de grattage dépend des règles de l'autre partie. Par exemple, le scraping vers des sites interdisant le scraping, comme Amazon, est interdit. Dans certains cas, des mesures juridiques peuvent être prises, alors assurez-vous de suivre les règles.

Essayez d'utiliser

Il s'agit de l'API publiée.

"Output URL as HTML" "Extraire le texte de l'URL et la sortie" "Extraire tous les liens Href à l'intérieur de l'URL de l'URL et la sortie" "Extraire tous les liens src de la balise img à l'intérieur de l'URL de l'URL et de la sortie" Je vais.

Essai [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87% Laissons URL2TEXT l'article de wikipedia sur E3% 82% A3% E3% 82% A2). J'ai sauté le milieu, mais je peux obtenir le texte du texte comme ceci.

{
  "log": "",
  "startTime": "1481723361899",
  "endTime": "1481723362888",
  "processTime": "989",
  "text": "Wikipédia- Wikipedia Wikipédia出典:Destination de l'encyclopédie gratuite "Wikipedia":Conseils, recherche Cet article décrit Wikipédia comme un article d'encyclopédie.
...
Dernière mise à jour le 2 octobre 2016(journée) 09:22 (journée時は個人設定で未設定ならばUTC)。 テキストはクリエイティブ・コモンズ 表示-Disponible sous une licence d'héritage. Des conditions supplémentaires peuvent s'appliquer. Veuillez consulter les conditions d'utilisation pour plus de détails. Politique de confidentialité À propos de Wikipedia Avis de non-responsabilité Déclaration relative aux cookies du développeur Vue mobile"
}

Ensuite, [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87% Laissons URL2SRC l'article de wikipedia sur E3% 82% A3% E3% 82% A2). J'ai sauté le milieu, mais je peux obtenir l'URL de img dans le texte comme ceci.

{
  "log": "",
  "startTime": "1481724733607",
  "endTime": "1481724734550",
  "processTime": "943",
  "links": [
    "https://upload.wikimedia.org/wikipedia/commons/thumb/f/fc/Padlock-silver.svg/20px-Padlock-silver.svg.png ",
    "https://upload.wikimedia.org/wikipedia/commons/thumb/5/5a/Wikipedia%27s_W.svg/20px-Wikipedia%27s_W.svg.png ",
    "https://upload.wikimedia.org/wikipedia/commons/thumb/5/5f/Disambig_gray.svg/25px-Disambig_gray.svg.png ",
    "https://upload.wikimedia.org/wikipedia/commons/thumb/8/80/Wikipedia-logo-v2.svg/100px-Wikipedia-logo-v2.svg.png ",
...
}

Exemple d'appel d'API

Ancienne histoire

en conclusion

Si vous pouvez faire du web scraping, divers hackassons du week-end progresseront. Bien sûr, suivez les règles et utilisez-le sans aucun inconvénient.

Recommended Posts

Scraping Web facile avec Jsoup
Gratte de sites Web avec jsoup
(Java) BDD facile avec Spectrum?
Micro service facile avec Spark Framework!
Tester l'API Web avec junit
Application Web construite avec docker (1)
Introduction facile à la bibliothèque avec Maven!
Analyse HTML (scraping) avec JAVA
Passez facilement des appels JDBC avec Commons DbUtils
Navigation Web avec ARKit + SceneKit + Metal
Créer une application Web avec Javalin
Accès facile à la base de données avec Java Sql2o
Grattage avec jsoup pour obtenir le classement "J'aime" des organisations Qiita