Le scraping Web est facile avec une bibliothèque appelée Jsoup. Si vous le gérez, vous pouvez également faire de l'automatisation Web. Je présenterai également le traitement simple qui peut être effectué avec Jsoup en tant qu'API.
La possibilité de grattage dépend des règles de l'autre partie. Par exemple, le scraping vers des sites interdisant le scraping, comme Amazon, est interdit. Dans certains cas, des mesures juridiques peuvent être prises, alors assurez-vous de suivre les règles.
Il s'agit de l'API publiée.
"Output URL as HTML" "Extraire le texte de l'URL et la sortie" "Extraire tous les liens Href à l'intérieur de l'URL de l'URL et la sortie" "Extraire tous les liens src de la balise img à l'intérieur de l'URL de l'URL et de la sortie" Je vais.
Essai [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87% Laissons URL2TEXT l'article de wikipedia sur E3% 82% A3% E3% 82% A2). J'ai sauté le milieu, mais je peux obtenir le texte du texte comme ceci.
{
"log": "",
"startTime": "1481723361899",
"endTime": "1481723362888",
"processTime": "989",
"text": "Wikipédia- Wikipedia Wikipédia出典:Destination de l'encyclopédie gratuite "Wikipedia":Conseils, recherche Cet article décrit Wikipédia comme un article d'encyclopédie.
...
Dernière mise à jour le 2 octobre 2016(journée) 09:22 (journée時は個人設定で未設定ならばUTC)。 テキストはクリエイティブ・コモンズ 表示-Disponible sous une licence d'héritage. Des conditions supplémentaires peuvent s'appliquer. Veuillez consulter les conditions d'utilisation pour plus de détails. Politique de confidentialité À propos de Wikipedia Avis de non-responsabilité Déclaration relative aux cookies du développeur Vue mobile"
}
Ensuite, [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87% Laissons URL2SRC l'article de wikipedia sur E3% 82% A3% E3% 82% A2). J'ai sauté le milieu, mais je peux obtenir l'URL de img dans le texte comme ceci.
{
"log": "",
"startTime": "1481724733607",
"endTime": "1481724734550",
"processTime": "943",
"links": [
"https://upload.wikimedia.org/wikipedia/commons/thumb/f/fc/Padlock-silver.svg/20px-Padlock-silver.svg.png ",
"https://upload.wikimedia.org/wikipedia/commons/thumb/5/5a/Wikipedia%27s_W.svg/20px-Wikipedia%27s_W.svg.png ",
"https://upload.wikimedia.org/wikipedia/commons/thumb/5/5f/Disambig_gray.svg/25px-Disambig_gray.svg.png ",
"https://upload.wikimedia.org/wikipedia/commons/thumb/8/80/Wikipedia-logo-v2.svg/100px-Wikipedia-logo-v2.svg.png ",
...
}
Si vous pouvez faire du web scraping, divers hackassons du week-end progresseront. Bien sûr, suivez les règles et utilisez-le sans aucun inconvénient.
Recommended Posts