[JAVA] Einfaches Web-Scraping mit Jsoup

Einführung

Web Scraping ist mit einer Bibliothek namens Jsoup einfach. Wenn Sie es verwalten, können Sie auch Webautomatisierung durchführen. Ich werde auch die einfache Verarbeitung vorstellen, die mit Jsoup als API durchgeführt werden kann.

Vorsichtsmaßnahmen

Ob ein Scraping möglich ist oder nicht, hängt von den Regeln der anderen Partei ab. Das Scraping auf Websites, die das Scraping verbieten, wie z. B. Amazon, ist beispielsweise verboten. In einigen Fällen können rechtliche Maßnahmen ergriffen werden. Befolgen Sie daher unbedingt die Regeln.

Versuchen Sie es mit

Dies ist die veröffentlichte API.

"URL als HTML ausgeben" "Text aus URL extrahieren und ausgeben" "Alle Href-Links innerhalb der URL aus der URL extrahieren und ausgeben" "Alle src-Links des img-Tags innerhalb der URL aus der URL extrahieren und ausgeben" Ich werde.

Testversion [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87% Lassen Sie uns den Wikipedia-Artikel über E3% 82% A3% E3% 82% A2) URL2TEXT. Ich habe die Mitte übersprungen, aber ich kann den Text des Textes so erhalten.

{
  "log": "",
  "startTime": "1481723361899",
  "endTime": "1481723362888",
  "processTime": "989",
  "text": "Wikipedia- Wikipedia Wikipedia出典:Kostenlose Enzyklopädie "Wikipedia" Ziel:Anleitung, Suche Dieser Artikel beschreibt Wikipedia als Enzyklopädie-Artikel.
...
Letzte Aktualisierung 2. Oktober 2016(Tag) 09:22 (Tag時は個人設定で未設定ならばUTC)。 テキストはクリエイティブ・コモンズ 表示-Verfügbar unter einer Erbschaftslizenz. Es können zusätzliche Bedingungen gelten. Weitere Informationen finden Sie in den Nutzungsbedingungen. Datenschutzrichtlinie Über Wikipedia Haftungsausschluss Entwickler-Cookie-Erklärung Mobile View"
}

Als nächstes [Wikipedia](https://ja.wikipedia.org/wiki/%E3%82%A6%E3%82%A3%E3%82%AD%E3%83%9A%E3%83%87% Lassen Sie uns URL2SRC den Wikipedia-Artikel über E3% 82% A3% E3% 82% A2). Ich habe die Mitte übersprungen, aber ich kann die URL von img im Text so erhalten.

{
  "log": "",
  "startTime": "1481724733607",
  "endTime": "1481724734550",
  "processTime": "943",
  "links": [
    "https://upload.wikimedia.org/wikipedia/commons/thumb/f/fc/Padlock-silver.svg/20px-Padlock-silver.svg.png ",
    "https://upload.wikimedia.org/wikipedia/commons/thumb/5/5a/Wikipedia%27s_W.svg/20px-Wikipedia%27s_W.svg.png ",
    "https://upload.wikimedia.org/wikipedia/commons/thumb/5/5f/Disambig_gray.svg/25px-Disambig_gray.svg.png ",
    "https://upload.wikimedia.org/wikipedia/commons/thumb/8/80/Wikipedia-logo-v2.svg/100px-Wikipedia-logo-v2.svg.png ",
...
}

API-Aufrufbeispiel

Frühere Geschichte

abschließend

Wenn Sie Web-Scraping durchführen können, werden verschiedene Wochenend-Hackassons Fortschritte machen. Befolgen Sie natürlich die Regeln und verwenden Sie sie ohne Unannehmlichkeiten.

Recommended Posts

Einfaches Web-Scraping mit Jsoup
Website-Scraping mit jsoup
(Java) Einfache BDD mit Spektrum?
Einfacher Mikroservice mit Spark Framework!
Testen Sie die Web-API mit junit
Mit Docker erstellte Webanwendung (1)
Einfache Bibliothekseinführung mit Maven!
HTML-Analyse (Scraping) mit JAVA
Mit Commons DbUtils können Sie ganz einfach JDBC-Anrufe tätigen
Surfen im Internet mit ARKit + SceneKit + Metal
Erstellen Sie eine Webanwendung mit Javalin
Einfacher Datenbankzugriff mit Java Sql2o
Scraping mit jsoup, um das "Likes" -Ranking von Qiita-Organisationen zu erhalten