Lass uns mit Java kratzen! !!

Entwicklungsumgebung

Was ist Schaben?

Es bezieht sich auf den Prozess des Extrahierens von Daten wie bestimmten Bildern und Titeln aus HTML auf einer Website!

Zum Scraping erforderliche Bibliothek

Verwenden Sie eine Bibliothek namens ** "jsoup" ** zum Scraping!

jsoup ist eine Bibliothek zum Parsen von HTML, und verschiedene Klassen zum Parsen können verwendet werden!

Schreiben wir nun Folgendes in pom.xml.

python


<dependencies>

//Kürzung

    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.2</version>
    </dependency>
</dependencies>

Verfahren zum Schaben

① Holen Sie sich HTML-Informationen von der Website (2) Suchen Sie die Informationen des angegebenen Tag-Elements aus den HTML-Informationen ③ Extrahieren wir Text- und Attributwerte aus HTML-Informationen

① Holen Sie sich HTML-Informationen von der Website

Verwenden Sie ** "Document Class" **, um mit HTML-Informationen zu arbeiten. Erstellen Sie eine Variable der Documennt-Klasse und weisen Sie dieser Variablen die erfassten HTML-Informationen zu. Die Beschreibung unten!

python


Document document = Jsoup.connect("url").get();

Durch Angabe der URL-Zeichenfolge im Argument der Verbindungsmethode können Sie den HTML-Code der Website unter dieser URL abrufen. Weisen Sie diese Informationen einer Variablen in der Document-Klasse zu.


(2) Suchen Sie die Informationen des angegebenen Tag-Elements aus den HTML-Informationen

Verwenden Sie ** "Methode auswählen" **, um die erhaltenen Tag-Informationen zu erhalten.

python


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");

Sie verwenden die Auswahlmethode auf der rechten Seite der Beschreibung der zweiten Zeile. Da h3 im Argument als Zeichenfolge beschrieben wird, werden die Informationen des h3-Elements von der Website der angegebenen URL abgerufen und der Variablen der Elements-Klasse zugewiesen. Die Elements-Klasse ist eine Klasse, die die Element-Klasse in Form einer Liste enthält, und die Element-Klasse ist eine Klasse, die HTML-Elemente darstellt.


③ Extrahieren wir Text- und Attributwerte aus HTML-Informationen

Verwenden Sie die ** "Textmethode" **, um den HTML-Text abzurufen, und die ** "attr-Methode" **, wenn Sie den Wert des Attributs abrufen möchten.

python


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");

for (Element element : elements) {
    System.out.println(element.text());
}

Extrahieren Sie den Text aus den mit der Auswahlmethode erhaltenen "h3" -Elementinformationen und zeigen Sie ihn auf der Konsole an!

python


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3 a");

for (Element element : elements) {
    System.out.println(element.attr("href"));
}

Extrahieren Sie das href-Attribut aus den mit der select-Methode erhaltenen "h3 a" -Elementinformationen und zeigen Sie es auf der Konsole an!

Recommended Posts

Lass uns mit Java kratzen! !!
Experimentieren wir mit der Java-Inline-Erweiterung
Lassen Sie uns Excel mit Java betreiben! !!
Lassen Sie uns Java studieren
Probieren wir WebSocket mit Java und Javascript aus!
Installieren Sie Java mit Homebrew
Schreiben wir die Eingabe / Ausgabe von Java-Dateien mit NIO
[LeJOS] Lassen Sie uns den EV3-Motor mit Java steuern
Wechseln Sie die Plätze mit Java
Installieren Sie Java mit Ansible
Lassen Sie uns mit Javas Timer einen zeitgesteuerten Prozess erstellen! !!
Bequemer Download mit JAVA
Schalten Sie Java mit direnv
Erstellen Sie Java mit Wercker
Endian-Konvertierung mit JAVA
[Java-Grundlagen] Lassen Sie uns ein Dreieck mit einer for-Anweisung erstellen
[LeJOS] Lassen Sie uns den EV3-Motor mit Java fernsteuern
Erstellen Sie mit Gradle ein Java-Multiprojekt
Erste Schritte mit Java Collection
Grundlegende Authentifizierung mit Java 11 HttpClient
Führen Sie Batch mit Docker-Compose mit Java-Batch aus
[Vorlage] MySQL-Verbindung mit Java
Schreiben Sie Java Try-Catch mit Optional neu
Installieren Sie Java 7 mit Homebrew (Fass)
[Java] JSON-Kommunikation mit Jackson
Java zum Spielen mit Function
Versuchen Sie eine DB-Verbindung mit Java
Erstaunliche Java-Programmierung (hören wir auf)
Aktivieren Sie Java EE mit NetBeans 9
[Java] JavaConfig mit statischer innerer Klasse
Versuchen Sie gRPC mit Java, Maven
[Form_with] Vereinen wir das Formular mit form_with.
Java-Versionsverwaltung mit SDKMAN
RSA-Verschlüsselung / Entschlüsselung mit Java 8
Paging PDF mit Java + PDFBox.jar
Sortieren Sie Zeichenfolgen als charakteristische Funktion mit Java
Objektorientiert mit Strike Gundam (Java)
[Java] Inhaltserfassung mit HttpCliient
Fehlerbehebung mit Java Flight Recorder
Optimieren Sie Java-Tests mit Spock
Stellen Sie mit Java eine Verbindung zur Datenbank her
Fehler beim Spielen mit Java
Verwenden von Mapper mit Java (Spring)
Java Study Memo 2 mit Progate
Erste Schritte mit Java Basics
Saisonale Anzeige mit Java-Schalter
Verwenden Sie SpatiaLite mit Java / JDBC
Lernen von Java mit Progate Note 1
Vergleichen Sie Java 8 Optional mit Swift
HTML-Analyse (Scraping) mit JAVA
Führen Sie Java VM mit Web Assembly aus
Bildschirmübergang mit Swing, Java
Java Unit Test mit Mockito
[Java] Ersetzen wir Datenobjekte durch einen Mapper ~ BeanMapper Orika ~
[Java 8] Doppelte Löschung (& doppelte Überprüfung) mit Stream
Erstellen Sie mit JAVA eine unveränderliche Klasse
Beginnen wir mit der parallelen Programmierung
Erstellen eines Java-Projekts mit Gradle
Java mit Ramen lernen [Teil 1]