Entwicklungsumgebung

Spring Tool Suite

Was ist Schaben?

Es bezieht sich auf den Prozess des Extrahierens von Daten wie bestimmten Bildern und Titeln aus HTML auf einer Website!

Zum Scraping erforderliche Bibliothek

Verwenden Sie eine Bibliothek namens ** "jsoup" ** zum Scraping!

jsoup ist eine Bibliothek zum Parsen von HTML, und verschiedene Klassen zum Parsen können verwendet werden!

Schreiben wir nun Folgendes in pom.xml.

`python`


<dependencies>

//Kürzung

    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.2</version>
    </dependency>
</dependencies>

Verfahren zum Schaben

① Holen Sie sich HTML-Informationen von der Website (2) Suchen Sie die Informationen des angegebenen Tag-Elements aus den HTML-Informationen ③ Extrahieren wir Text- und Attributwerte aus HTML-Informationen

① Holen Sie sich HTML-Informationen von der Website

Verwenden Sie ** "Document Class" **, um mit HTML-Informationen zu arbeiten. Erstellen Sie eine Variable der Documennt-Klasse und weisen Sie dieser Variablen die erfassten HTML-Informationen zu. Die Beschreibung unten!

`python`


Document document = Jsoup.connect("url").get();

Durch Angabe der URL-Zeichenfolge im Argument der Verbindungsmethode können Sie den HTML-Code der Website unter dieser URL abrufen. Weisen Sie diese Informationen einer Variablen in der Document-Klasse zu.

(2) Suchen Sie die Informationen des angegebenen Tag-Elements aus den HTML-Informationen

Verwenden Sie ** "Methode auswählen" **, um die erhaltenen Tag-Informationen zu erhalten.

`python`


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");

Sie verwenden die Auswahlmethode auf der rechten Seite der Beschreibung der zweiten Zeile. Da h3 im Argument als Zeichenfolge beschrieben wird, werden die Informationen des h3-Elements von der Website der angegebenen URL abgerufen und der Variablen der Elements-Klasse zugewiesen. Die Elements-Klasse ist eine Klasse, die die Element-Klasse in Form einer Liste enthält, und die Element-Klasse ist eine Klasse, die HTML-Elemente darstellt.

③ Extrahieren wir Text- und Attributwerte aus HTML-Informationen

Verwenden Sie die ** "Textmethode" **, um den HTML-Text abzurufen, und die ** "attr-Methode" **, wenn Sie den Wert des Attributs abrufen möchten.

`python`


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");

for (Element element : elements) {
    System.out.println(element.text());
}

Extrahieren Sie den Text aus den mit der Auswahlmethode erhaltenen "h3" -Elementinformationen und zeigen Sie ihn auf der Konsole an!

`python`


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3 a");

for (Element element : elements) {
    System.out.println(element.attr("href"));
}

Extrahieren Sie das href-Attribut aus den mit der select-Methode erhaltenen "h3 a" -Elementinformationen und zeigen Sie es auf der Konsole an!

Lass uns mit Java kratzen! !!

Entwicklungsumgebung

Was ist Schaben?

Zum Scraping erforderliche Bibliothek

python

Verfahren zum Schaben

① Holen Sie sich HTML-Informationen von der Website

python

(2) Suchen Sie die Informationen des angegebenen Tag-Elements aus den HTML-Informationen

python

③ Extrahieren wir Text- und Attributwerte aus HTML-Informationen

python

python

`python`

`python`

`python`

`python`

`python`