Es bezieht sich auf den Prozess des Extrahierens von Daten wie bestimmten Bildern und Titeln aus HTML auf einer Website!
Verwenden Sie eine Bibliothek namens ** "jsoup" ** zum Scraping!
jsoup ist eine Bibliothek zum Parsen von HTML, und verschiedene Klassen zum Parsen können verwendet werden!
Schreiben wir nun Folgendes in pom.xml.
python
<dependencies>
//Kürzung
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
</dependencies>
① Holen Sie sich HTML-Informationen von der Website (2) Suchen Sie die Informationen des angegebenen Tag-Elements aus den HTML-Informationen ③ Extrahieren wir Text- und Attributwerte aus HTML-Informationen
Verwenden Sie ** "Document Class" **, um mit HTML-Informationen zu arbeiten. Erstellen Sie eine Variable der Documennt-Klasse und weisen Sie dieser Variablen die erfassten HTML-Informationen zu. Die Beschreibung unten!
python
Document document = Jsoup.connect("url").get();
Durch Angabe der URL-Zeichenfolge im Argument der Verbindungsmethode können Sie den HTML-Code der Website unter dieser URL abrufen. Weisen Sie diese Informationen einer Variablen in der Document-Klasse zu.
Verwenden Sie ** "Methode auswählen" **, um die erhaltenen Tag-Informationen zu erhalten.
python
Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");
Sie verwenden die Auswahlmethode auf der rechten Seite der Beschreibung der zweiten Zeile. Da h3 im Argument als Zeichenfolge beschrieben wird, werden die Informationen des h3-Elements von der Website der angegebenen URL abgerufen und der Variablen der Elements-Klasse zugewiesen. Die Elements-Klasse ist eine Klasse, die die Element-Klasse in Form einer Liste enthält, und die Element-Klasse ist eine Klasse, die HTML-Elemente darstellt.
Verwenden Sie die ** "Textmethode" **, um den HTML-Text abzurufen, und die ** "attr-Methode" **, wenn Sie den Wert des Attributs abrufen möchten.
python
Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");
for (Element element : elements) {
System.out.println(element.text());
}
Extrahieren Sie den Text aus den mit der Auswahlmethode erhaltenen "h3" -Elementinformationen und zeigen Sie ihn auf der Konsole an!
python
Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3 a");
for (Element element : elements) {
System.out.println(element.attr("href"));
}
Extrahieren Sie das href-Attribut aus den mit der select-Methode erhaltenen "h3 a" -Elementinformationen und zeigen Sie es auf der Konsole an!
Recommended Posts