Il fait référence au processus d'extraction de données telles que des images et des titres spécifiques à partir de HTML sur un site Web!
Utilisez une bibliothèque appelée ** "jsoup" ** pour le scraping!
jsoup est une bibliothèque pour l'analyse HTML, et diverses classes d'analyse peuvent être utilisées!
Maintenant, écrivons ce qui suit dans pom.xml.
python
<dependencies>
//réduction
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>1.10.2</version>
</dependency>
</dependencies>
① Obtenez des informations HTML sur le site Web (2) Rechercher les informations de l'élément de balise spécifié à partir des informations HTML ③ Extrayons les valeurs de texte et d'attribut des informations HTML
Utilisez ** "Classe de document" ** pour travailler avec des informations HTML. Créez une variable de classe Documennt et affectez les informations HTML acquises à cette variable. La description ci-dessous!
python
Document document = Jsoup.connect("url").get();
En spécifiant la chaîne de caractères de l'URL dans l'argument de la méthode de connexion, vous pouvez obtenir le code HTML du site Web de cette URL. Attribuez ces informations à une variable de la classe Document.
Utilisez ** "méthode de sélection" ** pour obtenir les informations de balise obtenues.
python
Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");
Vous utilisez la méthode de sélection sur le côté droit de la description de la deuxième ligne. Puisque h3 est décrit comme une chaîne de caractères dans l'argument, les informations de l'élément h3 sont obtenues à partir du site Web de l'URL spécifiée et affectées à la variable de la classe Elements. La classe Elements est une classe qui contient la classe Element sous la forme d'une liste, et la classe Element est une classe qui représente des éléments HTML.
Utilisez la ** "méthode text" ** pour obtenir le texte HTML et la ** "méthode attr" ** si vous souhaitez obtenir la valeur de l'attribut.
python
Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");
for (Element element : elements) {
System.out.println(element.text());
}
Extrayez le texte des informations de l'élément "h3" obtenues par la méthode select et affichez-le sur la console!
python
Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3 a");
for (Element element : elements) {
System.out.println(element.attr("href"));
}
Extrayez l'attribut href des informations de l'élément "h3 a" obtenues par la méthode select et affichez-le sur la console!
Recommended Posts