Raclons avec Java! !!

Environnement de développement

Qu'est-ce que le grattage?

Il fait référence au processus d'extraction de données telles que des images et des titres spécifiques à partir de HTML sur un site Web!

Bibliothèque requise pour le scraping

Utilisez une bibliothèque appelée ** "jsoup" ** pour le scraping!

jsoup est une bibliothèque pour l'analyse HTML, et diverses classes d'analyse peuvent être utilisées!

Maintenant, écrivons ce qui suit dans pom.xml.

python


<dependencies>

//réduction

    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.10.2</version>
    </dependency>
</dependencies>

Procédure de grattage

① Obtenez des informations HTML sur le site Web (2) Rechercher les informations de l'élément de balise spécifié à partir des informations HTML ③ Extrayons les valeurs de texte et d'attribut des informations HTML

① Obtenez des informations HTML sur le site Web

Utilisez ** "Classe de document" ** pour travailler avec des informations HTML. Créez une variable de classe Documennt et affectez les informations HTML acquises à cette variable. La description ci-dessous!

python


Document document = Jsoup.connect("url").get();

En spécifiant la chaîne de caractères de l'URL dans l'argument de la méthode de connexion, vous pouvez obtenir le code HTML du site Web de cette URL. Attribuez ces informations à une variable de la classe Document.


(2) Rechercher les informations de l'élément de balise spécifié à partir des informations HTML

Utilisez ** "méthode de sélection" ** pour obtenir les informations de balise obtenues.

python


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");

Vous utilisez la méthode de sélection sur le côté droit de la description de la deuxième ligne. Puisque h3 est décrit comme une chaîne de caractères dans l'argument, les informations de l'élément h3 sont obtenues à partir du site Web de l'URL spécifiée et affectées à la variable de la classe Elements. La classe Elements est une classe qui contient la classe Element sous la forme d'une liste, et la classe Element est une classe qui représente des éléments HTML.


③ Extrayons les valeurs de texte et d'attribut des informations HTML

Utilisez la ** "méthode text" ** pour obtenir le texte HTML et la ** "méthode attr" ** si vous souhaitez obtenir la valeur de l'attribut.

python


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3");

for (Element element : elements) {
    System.out.println(element.text());
}

Extrayez le texte des informations de l'élément "h3" obtenues par la méthode select et affichez-le sur la console!

python


Document document = Jsoup.connect("url").get();
Elements elements = document.select("h3 a");

for (Element element : elements) {
    System.out.println(element.attr("href"));
}

Extrayez l'attribut href des informations de l'élément "h3 a" obtenues par la méthode select et affichez-le sur la console!

Recommended Posts

Raclons avec Java! !!
Expérimentons l'expansion en ligne Java
Exploitons Excel avec Java! !!
Étudions Java
Essayons WebSocket avec Java et javascript!
Installez java avec Homebrew
Écrivons l'entrée / sortie de fichier Java avec NIO
[LeJOS] Contrôlons le moteur EV3 avec Java
Changer de siège avec Java
Installez Java avec Ansible
Créons un processus chronométré avec la minuterie de Java! !!
Téléchargement confortable avec JAVA
Changer java avec direnv
Construire Java avec Wercker
Conversion Endian avec JAVA
[Bases de Java] Créons un triangle avec une instruction for
[LeJOS] Contrôlons à distance le moteur EV3 avec Java
Créer un multi-projet Java avec Gradle
Premiers pas avec Java Collection
Authentification de base avec Java 11 HttpClient
Exécuter un lot avec docker-compose avec Java batch
[Template] Connexion MySQL avec Java
Réécrire Java try-catch avec facultatif
Installez Java 7 avec Homebrew (cask)
[Java] Communication JSON avec jackson
Java pour jouer avec Function
Essayez la connexion DB avec Java
Programmation Java incroyable (arrêtons-nous)
Activer Java EE avec NetBeans 9
[Java] JavaConfig avec classe interne statique
Essayez gRPC avec Java, Maven
[Form_with] Unifions le formulaire avec form_with.
Gestion des versions Java avec SDKMAN
Cryptage / décryptage RSA avec Java 8
Pagination de PDF avec Java + PDFBox.jar
Trier les chaînes comme une fonction caractéristique avec Java
Orienté objet avec Strike Gundam (java)
[Java] Acquisition de contenu avec HttpCliient
Dépannage avec Java Flight Recorder
Rationalisez les tests Java avec Spock
Connectez-vous à DB avec Java
Erreur lors de la lecture avec java
Utilisation de Mapper avec Java (Spring)
Mémo d'étude Java 2 avec Progate
Premiers pas avec les bases de Java
Affichage saisonnier avec commutateur Java
Utiliser SpatiaLite avec Java / JDBC
Étudier Java avec Progate Note 1
Comparez Java 8 en option avec Swift
Analyse HTML (scraping) avec JAVA
Exécuter Java VM avec Web Assembly
Transition d'écran avec swing, java
Test unitaire Java avec Mockito
[Java] Remplaçons les objets de données par un mappeur ~ BeanMapper Orika ~
[Java 8] Suppression en double (et vérification en double) avec Stream
Créer une classe immuable avec JAVA
Commençons par la programmation parallèle
Construire un projet Java avec Gradle
Java pour apprendre avec les ramen [Partie 1]