Technologie logicielle informatique qui extrait des informations de sites Web. Il y a différentes zones grises lors du grattage, alors soyez prudent. Référence: Scraping and Law
Je veux parler de ce que vous pouvez faire avec le grattage. Voici quelques exemples concrets
Il existe différentes manières de l'utiliser.
scraping.java
//Instruction d'importation omise
public class scraping {
    public static void main(String[] args){
        //Préparer le fichier
        PrintWriter p = null;
        try {
            p = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream("Chemin de destination de sortie/sample.csv"),"Shift-JIS")));
            //Spécifiez l'en-tête
            //Vous pouvez le changer librement ici
            //Si vous souhaitez ajouter plus de colonnes,Et ajoutez le nom de la colonne en tant qu'ensemble
                p.print("Colonne 1");
                p.print(",");
                p.print("Colonne 2");
                p.println();
            //Cette fois, je l'utilise comme clé de colonne
                int num = 1;
                Document document = Jsoup.connect("Cible URL").get();
                //Vous pouvez définir diverses choses telles que le nom de la classe, le nom de l'ID, le nom de la balise, etc.
                Elements elements = document.select("Élément cible");
                //Extraire lorsqu'il y a plusieurs éléments cibles
                for (Element element : elements) {
                    //Définir le contenu
                    p.print(num);
                    p.print(",");
                    p.print(element.text());
                    p.println();    //nouvelle ligne
                    num++;
                }
               
            } catch (IOException e) {
                    System.out.println(e);
            }finally {
                p.close();
            }
        System.out.println("Sortie du fichier terminée!");
    }
}
document.select
Elements elements = document.select ("éléments cibles");
Pour l'élément cible
Peut être spécifié. Aussi,
Il existe également une méthode de spécification telle que la classe de nom de la balise p.
element.text
for (Element element : elements) { // définir le contenu p.print(num); p.print(","); p.print(element.text()); p.println (); // saut de ligne num++; }
--Le contenu peut être récupéré en utilisant la méthode text.
En conséquence, le grattage pourrait être réalisé avec java dans environ 30. Personnellement, j'aime Java, alors je l'ai essayé.
Recommended Posts