Technologie logicielle informatique qui extrait des informations de sites Web. Il y a différentes zones grises lors du grattage, alors soyez prudent. Référence: Scraping and Law
Je veux parler de ce que vous pouvez faire avec le grattage. Voici quelques exemples concrets
Il existe différentes manières de l'utiliser.
scraping.java
//Instruction d'importation omise
public class scraping {
public static void main(String[] args){
//Préparer le fichier
PrintWriter p = null;
try {
p = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream("Chemin de destination de sortie/sample.csv"),"Shift-JIS")));
//Spécifiez l'en-tête
//Vous pouvez le changer librement ici
//Si vous souhaitez ajouter plus de colonnes,Et ajoutez le nom de la colonne en tant qu'ensemble
p.print("Colonne 1");
p.print(",");
p.print("Colonne 2");
p.println();
//Cette fois, je l'utilise comme clé de colonne
int num = 1;
Document document = Jsoup.connect("Cible URL").get();
//Vous pouvez définir diverses choses telles que le nom de la classe, le nom de l'ID, le nom de la balise, etc.
Elements elements = document.select("Élément cible");
//Extraire lorsqu'il y a plusieurs éléments cibles
for (Element element : elements) {
//Définir le contenu
p.print(num);
p.print(",");
p.print(element.text());
p.println(); //nouvelle ligne
num++;
}
} catch (IOException e) {
System.out.println(e);
}finally {
p.close();
}
System.out.println("Sortie du fichier terminée!");
}
}
document.select
Elements elements = document.select ("éléments cibles");
Pour l'élément cible
Peut être spécifié. Aussi,
Il existe également une méthode de spécification telle que la classe de nom de la balise p.
element.text
for (Element element : elements) { // définir le contenu p.print(num); p.print(","); p.print(element.text()); p.println (); // saut de ligne num++; }
--Le contenu peut être récupéré en utilisant la méthode text.
En conséquence, le grattage pourrait être réalisé avec java dans environ 30. Personnellement, j'aime Java, alors je l'ai essayé.
Recommended Posts