Computersoftwaretechnologie, die Informationen von Websites extrahiert. Beim Schaben gibt es verschiedene Grauzonen. Seien Sie also vorsichtig. Referenz: Scraping and Law
Ich möchte darüber sprechen, was Sie mit Schaben machen können. Hier einige konkrete Beispiele
--Datensammlung für maschinelles Lernen
Es gibt verschiedene Möglichkeiten, es zu verwenden.
scraping.java
//Importanweisung weggelassen
public class scraping {
public static void main(String[] args){
//Datei vorbereiten
PrintWriter p = null;
try {
p = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream("Zielpfad ausgeben/sample.csv"),"Shift-JIS")));
//Geben Sie den Header an
//Sie können es hier frei ändern
//Wenn Sie weitere Spalten hinzufügen möchten,Und fügen Sie den Spaltennamen als Satz hinzu
p.print("Spalte 1");
p.print(",");
p.print("Spalte 2");
p.println();
//Diesmal benutze ich es als Spaltenschlüssel
int num = 1;
Document document = Jsoup.connect("Ziel-URL").get();
//Sie können verschiedene Dinge wie Klassenname, ID-Name, Tag-Name usw. festlegen.
Elements elements = document.select("Zielelement");
//Extrahieren, wenn mehrere Zielelemente vorhanden sind
for (Element element : elements) {
//Stellen Sie den Inhalt ein
p.print(num);
p.print(",");
p.print(element.text());
p.println(); //Neue Zeile
num++;
}
} catch (IOException e) {
System.out.println(e);
}finally {
p.close();
}
System.out.println("Dateiausgabe abgeschlossen!");
}
}
document.select
Elemente elements = document.select ("Zielelemente");
Für das Zielelement
Kann angegeben werden. Ebenfalls,
Es gibt auch eine Spezifikationsmethode wie die Namensklasse des p-Tags.
element.text
for (Element element : elements) { // setze den Inhalt p.print(num); p.print(","); p.print(element.text()); p.println (); // Zeilenumbruch num++; }
Infolgedessen konnte mit Java in etwa 30 ein Schaben realisiert werden. Ich persönlich mag Java, also habe ich es versucht.
Recommended Posts