Versuchen Sie, etwa 30 Zeilen in Java zu kratzen (CSV-Ausgabe)

Was ist Schaben?

Computersoftwaretechnologie, die Informationen von Websites extrahiert. Beim Schaben gibt es verschiedene Grauzonen. Seien Sie also vorsichtig. Referenz: Scraping and Law

Zweck

Ich möchte darüber sprechen, was Sie mit Schaben machen können. Hier einige konkrete Beispiele

--Datensammlung für maschinelles Lernen

Es gibt verschiedene Möglichkeiten, es zu verwenden.

Quellcode

scraping.java


//Importanweisung weggelassen
public class scraping {
    public static void main(String[] args){
        //Datei vorbereiten
        PrintWriter p = null;
        try {
            p = new PrintWriter(new BufferedWriter(new OutputStreamWriter(new FileOutputStream("Zielpfad ausgeben/sample.csv"),"Shift-JIS")));
            //Geben Sie den Header an
            //Sie können es hier frei ändern
            //Wenn Sie weitere Spalten hinzufügen möchten,Und fügen Sie den Spaltennamen als Satz hinzu
                p.print("Spalte 1");
                p.print(",");
                p.print("Spalte 2");
                p.println();
            //Diesmal benutze ich es als Spaltenschlüssel
                int num = 1;
                Document document = Jsoup.connect("Ziel-URL").get();
                //Sie können verschiedene Dinge wie Klassenname, ID-Name, Tag-Name usw. festlegen.
                Elements elements = document.select("Zielelement");
                //Extrahieren, wenn mehrere Zielelemente vorhanden sind
                for (Element element : elements) {
                    //Stellen Sie den Inhalt ein
                    p.print(num);
                    p.print(",");
                    p.print(element.text());
                    p.println();    //Neue Zeile
                    num++;
                }
               
            } catch (IOException e) {
                    System.out.println(e);
            }finally {
                p.close();
            }
        System.out.println("Dateiausgabe abgeschlossen!");

    }
}

Methode

document.select

Elemente elements = document.select ("Zielelemente");

Für das Zielelement

Kann angegeben werden. Ebenfalls,

Es gibt auch eine Spezifikationsmethode wie die Namensklasse des p-Tags.

element.text

for (Element element : elements) { // setze den Inhalt p.print(num); p.print(","); p.print(element.text()); p.println (); // Zeilenumbruch num++; }

Zusammenfassung

Infolgedessen konnte mit Java in etwa 30 ein Schaben realisiert werden. Ich persönlich mag Java, also habe ich es versucht.

Recommended Posts

Versuchen Sie, etwa 30 Zeilen in Java zu kratzen (CSV-Ausgabe)
Informationen zur Java-Protokollausgabe
Versuchen Sie es mit RocksDB mit Java
Segfo Java in 6 Zeilen
Versuchen Sie, mit Java zu kratzen [Hinweis]
Versuchen Sie, JavaScript in Java aufzurufen
Lassen Sie uns Spresense mit Java entwickeln (1)
Probieren Sie den Funktionstyp in Java aus! ①
Unterstützt 0 Abfall der CSV-Ausgabe
Über Java Abstract Class
Versuchen Sie, Android Hilt in Java zu implementieren
Lesen Sie CSV in Java (Super CSV Annotation)
Versuchen Sie, Selenuim 3.141.59 mit Eclipse (Java) auszuführen.
Gemischte Ausgabe des westlichen Kalenders in Java
Versuchen Sie einen If-Ausdruck in Java
Protokollausgabe in Datei in Java
Versuchen Sie, AWS X-Ray in Java auszuführen
Informationen zur Dateikopierverarbeitung in Java
Versuchen Sie, Yuma in Java zu implementieren
Informationen zum Zurückgeben einer Referenz in einem Java Getter
Versuchen Sie, n-ary Addition in Java zu implementieren
Versuchen Sie es mit der Stream-API in Java
[Erstellen] Ein Memorandum über das Codieren in Java
Versuchen Sie es mit der JSON-Format-API in Java
Versuchen Sie, den CORBA-Dienst unter Java 11+ aufzurufen
Ausgabedatum in Java im erweiterten ISO 8601-Format
Informationen zu Datensätzen, die zur Vorschau in Java JDK 14 hinzugefügt wurden
Lassen Sie uns eine Taschenrechner-App mit Java erstellen
Fortsetzung Sprechen Sie über das Schreiben von Java mit Emacs @ 2018
Über die Verwirrung beim Starten von Java-Servern
Über die Idee anonymer Klassen in Java
Eine Geschichte über das JDK in der Java 11-Ära
Deserialisieren Sie CSV in Java basierend auf dem Headernamen
Versuchen Sie, ein Bulletin Board in Java zu erstellen
Informationen zu in Java verwendeten Variablen (lokaler Variablentyp)
Zweite Abkochung: Versuchen Sie einen If-Ausdruck in Java
Versuchen Sie es mit Sourcetrail (Win-Version) mit Java-Code
Versuchen Sie, die Cloud Vision-API von GCP in Java zu verwenden
Versuchen Sie es mit Sourcetrail (MacOS-Version) mit Java-Code
Ich habe versucht, neunundneunzig in Java auszugeben
Versuchen Sie es mit der Syntaxanalyse der COTOHA-API in Java
[Java] In der Ausgabe wird etwas als "-0.0" angezeigt
Vergleichen Sie die PDF-Ausgabe in Java für Snapshot-Tests
Über die Java-Schnittstelle
[Java] Informationen zu Java 12-Funktionen
Partisierung in Java
[Java] Über Arrays
Probieren Sie Java 8 Stream aus
Änderungen in Java 11
Janken in Java
Etwas über Java
Wo ist mit Java?
Informationen zu Java-Funktionen
Über Java-Threads
[Java] -Schnittstelle
Über die Java-Klasse
Informationen zu Java-Arrays
[Ausgabe] Über jeden
Über Java-Vererbung