Lesen Sie eine Zeichenfolge in einer PDF-Datei mit Java

Überblick

Extrahieren Sie eine Zeichenfolge aus einer PDF-Datei.

Ausführungsumgebung

OS: Windows 7 Sprache: Java

Java-Vorbereitung

Erstellen Sie ein Maven-Projekt und fügen Sie pom.xml Folgendes hinzu

<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
	<version>2.0.8</version>
</dependency>

Implementierung

try {
    File file = new File("test.pdf");
    PDDocument document = PDDocument.load(file);

    //Extrahieren Sie nur Zeichenketten
    PDFTextStripper pdfStripper = new PDFTextStripper();

    //Wie es aussieht(Einstellung zum Lesen von Zeichenketten in der Reihenfolge (von links oben nach rechts unten)
    pdfStripper.setSortByPosition(true);
    //Textextraktion aus pdf
    text = pdfStripper.getText(document);

    document.close();

} catch (Exception e) {
    e.printStackTrace();
}

Da die Ausgabezeichenfolge Seitenzahlen und Leerzeichen (Leerzeichen halber Breite, Leerzeichen voller Breite, Tabulatoren) usw. enthält, wird die Analyse einfacher, sobald die Bereinigungsverarbeitung angewendet wird.

Recommended Posts

Lesen Sie eine Zeichenfolge in einer PDF-Datei mit Java
Lesen Sie die xlsx-Datei in Java mit Selenium
Teilen Sie eine Zeichenfolge in Java mit ". (Dot)"
Ich habe versucht, mit OCR eine PDF-Datei mit Java zu verarbeiten
Lesen Sie die Java-Eigenschaftendatei in C #
Ich habe ein PDF mit Java erstellt.
Ich habe versucht, eine PDF-Datei mit Java part2 zu verarbeiten
Lesen Sie die Datei unter dem Klassenpfad als Zeichenfolge mit spring
Lesen Sie Elemente mit Kommas in CSV-Dateien ohne Aufteilung (Java).
Lesen Sie JSON in Java
Erstellen Sie eine CSR mit erweiterten Informationen in Java
Java-Eigenschaftendatei lesen
Code zum Escapezeichen von JSON-Zeichenfolgen in Java
Textextraktion in Java aus PDF mit pdfbox-2.0.8
Eine Bat-Datei, die Java in Windows verwendet
[Java] Dateien in src / main / resources lesen
<java> Zip-Datei lesen und direkt in String konvertieren
[Spring] Lesen Sie mit MessageSource eine Nachricht aus einer YAML-Datei
Fügen Sie das Bild mit der statischen Java-Methode in die JAR-Datei ein
PDF mit einem eigenständigen Programm (Java / Perl / VBA) exportieren
Implementieren Sie Singleton mit Enum schnell in Java
Ausgabe true mit if (a == 1 && a == 2 && a == 3) in Java (Invisible Identifier)
So konvertieren Sie eine Datei in ein Byte-Array in Java
Java11: Führen Sie Java-Code unverändert in einer einzelnen Datei aus
Paging PDF mit Java + PDFBox.jar
Lesen Sie die Standardeingabe in Java
[Java] Erstellen Sie eine temporäre Datei
Suchen Sie eine Teilmenge in Java
Lesen Sie Binärdateien in Java 2
[Java] [Android] INI-Datei lesen
[Java] Ganzzahlige Informationen von Zeichen in der Textdatei, die mit der Methode read () erfasst wurden
Speichern von Dateien mit der angegebenen Erweiterung unter dem in Java angegebenen Verzeichnis in der Liste
Konvertieren Sie ein Java-Byte-Array in eine hexadezimale Zeichenfolge
Lesen Sie WAV-Daten als Byte-Array unter Android Java
Führen Sie PHP-FPM mit aktiviertem OPcache in einem schreibgeschützten Container aus
Aktivieren Sie die Zelle A1 jeder Excel-Datei mit Java
Speichern von Zeichenfolgen von ArrayList zu Zeichenfolge in Java (Personal)
Erstellen Sie einen SlackBot mit AWS Lambda & API Gateway in Java
Selbst in Java möchte ich true mit == 1 && a == 2 && a == 3 ausgeben
Ich habe versucht, in Java von einer Zeichenfolge in einen LocalDate-Typ zu konvertieren
Informationen zum Verhalten beim Erstellen einer Dateizuordnung mit Java
Erstellen eines Java-Projekts mit Gradle
Einfaches Lesen von Textdateien in Java (Java 11 & Java 7)
Morphologische Analyse in Java mit Kuromoji
3 Implementieren Sie einen einfachen Interpreter in Java
Laden Sie Dateien mit Java HttpURLConnection hoch
Lesen Sie CSV in Java (Super CSV Annotation)
Lesen Sie die Dump-Datei mit MySQL von Docker
Führen Sie eine Batchdatei von Java aus
Entpacken Sie die Zip-Datei in Java
Protokollausgabe in Datei in Java
Ein einfaches Beispiel für Rückrufe in Java
PDF und TIFF mit Java 8 ausgeben
Beispiel für eine EXCEL-Dateiaktualisierung mit JAVA
Informationen zur Dateikopierverarbeitung in Java
Bleiben Sie in einem Java Primer stecken
Tweak Markdown mit Java Flexmark-Java
Java zeichnet Formen in PDF-Dokumenten