Lesen Sie eine Zeichenfolge in einer PDF-Datei mit Java

Überblick

Extrahieren Sie eine Zeichenfolge aus einer PDF-Datei.

Bilddaten in PDF-Dateien werden in diesem Fall nicht verarbeitet.

Ausführungsumgebung

OS: Windows 7 Sprache: Java

Java-Vorbereitung

Erstellen Sie ein Maven-Projekt und fügen Sie pom.xml Folgendes hinzu

<dependency>
	<groupId>org.apache.pdfbox</groupId>
	<artifactId>pdfbox</artifactId>
	<version>2.0.8</version>
</dependency>

Implementierung

try {
    File file = new File("test.pdf");
    PDDocument document = PDDocument.load(file);

    //Extrahieren Sie nur Zeichenketten
    PDFTextStripper pdfStripper = new PDFTextStripper();

    //Wie es aussieht(Einstellung zum Lesen von Zeichenketten in der Reihenfolge (von links oben nach rechts unten)
    pdfStripper.setSortByPosition(true);
    //Textextraktion aus pdf
    text = pdfStripper.getText(document);

    document.close();

} catch (Exception e) {
    e.printStackTrace();
}

Da die Ausgabezeichenfolge Seitenzahlen und Leerzeichen (Leerzeichen halber Breite, Leerzeichen voller Breite, Tabulatoren) usw. enthält, wird die Analyse einfacher, sobald die Bereinigungsverarbeitung angewendet wird.

Vertikales PDF funktioniert auf diese Weise nicht

Recommended Posts

Lesen Sie eine Zeichenfolge in einer PDF-Datei mit Java

Lesen Sie die xlsx-Datei in Java mit Selenium

Teilen Sie eine Zeichenfolge in Java mit ". (Dot)"

Ich habe versucht, mit OCR eine PDF-Datei mit Java zu verarbeiten

Lesen Sie die Java-Eigenschaftendatei in C #

Ich habe ein PDF mit Java erstellt.

Ich habe versucht, eine PDF-Datei mit Java part2 zu verarbeiten

Lesen Sie die Datei unter dem Klassenpfad als Zeichenfolge mit spring

Lesen Sie Elemente mit Kommas in CSV-Dateien ohne Aufteilung (Java).

Lesen Sie JSON in Java

Erstellen Sie eine CSR mit erweiterten Informationen in Java

Java-Eigenschaftendatei lesen

Code zum Escapezeichen von JSON-Zeichenfolgen in Java

Textextraktion in Java aus PDF mit pdfbox-2.0.8

Eine Bat-Datei, die Java in Windows verwendet

[Java] Dateien in src / main / resources lesen

<java> Zip-Datei lesen und direkt in String konvertieren

[Spring] Lesen Sie mit MessageSource eine Nachricht aus einer YAML-Datei

Fügen Sie das Bild mit der statischen Java-Methode in die JAR-Datei ein

PDF mit einem eigenständigen Programm (Java / Perl / VBA) exportieren

Implementieren Sie Singleton mit Enum schnell in Java

Ausgabe true mit if (a == 1 && a == 2 && a == 3) in Java (Invisible Identifier)

So konvertieren Sie eine Datei in ein Byte-Array in Java

Java11: Führen Sie Java-Code unverändert in einer einzelnen Datei aus

Paging PDF mit Java + PDFBox.jar

Lesen Sie die Standardeingabe in Java

[Java] Erstellen Sie eine temporäre Datei

Suchen Sie eine Teilmenge in Java

Lesen Sie Binärdateien in Java 2

[Java] [Android] INI-Datei lesen

[Java] Ganzzahlige Informationen von Zeichen in der Textdatei, die mit der Methode read () erfasst wurden

Speichern von Dateien mit der angegebenen Erweiterung unter dem in Java angegebenen Verzeichnis in der Liste

Konvertieren Sie ein Java-Byte-Array in eine hexadezimale Zeichenfolge

Lesen Sie WAV-Daten als Byte-Array unter Android Java

Führen Sie PHP-FPM mit aktiviertem OPcache in einem schreibgeschützten Container aus

Aktivieren Sie die Zelle A1 jeder Excel-Datei mit Java

Speichern von Zeichenfolgen von ArrayList zu Zeichenfolge in Java (Personal)

Erstellen Sie einen SlackBot mit AWS Lambda & API Gateway in Java

Selbst in Java möchte ich true mit == 1 && a == 2 && a == 3 ausgeben

Ich habe versucht, in Java von einer Zeichenfolge in einen LocalDate-Typ zu konvertieren

Informationen zum Verhalten beim Erstellen einer Dateizuordnung mit Java

Erstellen eines Java-Projekts mit Gradle

Einfaches Lesen von Textdateien in Java (Java 11 & Java 7)

Morphologische Analyse in Java mit Kuromoji

3 Implementieren Sie einen einfachen Interpreter in Java

Laden Sie Dateien mit Java HttpURLConnection hoch

Lesen Sie CSV in Java (Super CSV Annotation)

Lesen Sie die Dump-Datei mit MySQL von Docker

Führen Sie eine Batchdatei von Java aus

Entpacken Sie die Zip-Datei in Java

Protokollausgabe in Datei in Java

Ein einfaches Beispiel für Rückrufe in Java

PDF und TIFF mit Java 8 ausgeben

Beispiel für eine EXCEL-Dateiaktualisierung mit JAVA

Informationen zur Dateikopierverarbeitung in Java

Bleiben Sie in einem Java Primer stecken

Tweak Markdown mit Java Flexmark-Java

Java zeichnet Formen in PDF-Dokumenten