Extrahieren Sie eine Zeichenfolge aus einer PDF-Datei.
OS: Windows 7 Sprache: Java
Erstellen Sie ein Maven-Projekt und fügen Sie pom.xml Folgendes hinzu
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.8</version>
</dependency>
try {
File file = new File("test.pdf");
PDDocument document = PDDocument.load(file);
//Extrahieren Sie nur Zeichenketten
PDFTextStripper pdfStripper = new PDFTextStripper();
//Wie es aussieht(Einstellung zum Lesen von Zeichenketten in der Reihenfolge (von links oben nach rechts unten)
pdfStripper.setSortByPosition(true);
//Textextraktion aus pdf
text = pdfStripper.getText(document);
document.close();
} catch (Exception e) {
e.printStackTrace();
}
Da die Ausgabezeichenfolge Seitenzahlen und Leerzeichen (Leerzeichen halber Breite, Leerzeichen voller Breite, Tabulatoren) usw. enthält, wird die Analyse einfacher, sobald die Bereinigungsverarbeitung angewendet wird.
Recommended Posts