Java zum Extrahieren von PDF-Textinhalten

Bei Ihrer täglichen Arbeit müssen Sie möglicherweise den in einem großen PDF-Dokument enthaltenen Textinhalt extrahieren. Und Free Spire.PDF für Java bietet eine bequeme und schnelle Möglichkeit, Text zu extrahieren, gefolgt von dem dabei verwendeten Java-Code.

** Grundlagen: ** ** 1. ** Free Spire.PDF für Java Laden Sie das Paket herunter und entpacken Sie es. ** 2. ** Importieren Sie das Spire.Pdf.jar-Paket aus dem lib-Ordner als Abhängigkeit in Ihre Java-Anwendung oder installieren Sie das JAR-Paket aus dem Maven-Repository (siehe unten für den Code, aus dem die Datei pom.xml besteht). Bitte). ** 3. ** Erstellen Sie in Ihrer Java-Anwendung eine neue Java-Klasse (hier ExtractText genannt) und geben Sie den entsprechenden Java-Code ein und führen Sie ihn aus.

** Konfigurieren Sie die Datei pom.xml: **

<repositories>
   <repository>
      <id>com.e-iceblue</id>
      <name>e-iceblue</name>
      <url>http://repo.e-iceblue.com/nexus/content/groups/public/</url>
   </repository>
</repositories>
<dependencies>
   <dependency>
      <groupId>e-iceblue</groupId>
      <artifactId>spire.pdf.free</artifactId>
      <version>2.6.3</version>
   </dependency>
</dependencies>

** Das PDF-Quelldokument lautet: ** sample.jpg

** Java-Code: **


import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;

public class ExtractText {

    public static void main(String[] args) {

        //Erstellen Sie eine PdfDocument-Instanz
        PdfDocument doc = new PdfDocument();
        //Laden Sie die PDF-Datei
        doc.loadFromFile("Schnee.pdf");

        //Erstellen Sie eine StringBuilder-Instanz
        StringBuilder sb = new StringBuilder();

        PdfPageBase page;
        //Durchlaufen Sie die PDF-Seiten, rufen Sie den Text für jede Seite ab und fügen Sie ihn dem StringBuilder-Objekt hinzu
        for(int i= 0;i<doc.getPages().getCount();i++){
            page = doc.getPages().get(i);
            sb.append(page.extractText(true));
        }
        FileWriter writer;
        try {
            //Schreibt den Text eines StringBuilder-Objekts in eine Textdatei
            writer = new FileWriter("ExtractText.txt");
            writer.write(sb.toString());
            writer.flush();
        } catch (IOException e) {
            e.printStackTrace();
        }

        doc.close();
    }
}

** Ergebnisse extrahieren: ** text.jpg

Recommended Posts

Java zum Extrahieren von PDF-Textinhalten
Java fügt PDF eine Tabelle hinzu
Fügen Sie dem PDF-Dokument ein Wasserzeichen zu Java hinzu
Versuchen Sie, die öffentliche Java-Methode zu extrahieren
Java fügt Formularfelder zu PDF hinzu
Java-Einführungstext
[Java] Einführung in Java
Einführung in Java
Textextraktion in Java aus PDF mit pdfbox-2.0.8
Java fügt PowerPoint-Folien ein Textfeld hinzu
Java fügt vorhandenen PDF-Dokumenten Seitenzahlen hinzu
Java ermöglicht die Extraktion von PDF-Text und Bildern
Starten Sie Docker von Java aus, um Office-Dokumente in PDF zu konvertieren
[Java] PDF-Version konvertieren
Änderungen von Java 8 zu Java 11
Summe von Java_1 bis 100
Java-komprimiertes PDF-Dokument
Java extrahiert Textinhalte von SmartArt-Grafiken in PowerPoint
[Java] So extrahieren Sie den Dateinamen aus dem Pfad
[Java] Stellen Sie eine Verbindung zu MySQL her
Kotlins Verbesserungen an Java
[Java] PDF-Anzeigeeinstellungen
Java-Anwendungen konvertieren Word-Dokumente (DOC / DOCX) in PDF
Von Java zu Ruby !!
Einführung in den Java-Befehl
Hängen Sie mit Azure BlobStorage SDK Java V8 Text an BlobItem an
Java Basic Learning Content 7 (Ausnahme)
[Java] Teilzeichenfolgen extrahieren (AOJ13 --shuffle)
So senken Sie die Java-Version
Migration von Cobol nach JAVA
[Java] Verwendung von Map
So deinstallieren Sie Java 8 (Mac)
Java zum Spielen mit Function
Java - So erstellen Sie JTable
Verwendung von Java Optional
Java-Ver- und Entschlüsselung PDF
Java Basic Learning Content 5 (Qualifikation)
Neue Funktionen von Java7 bis Java8
So minimieren Sie Java-Images
Wie schreibe ich einen Java-Kommentar
Verwendung der Java-Klasse
Paging PDF mit Java + PDFBox.jar
Stellen Sie eine Verbindung von Java zu PostgreSQL her
[Java] Verwendung von removeAll ()
[Java] So zeigen Sie Wingdings an
Java verwandelt Excel in PDF
[Java] Einführung in den Lambda-Ausdruck
Shell zum Beenden von Java-Prozessen
Verwendung von Java Map
[Java] Inhaltserfassung mit HttpCliient
So legen Sie Java-Konstanten fest
Stellen Sie mit Java eine Verbindung zur Datenbank her
Stellen Sie mit Java eine Verbindung zu MySQL 8 her
[Java] Gründe für die Verwendung von statischen
Verwendung von Java-Variablen