Java ermöglicht die Extraktion von PDF-Text und Bildern

PDF-Dateien werden immer verwendet, um viele großartige Informationsinhalte zu enthalten. Um diese Informationen besser nutzen zu können, müssen Sie einige Tools verwenden, um Text- und Bildinformationen aus dem PDF zu extrahieren. Im Folgenden finden Sie einige Texte und Fotos, die PDFs über Java extrahieren.

Werkzeuggebrauch:
Einführung in das Jar-Paket:

image.png

Die Testquellendokumentation lautet wie folgt: image.png

Siehe Java-Codebeispiel:

[Beispiel 1] Extrahieren Sie den Textinhalt von PDF

** Schritt 1: ** Fügen Sie einen Namespace hinzu;

import com.spire.pdf.*;
import java.io.FileWriter;

** Schritt 2: ** Erstellen Sie eine PDF-Instanz und laden Sie die PDF-Quelldatei.

//Create the PDF
PdfDocument doc = new PdfDocument();
//Load the PDF file
doc.loadFromFile("data/Sample.pdf");

** Schritt 3: ** Definieren Sie ein Beispiel für einen Zeichenpuffer, der das gesamte PDF-Dokument mit der StringBuider-Methode durchläuft.

// Traverse the PDF
StringBuilder buffer = new StringBuilder();
for(int i = 1; i<doc.getPages().getCount(); i++){
    PdfPageBase page = doc.getPages().get(i);
    buffer.append(page.extractText());
}

** Schritt 4: ** Definieren Sie eine Writer-Instanz, um Daten in den Pufferbereich zu schreiben, und verwenden Sie write (), um die Pufferbereichsdaten zu schreiben und in einer text.txt-Datei zu speichern.

//save text
String fileName = "output/text.txt";
FileWriter writer = new FileWriter(fileName);
writer.write(buffer.toString());
writer.flush();
writer.close();

Ergebnis der Textextraktion: image.png

[Beispiel 2] Extrahieren von Bildern in PDF

** Schritt 1: ** Fügen Sie einen Namespace hinzu;

import com.spire.pdf.*;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;

** Schritt 2: ** Erstellen Sie eine PDF-Instanz und laden Sie die PDF-Quelldatei.

        //Create the PDF
        PdfDocument pdf = new PdfDocument();
	   //Load the PDF file
        pdf.loadFromFile("data/Sample.pdf");

** Schritt 3: ** Die for-Schleife durchläuft jede Seite der PDF-Datei, verwendet die extractImages () -Methode, um das Bild der angegebenen Seite abzurufen, und speichert das Bild schließlich im PNG-Format.

        // Declare an int variable
	 int index = 0;
        // loop through the pages
        for (int i= 0;i< pdf.getPages().getCount(); i ++){
            //Get the PDF pages
            PdfPageBase page = pdf.getPages().get(i);
            // Extract images from a particular page 
            for (BufferedImage image : page.extractImages()) {
            //specify the file path and name
                File output = new File("output/" + String.format("Image_%d.png ", index++));                
            //Save image as .png file    
            ImageIO.write(image, "PNG", output);
            }
        }

Bildextraktionsergebnis: image.png image.png image.png image.png

Recommended Posts

Java ermöglicht die Extraktion von PDF-Text und Bildern
Textextraktion in Java aus PDF mit pdfbox-2.0.8
Java-Ver- und Entschlüsselung PDF
Vor- und Nachteile von Java
[Java] Laden Sie ein Bild hoch und konvertieren Sie es in Base64
Java Excel Insertion und Bildextraktion
Über Biocontainer fastqc und Java
Java zum Extrahieren von PDF-Textinhalten
PDF und TIFF mit Java 8 ausgeben
Hinzufügen, Ersetzen und Löschen von Java PDF-Bildern
Nach 3 Monaten Java- und Frühlingstraining
Ich möchte Bilder mit REST Controller von Java und Spring anzeigen!
Programmieren Sie PDF-Kopf- und Fußzeilen in Java
Zusammenfassung von Java Math.random und Import (Kalender)
[Java] Inhalt der Collection-Schnittstelle und der List-Schnittstelle
Diskriminierung von Enum in Java 7 und höher
[Java] Persönliche Zusammenfassung der Klassen und Methoden (grundlegend)
Ich habe die Eigenschaften von Java und .NET verglichen
Java-Einführungstext
Java und JavaScript
XXE und Java
[Java] Arten von Kommentaren und wie man sie schreibt
Zusammenfassung des ToString-Verhaltens mit Java- und Groovy-Annotationen
Bitte beachten Sie die Aufteilung (Aufteilung) von Java Kotlin Int und Int
Der Vergleich von enum ist == und gleich ist gut [Java]
Java extrahiert Textinhalte von SmartArt-Grafiken in PowerPoint
Den aktuellen Status von Java organisieren und die Zukunft betrachten
Java-Sprache aus der Sicht von Kotlin und C #
[Java] Textextraktion aus PowerPoint (ppt) mit Apache POI
[Java] Über Objects.equals () und Überprüfung des String-Vergleichs (== und gleich)
Überprüfung der Beziehung zwischen dem Docker-Image und dem Container
Ich habe die Typen und Grundlagen von Java-Ausnahmen zusammengefasst
Java Häufig verwendete Anweisungsliste (für Anfänger und Anfänger)
Ändern Sie die Speicherqualität von JPEG-Bildern in Java
Verwendung von Abstract Class und Interface in Java richtig
[Java] [Kotlin] Rufen Sie valueOf und Werte von Enum generisch auf
[Java10] Achten Sie darauf, var und generics nicht zusammen zu verwenden
[Java] Umgang mit Zeichenketten (String-Klasse und StringBuilder-Klasse)
Ausgabe von Vektorgrafiken (PDF, SVG, PPT, EPS, SWF) mit Java Graphics 2D und verschiedenen Bibliotheken