[JAVA] PDFBOX Lesebeispiel

import java.io.FileInputStream;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
import org.apache.pdfbox.tools.ExtractText;

public class PDFsample {
	
	static String pdfFile  = "C:\\Temp\\sample-1.pdf";
	static String textFile = "C:\\Temp\\sample.txt";
	
	public static void main(String[] args) {
		//PDF in Textdatei exportieren
		test1();
		
		//PDF-Datei getrennt durch Wörter an die Konsole ausgeben
		test2();
	}
	
	/**
	 *PDF in Textdatei ausgeben
	 */
	public static void test1(){
		try
		{
			//PDF in Textdatei ausgeben
			ExtractText.main(new String[]{pdfFile, textFile});
		}
		catch( Exception e )
		{
			e.printStackTrace();
		}
	}
	
	/**
	 *PDF mit Wortumbrüchen (Tabulatoren) an die Konsole ausgeben
	 */
	public static void test2(){
		try{
		
			PDDocument document = PDDocument.load(new FileInputStream(pdfFile)  );
			PDFTextStripper s = new PDFTextStripper();
		
			//Legen Sie Worttrennzeichen auf Registerkarten fest
			s.setWordSeparator("\t");
			
			//PDF-Text lesen
			String content = s.getText(document);
	
			//Geben Sie das Leseergebnis an die Konsole aus
			System.out.println( content );
		
		} catch(Exception e){
			e.printStackTrace();
		}
	}
}

Recommended Posts

PDFBOX Lesebeispiel
Logback-Beispiel