J'ai dû analyser le fichier PDF. Je voulais le faire en Python pour le moment. Une bibliothèque appelée PDFMiner semble être utile, j'ai donc essayé de l'utiliser.
PDFMiner
http://www.unixuser.org/~euske/python/pdfminer/index.html https://github.com/euske/pdfminer/
Je n'avais qu'un environnement Python3 à portée de main, j'ai donc augmenté l'environnement Python2.
$ pyenv install 2.7.13
...réduction...
$ pyenv local 2.7.13
$ python --version
Python 2.7.13
C'est fait.
$ git clone https://github.com/euske/pdfminer.git
Cloning into 'pdfminer'...
remote: Counting objects: 3164, done.
remote: Total 3164 (delta 0), reused 0 (delta 0), pack-reused 3164
Receiving objects: 100% (3164/3164), 6.01 MiB | 406.00 KiB/s, done.
Resolving deltas: 100% (2245/2245), done.
$ cd ./pdfminer
$ make cmap
...réduction...
$ python ./setup.py install
...réduction...
Je vais l'utiliser comme un essai.
$ cat ./samples/simple1.pdf | head
%PDF-1.4
1 0 obj
<<
/Type /Catalog
/Outlines 2 0 R
/Pages 3 0 R
>>
endobj
2 0 obj
<<
$ ./tools/pdf2txt.py ./samples/simple1.pdf
Hello
World
Hello
World
H e l l o
W o r l d
H e l l o
W o r l d
Apparemment, cet outil appelé pdf2txt.py fonctionne très bien.
Recommended Posts