Saya memerlukan file PDF ke teks sehingga saya dapat mencarinya secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?
Mungkin posting terkait, OCR dengan ubuntu di sini.
Jawaban yang Diterima:
Anda memiliki banyak pilihan!
pdftotext
dari poppler telah disebutkan.
Ada program Haskell yang disebut pdf2line
yang bekerja dengan baik.
ebook-convert
kaliber program commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.
ebook-convert file.pdf file.txt
AbiWord dapat mengonversi di antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:
abiword --to=txt file.pdf
Pilihan lainnya adalah podofotextextract
dari pustaka alat PDF podofo. Saya belum benar-benar mencobanya.
Jika Anda menggabungkan kedua alat Ghostscript, pdf2ps
dan ps2ascii
, Anda memiliki pilihan lain.
Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan berhenti di situ untuk saat ini.