GNU/Linux >> Belajar Linux >  >> Linux

Apakah Ada Semacam Pdf Untuk Konverter Teks?

Saya memerlukan file PDF ke teks sehingga saya dapat mencarinya secara massal dari commandline. Apakah ada konverter untuk Ubuntu, OBSD atau distro serupa?

Mungkin posting terkait, OCR dengan ubuntu di sini.

Jawaban yang Diterima:

Anda memiliki banyak pilihan!

pdftotext dari poppler telah disebutkan.

Ada program Haskell yang disebut pdf2line yang bekerja dengan baik.

ebook-convert kaliber program commandline (atau kaliber itu sendiri) adalah pilihan lain; itu dapat mengonversi PDF ke teks biasa, atau format ebook lainnya (RTF, ePub), menurut saya menghasilkan hasil yang lebih baik daripada pdftotext, meskipun jauh lebih lambat.

ebook-convert file.pdf file.txt

AbiWord dapat mengonversi di antara format apa pun yang diketahuinya dari baris perintah, dan setidaknya secara opsional memiliki plugin impor PDF:

abiword --to=txt file.pdf

Pilihan lainnya adalah podofotextextract dari pustaka alat PDF podofo. Saya belum benar-benar mencobanya.

Jika Anda menggabungkan kedua alat Ghostscript, pdf2ps dan ps2ascii , Anda memiliki pilihan lain.

Saya sebenarnya dapat memikirkan beberapa metode lagi, tetapi saya akan berhenti di situ untuk saat ini.


Linux
  1. Awk satu baris dan skrip untuk membantu Anda mengurutkan file teks

  2. Menggunakan Uniq Pada Teks Unicode?

  3. Ubah Surat Masuk Dari Teks/biasa Menjadi Teks/html?

  1. gImageReader – Ekstrak Teks dari Gambar dan PDF di Linux

  2. Apakah ada beberapa program seperti COM0COM di linux?

  3. Bagaimana cara mengekstrak teks dengan OCR dari PDF di Linux?

  1. Alat untuk mengekstrak teks dari powerpoint pptx di linux?

  2. Bagaimana saya bisa meraster semua teks dalam PDF?

  3. Apakah ada penampil Pdf khusus untuk presentasi Lateks-Beamer di Linux?