GNU/Linux >> Belajar Linux >  >> Debian

Cara Mengonversi PDF ke Teks di Linux (GUI &Baris Perintah)

Artikel ini memperkenalkan 2 alat untuk mengonversi dokumen PDF menjadi teks yang dapat diedit di Linux menggunakan alat grafis (kaliber) dan alat baris perintah (pdftotext).

Perlu diperhatikan bahwa dua alat yang disebutkan dalam artikel ini untuk mengekstrak teks dari file PDF tidak dapat mengekstrak teks jika PDF terdiri dari gambar (mis. Halaman / gambar buku yang dipindai).

Konversi PDF ke Teks dengan Kaliber (GUI)

calibre adalah rangkaian perangkat lunak e-book sumber terbuka dan gratis. Mendukung pengorganisasian, melihat, mengedit dan mengkonversi e-book dan mendukung berbagai format. Aplikasi ini berjalan di Linux, macOS dan Microsoft Windows.

Kaliber harus tersedia di repositori distribusi Linux Anda, dan Anda harus dapat menginstalnya menggunakan toko perangkat lunak apa pun yang Anda miliki di sistem Anda. Misalnya, untuk menginstalnya di Debian, Ubuntu, Linux Mint, Fedora, openSUSE atau Arch Linux gunakan:

  • Debian, Ubuntu atau Linux Mint:

sudo apt install calibre

  • Fedora:
sudo dnf install calibre

  • openSUSE:
sudo zypper install calibre

  • Linux Arch:
sudo pacman -S calibre

Kaliber juga dapat diinstal di Linux dengan menggunakan paket Flathub (memerlukan Pengaturan Flathub / Flatpak pada beberapa distribusi Linux).

Ada cara lain untuk menginstal kaliber di Linux yang dijelaskan di halaman Unduh aplikasi di mana Anda juga dapat menemukan binari macOS dan Windows.

Terkait:Cara Mengonversi PDF ke Gambar (PNG, JPEG) Menggunakan GIMP atau Alat Baris Perintah pdftoppm

Setelah kaliber diinstal pada sistem Anda, luncurkan dan klik Add books untuk menambahkan PDF (atau beberapa PDF – kaliber mendukung konversi batch dari beberapa file PDF ke teks) yang ingin Anda konversi ke teks.

Dari daftar buku, pilih PDF (atau beberapa PDF untuk konversi batch ke .txt) yang ingin Anda konversi menjadi teks dan klik Convert books Tombol. Di sudut kanan atas jendela konversi, pilih TXT As Output format :

Ada banyak opsi yang dapat Anda sesuaikan dalam dialog konversi ini. Misalnya, Anda dapat menghapus spasi antar paragraf secara otomatis atau menyisipkan baris kosong di antara paragraf (Look & Feel -> Layout ). Anda juga dapat mengatur pengkodean karakter dan gaya akhir baris (Sistem, Unix, Windows, old_mac) dan bahkan memformatnya ke Penurunan harga.

Setelah Anda selesai dengan konfigurasi, klik OK Tombol untuk mulai mengonversi file PDF menjadi teks. File .txt yang dikonversi berada di direktori tempat Anda menentukan lokasi pustaka kaliber (lalu di AuthorName/BookName Subfolder; jika penulis atau nama buku tidak dapat ditentukan, subfoldernya disebut “Tidak Diketahui”).

Kekurangan kaliber dalam hal ini adalah cara untuk mengonversi hanya satu halaman atau rentang halaman – saat ini hanya dapat mengonversi seluruh file PDF menjadi teks.

Terkait PDF:Cara Membuat Formulir PDF yang Dapat Diisi Menggunakan LibreOffice Writer

Konversi PDF ke Teks dengan pdftotext (baris perintah)

pdftotext adalah utilitas baris perintah yang mengubah file PDF menjadi teks biasa. Ini menawarkan banyak opsi, termasuk kemampuan untuk menentukan rentang halaman yang akan dikonversi, mempertahankan tata letak fisik asli teks sebaik mungkin, mengatur akhir baris (Unix, DOS atau Mac) dan bahkan bekerja dengan file PDF yang dilindungi kata sandi.

pdftotext adalah bagian dari paket poppler / poppler-utils / poppler-tools (tergantung pada distribusi Linux yang digunakan). Instal paket ini sebagai berikut:

  • Debian, Ubuntu, Linux Mint, dan distribusi Linux berbasis Debian/Ubuntu lainnya:
sudo apt install poppler-utils

  • Fedora:
sudo dnf install poppler-utils

  • openSUSE:
sudo zypper install poppler-tools

  • Linux Arch:
sudo pacman -S poppler

Di distribusi Linux lainnya, gunakan manajer paket Anda untuk menginstal paket poppler / poppler-utils.

Sekarang setelah paket terinstal, Anda dapat Mengonversi file PDF ke teks biasa dan menjaga tata letaknya tetap sama (Saya sarankan menggunakan -layout ini Opsi untuk mempertahankan tata letak fisik asli, tetapi Anda dapat mencobanya tanpa) dengan:

pdftotext -layout input.pdf output.txt

Anda harus mengganti input.pdf dengan nama file PDF dan output.txt dengan nama yang akan digunakan untuk memanggil file TXT yang dihasilkan. Jika perlu, tambahkan jalur di depan nama file (mis. ~/Documents/mypdf.pdf ). Jika tidak ada file teks keluaran yang ditentukan, pdftotext menamai file dengan nama file yang sama dengan file PDF asli.

Opsi tata letak mempertahankan tata letak PDF saat mengonversi ke teks, bahkan dalam kasus PDF multi-kolom.

Bagaimana jika Anda hanya ingin mengonversi rentang halaman PDF menjadi teks, bukan seluruh PDF? Gunakan -f (halaman pertama yang dikonversi) dan -l (halaman terakhir yang dikonversi) diikuti dengan nomor halaman, sebagai berikut:

pdftotext -layout -f M -l N input.pdf

Pengganti M dan N dengan nomor halaman pertama dan terakhir yang akan diekstrak dan input.pdf dengan nama file PDF.

Apakah Anda ingin menggunakan karakter akhir baris untuk Mac, DOS, atau Unix? Anda dapat melakukan ini dengan juga. tunjukkan -eol diikuti oleh mac , dos atau unix . Misalnya. untuk akhiran baris Unix:

pdftotext -layout -eol unix input.pdf

Jika Anda tidak ingin menyisipkan jeda halaman di antara halaman, tambahkan -nopgbrk :

pdftotext -layout nopgbrk input.pdf

Apakah Anda ingin mengonversi semua file PDF dalam folder ke file teks? pdftotext tidak mendukung konversi batch PDF ke teks (dan pdftotext *.pdf tidak berfungsi), tetapi Anda dapat mengonversi semua file PDF dalam folder ke file teks menggunakan loop Bash FOR:

for file in *.pdf; do pdftotext -layout "$file"; done

Untuk opsi lainnya, jalankan man pdftotext dan pdftotext --help .

Anda Mungkin Menyukai Ini:Unduh Master PDF Editor 4 untuk Linux (Versi Gratis)


Debian
  1. Cara Menghapus Riwayat Baris Perintah BASH di Linux

  2. Cara Mengonversi Banyak Gambar ke PDF di Ubuntu Linux

  3. Bagaimana cara mengubah PDF menjadi JPG dengan baris perintah di Linux?

  1. Cara Menulis Teks Pada Gambar menggunakan Perintah Linux

  2. Cara Shutdown atau Reboot Linux menggunakan Command Line

  3. Cara Reboot Linux Menggunakan Command Line

  1. Cara Memeriksa Versi Kernel di Linux di Command Line

  2. Cara Menggunakan Nano, Editor Teks Baris Perintah Linux

  3. Bagaimana cara mengonversi dokumen DjVu ke PDF di Linux hanya menggunakan alat baris perintah?