Artikel ini memperkenalkan 2 alat untuk mengonversi dokumen PDF menjadi teks yang dapat diedit di Linux menggunakan alat grafis (kaliber) dan alat baris perintah (pdftotext).
Perlu diperhatikan bahwa dua alat yang disebutkan dalam artikel ini untuk mengekstrak teks dari file PDF tidak dapat mengekstrak teks jika PDF terdiri dari gambar (mis. Halaman / gambar buku yang dipindai).
Konversi PDF ke Teks dengan Kaliber (GUI)
calibre adalah rangkaian perangkat lunak e-book sumber terbuka dan gratis. Mendukung pengorganisasian, melihat, mengedit dan mengkonversi e-book dan mendukung berbagai format. Aplikasi ini berjalan di Linux, macOS dan Microsoft Windows.
Kaliber harus tersedia di repositori distribusi Linux Anda, dan Anda harus dapat menginstalnya menggunakan toko perangkat lunak apa pun yang Anda miliki di sistem Anda. Misalnya, untuk menginstalnya di Debian, Ubuntu, Linux Mint, Fedora, openSUSE atau Arch Linux gunakan:
- Debian, Ubuntu atau Linux Mint:
sudo apt install calibre
- Fedora:
sudo dnf install calibre
- openSUSE:
sudo zypper install calibre
- Linux Arch:
sudo pacman -S calibre
Kaliber juga dapat diinstal di Linux dengan menggunakan paket Flathub (memerlukan Pengaturan Flathub / Flatpak pada beberapa distribusi Linux).
Ada cara lain untuk menginstal kaliber di Linux yang dijelaskan di halaman Unduh aplikasi di mana Anda juga dapat menemukan binari macOS dan Windows.
Terkait:Cara Mengonversi PDF ke Gambar (PNG, JPEG) Menggunakan GIMP atau Alat Baris Perintah pdftoppm
Setelah kaliber diinstal pada sistem Anda, luncurkan dan klik Add books
untuk menambahkan PDF (atau beberapa PDF – kaliber mendukung konversi batch dari beberapa file PDF ke teks) yang ingin Anda konversi ke teks.
Dari daftar buku, pilih PDF (atau beberapa PDF untuk konversi batch ke .txt) yang ingin Anda konversi menjadi teks dan klik Convert books
Tombol. Di sudut kanan atas jendela konversi, pilih TXT As Output format
:
Ada banyak opsi yang dapat Anda sesuaikan dalam dialog konversi ini. Misalnya, Anda dapat menghapus spasi antar paragraf secara otomatis atau menyisipkan baris kosong di antara paragraf (Look & Feel -> Layout
). Anda juga dapat mengatur pengkodean karakter dan gaya akhir baris (Sistem, Unix, Windows, old_mac) dan bahkan memformatnya ke Penurunan harga.
Setelah Anda selesai dengan konfigurasi, klik OK
Tombol untuk mulai mengonversi file PDF menjadi teks. File .txt yang dikonversi berada di direktori tempat Anda menentukan lokasi pustaka kaliber (lalu di AuthorName/BookName
Subfolder; jika penulis atau nama buku tidak dapat ditentukan, subfoldernya disebut “Tidak Diketahui”).
Kekurangan kaliber dalam hal ini adalah cara untuk mengonversi hanya satu halaman atau rentang halaman – saat ini hanya dapat mengonversi seluruh file PDF menjadi teks.
Terkait PDF:Cara Membuat Formulir PDF yang Dapat Diisi Menggunakan LibreOffice Writer
Konversi PDF ke Teks dengan pdftotext (baris perintah)
pdftotext adalah utilitas baris perintah yang mengubah file PDF menjadi teks biasa. Ini menawarkan banyak opsi, termasuk kemampuan untuk menentukan rentang halaman yang akan dikonversi, mempertahankan tata letak fisik asli teks sebaik mungkin, mengatur akhir baris (Unix, DOS atau Mac) dan bahkan bekerja dengan file PDF yang dilindungi kata sandi.
pdftotext adalah bagian dari paket poppler / poppler-utils / poppler-tools (tergantung pada distribusi Linux yang digunakan). Instal paket ini sebagai berikut:
- Debian, Ubuntu, Linux Mint, dan distribusi Linux berbasis Debian/Ubuntu lainnya:
sudo apt install poppler-utils
- Fedora:
sudo dnf install poppler-utils
- openSUSE:
sudo zypper install poppler-tools
- Linux Arch:
sudo pacman -S poppler
Di distribusi Linux lainnya, gunakan manajer paket Anda untuk menginstal paket poppler / poppler-utils.
Sekarang setelah paket terinstal, Anda dapat Mengonversi file PDF ke teks biasa dan menjaga tata letaknya tetap sama (Saya sarankan menggunakan -layout
ini Opsi untuk mempertahankan tata letak fisik asli, tetapi Anda dapat mencobanya tanpa) dengan:
pdftotext -layout input.pdf output.txt
Anda harus mengganti input.pdf
dengan nama file PDF dan output.txt
dengan nama yang akan digunakan untuk memanggil file TXT yang dihasilkan. Jika perlu, tambahkan jalur di depan nama file (mis. ~/Documents/mypdf.pdf
). Jika tidak ada file teks keluaran yang ditentukan, pdftotext menamai file dengan nama file yang sama dengan file PDF asli.
Opsi tata letak mempertahankan tata letak PDF saat mengonversi ke teks, bahkan dalam kasus PDF multi-kolom.
Bagaimana jika Anda hanya ingin mengonversi rentang halaman PDF menjadi teks, bukan seluruh PDF? Gunakan -f
(halaman pertama yang dikonversi) dan -l
(halaman terakhir yang dikonversi) diikuti dengan nomor halaman, sebagai berikut:
pdftotext -layout -f M -l N input.pdf
Pengganti M
dan N
dengan nomor halaman pertama dan terakhir yang akan diekstrak dan input.pdf
dengan nama file PDF.
Apakah Anda ingin menggunakan karakter akhir baris untuk Mac, DOS, atau Unix? Anda dapat melakukan ini dengan juga. tunjukkan -eol
diikuti oleh mac
, dos
atau unix
. Misalnya. untuk akhiran baris Unix:
pdftotext -layout -eol unix input.pdf
Jika Anda tidak ingin menyisipkan jeda halaman di antara halaman, tambahkan -nopgbrk
:
pdftotext -layout nopgbrk input.pdf
Apakah Anda ingin mengonversi semua file PDF dalam folder ke file teks? pdftotext tidak mendukung konversi batch PDF ke teks (dan pdftotext *.pdf
tidak berfungsi), tetapi Anda dapat mengonversi semua file PDF dalam folder ke file teks menggunakan loop Bash FOR:
for file in *.pdf; do pdftotext -layout "$file"; done
Untuk opsi lainnya, jalankan man pdftotext
dan pdftotext --help
.
Anda Mungkin Menyukai Ini:Unduh Master PDF Editor 4 untuk Linux (Versi Gratis)