GNU/Linux >> Belajar Linux >  >> Linux

gImageReader – Ekstrak Teks dari Gambar dan PDF di Linux

gImageReader adalah pembaca PDF sumber terbuka dan gratis dengan kemampuan untuk mengekstrak teks dari gambar dan PDF. Itu dibuat sebagai front-end Gtk/Qt sederhana untuk Tesseract-OCR , mesin OCR sumber terbuka untuk mengenali teks dan pola dalam dokumen dan gambar menggunakan Kecerdasan Buatan .

Sendiri, Tesseract adalah alat baris perintah yang dibatasi untuk digunakan oleh pengguna Linux yang cukup akrab dengan terminal mereka. Terima kasih kepada gImageReader , semua orang kini dapat memanfaatkan efisiensi OCR mesin.

gImageReader bekerja dengan memindai teks dari PDF atau file gambar dalam salah satu dari beberapa bahasa yang didukungnya berkat keberadaan karakter Unicode. Ini menampilkan antarmuka pengguna yang sederhana dan dapat disesuaikan dengan baik di mana Anda dapat melakukan tugas pemeriksaan ejaan dan terjemahan.

Fitur di gImageReader

  • Perangkat lunak bebas dan sumber terbuka. Kode sumber tersedia di GitHub.
  • Tersedia di platform GNU/Linux dan Windows.
  • UI bertema dengan tata letak pengeditan yang familier.
  • Impor dokumen dan gambar PDF dari disk, perangkat pemindaian, tangkapan layar, dan papan klip.
  • Buat dokumen PDF dari dokumen hOCR.
  • Definisi area pengenalan manual atau otomatis.
  • Proses beberapa gambar dan dokumen dalam batch.
  • Mengenali dokumen hOCR atau teks biasa.
  • Teks yang dikenali ditampilkan di samping gambar.
  • Memproses teks yang dikenali setelahnya, termasuk pemeriksaan ejaan.

gImageReader mudah digunakan dan mendukung bekerja dengan dokumen soft copy serta snapshot dari media yang diunggah mis. screenshot. Anda bahkan memiliki opsi untuk memilih area teks yang Anda minati dan hanya menambahkan teks yang Anda butuhkan. Akhirnya, gImagereader berfungsi sebagai pembaca PDF dan alat ekstraksi teks. Hal-hal konyol.

Instal gImageReader di Linux

Untuk menggunakan gImageReader sepenuhnya, Anda harus menginstal Tesseract . secara manual paket bahasa sehingga Anda dapat menganalisis gambar dan file dengan benar. Paket tersebut bernama ‘Tesseract-ocr-eng ' dan tersedia dari manajer perangkat lunak di Debian dan Fedora distro.

Jika Anda menjalankan Ubuntu , Anda cukup menambahkan PPA dan jalankan perintah install menggunakan perintah di bawah ini:

$ sudo add-apt-repository ppa:sandromani/gimagereader
$ sudo apt update
$ sudo apt install gimagereader

Di Debian , Fedora , dan OpenSUSE instal dari manajer paket.

$ sudo apt install gimagereader     [On Debian]
$ sudo dnf install gimagereader     [On Fedora]
$ sudo zypper install gimagereader  [On OpenSuse]

Jangan merasa ketinggalan jika Anda menjalankan Arch Linux atau turunannya. AUR telah membuat Anda tertutup. Dan jika Anda lebih suka membangun kembali aplikasi dari sumber, petunjuknya ada di tautan Wiki repositori GitHub.

Apakah Anda salah satu yang mengekstrak teks tercetak dari gambar? Anda bahkan dapat mengambil snapshot dari area yang dipilih dengan ponsel Anda dan mengunggahnya ke laptop Anda. Yang lebih keren lagi adalah dukungan multi-bahasanya – yang meskipun tidak sempurna, sudah menjadi salah satu opsi terbaik di komunitas saat ini.

gImageReader adalah salah satu pembaca PDF terbaik di dunia sumber terbuka terutama dengan kemampuan OCR-nya, jadi cobalah dan lihat bagaimana Anda menyukainya.

Seperti biasa, Anda dipersilakan untuk berbagi pengalaman Anda dengan aplikasi dengan kami jika Anda memilikinya. Dan untuk menambahkan saran lainnya di kolom komentar di bawah.


Linux
  1. Ekstrak Grafik Dari Pdfs?

  2. Bagaimana cara mengekstrak teks dengan OCR dari PDF di Linux?

  3. Alat untuk mengekstrak teks dari powerpoint pptx di linux?

  1. Cara mengekstrak file .gz dan .tar.gz di Linux

  2. Bagaimana cara menggunakan sched_getaffinity dan sched_setaffinity di Linux dari C?

  3. Buat dan format partisi exFAT dari Linux

  1. Edit teks di Linux dengan KWrite dan Kate

  2. Kirim pemberitahuan dan pengingat desktop dari terminal Linux

  3. 3 Cara Mengekstrak dan Menyalin File dari ISO Image di Linux