GNU/Linux >> Belajar Linux >  >> Ubuntu

Tesseract OCR:Instalasi dan Penggunaan di Ubuntu 16.04

Tesseract adalah salah satu mesin OCR open source paling kuat yang tersedia saat ini. OCR adalah singkatan dari Optical Character Recognition. Ini adalah proses mengekstrak teks dari gambar. Sebagai contoh, perhatikan gambar berikut yang memiliki beberapa teks di dalamnya yang harus diekstraksi:

Output dari mesin OCR, setelah beberapa pemrosesan selesai akan menjadi seperti ini:

  Open
  Access
  Button

Beginilah cara kerja OCR. Ini berguna dalam banyak aplikasi seperti pengenalan plat nomor kendaraan, mengonversi salinan pindaian dokumen ke format kata, ekstraksi detail otomatis dari tanda terima, dll. Ini juga merupakan langkah pertama dalam banyak tugas Pemrosesan Bahasa Alami. Dalam tutorial ini, kita akan melihat cara menginstal dan menyiapkan Tesseract, imagemagick, dan cara menggunakannya dengan cepat untuk mendapatkan hasil terbaik dengan pra-pemrosesan gambar.

Pra-pemrosesan gambar adalah bagian penting dalam melakukan OCR dengan Tesseract. Ini memastikan bahwa akurasi teks yang diekstraksi tinggi dan mengurangi kesalahan. Kami akan melalui beberapa operasi dasar untuk dilakukan pada gambar yang menggunakannya. Imagemagick adalah alat berbasis baris perintah pemrosesan gambar, yang membantu kita melakukan operasi seperti memotong, mengubah ukuran, mengubah skema warna, dll.

1 Instal Tesseract

Cukup mudah untuk menginstal tesseract, jalankan perintah berikut:

sudo apt update sudo apt install tesseract-ocr

Ini menginstal mesin Tesseract. Gambar di bawah ini menunjukkan output ketika diinstal dengan benar:

Hal berikutnya yang harus dilakukan adalah menginstal paket bahasa. Tesseract sangat kuat dan dapat mengekstrak lebih dari 100 bahasa yang berbeda, asalkan paket bahasa diunduh. Anda dapat mengunduh paket bahasa tertentu dengan menggunakan perintah umum di bawah ini:

sudo apt-get install tesseract-ocr-[lang]

Pada perintah di atas, ganti "[lang]" dengan bahasa yang ingin Anda unduh. Contoh untuk bahasa Inggris dan Prancis di bawah ini:

sudo apt-get install tesseract-ocr-eng sudo apt-get install tesseract-ocr-fra

Biasanya, tesseract hadir dengan paket bahasa Inggris secara default. Gambar di bawah ini menunjukkan bahwa bahasa Inggris sudah diinstal dan bahasa Prancis harus diunduh dan diinstal:

Atau, jika Anda ingin semua paket bahasa diunduh, Anda dapat menjalankan perintah berikut:

sudo apt-get install tesseract-ocr-all

Ini menyelesaikan instalasi Tesseract.

2 Instal Imagemagick Jalankan perintah berikut untuk menginstal imagemagick

sudo apt install imagemagick

Alat ini digunakan dari baris perintah menggunakan perintah convert. Untuk memeriksa instalasi yang benar, jalankan perintah berikut dan hasilnya akan seperti gambar di bawah ini:

convert -h

3 Penggunaan Tesseract

Tesseract mampu mengambil gambar dari berbagai format seperti jpg, png, tiff, dll dan mengekstrak teks darinya. Bagian ini berfokus pada menjalankan tesseract dan di bagian selanjutnya, kita akan melihat bagaimana kita dapat meningkatkan akurasi. Berikut adalah beberapa perintah dasar untuk menjalankan tesseract :

Untuk mendapatkan output di terminal, jalankan perintah generik dengan jalur gambar

tesseract [image_path] stdout

Untuk menyimpan output OCR ke file, jalankan perintah umum berikut:

tesseract [image_path] [file_name]

Berikut dua gambar, tunjukkan gambar yang digunakan dan output dari menjalankan perintah di atas pada gambar itu


Seperti yang Anda amati, menjalankan perintah kedua telah menyebabkan pembuatan file bernama "outfile.txt" di mana output dapat ditemukan.

4 Gambar pra-pemrosesan

Dari output sebelumnya, Anda mungkin telah mengamati bahwa, ada kesalahan pada output, dan juga kesalahan yang mengatakan bahwa ukuran pikselnya kecil. Ini adalah salah satu kelemahan Tesseract, ia mengharapkan Anda untuk memberikan gambar yang diproses yang dapat melakukan OCR. Di bagian ini, kita akan membahas beberapa taktik yang dapat Anda gunakan dengan bantuan imagemagick untuk meningkatkan kualitas gambar dan dengan demikian meningkatkan akurasi output.

4.1 mengubah ukuran

Mengubah ukuran adalah salah satu trik yang paling membantu untuk meningkatkan akurasi OCR. Ini karena sebagian besar gambar waktu, memiliki ukuran font yang sangat kecil yang tidak dapat dibaca dengan baik oleh Tesseract. Anda dapat mengubah ukuran gambar dengan menggunakan perintah berikut. Jumlah persentase menunjukkan batas pengubahan ukuran. Karena kita ingin memperbesar ukuran, kita perlu memberikan nilai yang lebih besar dari 100. Di sini, kita telah memberikan nilai 150% ( gunakan metode coba-coba untuk menentukan % pengubahan ukuran yang sempurna untuk kasus penggunaan Anda).

convert -resize 150% [input_file_path] [output_file_path]

pada perintah di atas, ganti [input_file_path] dengan jalur gambar yang harus diubah ukurannya dan [output_file_path] dengan jalur gambar tempat output harus disimpan. Gambar berikut adalah output ketika saya menjalankan perintah:convert -resize 150% image7.png image7_resize.png

4.2 Menggunakan Gambar Grayscale

Jika Anda memiliki gambar berwarna, maka disarankan untuk mengubahnya menjadi skala abu-abu terlebih dahulu. Ada kemungkinan besar bahwa ini saja sudah cukup untuk mendapatkan akurasi OCR yang Anda inginkan. Jika tidak, untuk memproses lebih lanjut, Anda dapat menggunakan gambar skala abu-abu untuk binerisasi gambar. Gunakan perintah berikut untuk mengonversi gambar Anda menjadi skala abu-abu

convert [input_file_path] -type Grayscale [output_file_path]

Gambar berikut menunjukkan output untuk menjalankan perintah convert image6_resize.png -type Grayscale image6_gray.png

4.3 Binarisasi gambar

Binarisasi atau thresholding melibatkan, mengubah gambar menjadi nilai hitam dan putih saja. Setiap piksel dalam gambar ini hanya memiliki satu dari dua nilai, baik hitam atau putih. Ini mengurangi kompleksitas gambar secara drastis. Jika Anda memiliki gambar dengan noise atau gambar dengan bayangan, atau banyak teks, Anda dapat menggunakan metode prapemrosesan ini. Untuk binerisasi gambar ini, pastikan Anda memiliki gambar skala abu-abu terlebih dahulu, lalu gunakan perintah berikut:

convert [input_file_path] -threshold 55% [output_file_path]

Ambang % dapat divariasikan untuk mendapatkan hasil terbaik untuk kasus penggunaan Anda. Gambar di bawah menunjukkan contoh. Penting untuk dicatat bahwa untuk gambar yang ada, Binarisasi bukanlah pilihan terbaik karena kehilangan beberapa data.

Poin-poin berikut harus diingat sebelum menerapkan salah satu atau semua teknik pra-pemrosesan yang disebutkan di atas:

  • Bergantung pada kasus penggunaan, salah satu atau kombinasi dari langkah-langkah prapemrosesan akan berguna.
  • bila langkah pra-pemrosesan menyebabkan penurunan akurasi, langkah tersebut harus diabaikan dari langkah-langkah pra-pemrosesan.
  • Persentase saat mengubah ukuran atau ambang batas bervariasi dari gambar ke gambar, dan oleh karena itu metode coba-coba perlu diterapkan untuk mendapatkan nilai persentase terbaik untuk memberikan akurasi tertinggi saat Tesseract dijalankan

Setelah Anda menyelesaikan prapemrosesan, jalankan Tesseract dengan gambar yang diproses untuk memeriksa keakuratannya. Tesseract sangat kuat tetapi memiliki beberapa keterbatasan dalam hal jenis gambar yang diberikan sebagai input. Semoga tutorial ini bermanfaat bagi Anda.


Ubuntu
  1. Instalasi Server Ubuntu 20.04

  2. Instalasi ISPConfig 3 Otomatis Server Sempurna pada Debian 10 - 11 dan Ubuntu 20.04

  3. Instalasi ISPConfig 3 Otomatis Server Sempurna pada Debian 10 - 11 dan Ubuntu 20.04

  1. Instalasi Ubuntu 20.04 Dropbox dan integrasi desktop

  2. Instalasi Ubuntu 20.04 FFmpeg

  3. Instalasi WordPress di Ubuntu Linux dengan Apache dan MySQL

  1. Kuota Linux - instalasi dan konfigurasi di Ubuntu dan Debian

  2. Instalasi uTox di Ubuntu dan Fedora Linux

  3. Elasticsearch dan Kibana:instalasi dan penggunaan dasar di Ubuntu 16.04