Bagaimana cara mengekstrak teks dengan OCR dari PDF di Linux?

Saya telah sukses dengan port Linux berlisensi BSD dari sistem Cuneiform OCR.

Tampaknya tidak ada paket biner yang tersedia, jadi Anda perlu membuatnya dari sumber. Pastikan untuk menginstal pustaka ImageMagick C++ untuk mendukung hampir semua format gambar input (jika tidak, ini hanya akan menerima BMP).

Meskipun tampaknya pada dasarnya tidak berdokumen selain dari file README singkat, saya menemukan hasil OCR cukup bagus. Hal yang menyenangkan tentang itu adalah dapat menampilkan informasi posisi untuk teks OCR dalam format hOCR, sehingga memungkinkan untuk mengembalikan teks ke posisi yang benar di lapisan tersembunyi file PDF. Dengan cara ini Anda dapat membuat PDF "dapat dicari" dari mana Anda dapat menyalin teks.

Saya telah menggunakan hocr2pdf untuk membuat ulang PDF dari hasil PDF dan OCR asli yang hanya berisi gambar. Sayangnya, program tersebut tampaknya tidak mendukung pembuatan PDF multi-halaman, jadi Anda mungkin harus membuat skrip untuk menanganinya:

#!/bin/bash
# Run OCR on a multi-page PDF file and create a new pdf with the
# extracted text in hidden layer. Requires cuneiform, hocr2pdf, gs.
# Usage: ./dwim.sh input.pdf output.pdf

set -e

input="$1"
output="$2"

tmpdir="$(mktemp -d)"

# extract images of the pages (note: resolution hard-coded)
gs -SDEVICE=tiffg4 -r300x300 -sOutputFile="$tmpdir/page-%04d.tiff" -dNOPAUSE -dBATCH -- "$input"

# OCR each page individually and convert into PDF
for page in "$tmpdir"/page-*.tiff
do
    base="${page%.tiff}"
    cuneiform -f hocr -o "$base.html" "$page"
    hocr2pdf -i "$page" -o "$base.pdf" < "$base.html"
done

# combine the pages into one PDF
gs -q -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile="$output" "$tmpdir"/page-*.pdf

rm -rf -- "$tmpdir"

Harap dicatat bahwa skrip di atas sangat sederhana. Misalnya, tidak menyimpan metadata PDF apa pun.

Lihat apakah pdftotext akan bekerja untuk Anda. Jika tidak ada di mesin Anda, Anda harus menginstal paket poppler-utils

sudo apt-get install poppler-utils

Anda mungkin juga menemukan toolkit pdf untuk digunakan.

Daftar lengkap perangkat lunak pdf di sini di wikipedia.

Edit: Karena Anda membutuhkan Kemampuan OCR, saya pikir Anda harus mencoba taktik yang berbeda. (yaitu saya tidak dapat menemukan konverter linux pdf2text yang melakukan OCR).

Ubah pdf menjadi gambar
Pindai gambar menjadi teks menggunakan alat OCR

Konversi pdf ke gambar

gs:Perintah di bawah ini harus mengonversi pdf multi halaman menjadi file tiff individual.

gs -SDEVICE=tiffg4 -r600x600 -sPAPERSIZE=huruf -sOutputFile=namafile_%04d.tif -dNOPAUSE -dBATCH -- namafile
Utilitas ImageMagik:Ada pertanyaan lain di situs SuperUser tentang penggunaan ImageMagik yang mungkin Anda gunakan untuk membantu Anda melakukan konversi.

konversi foo.pdf foo.png

Konversi gambar menjadi teks dengan OCR

GOCR:halaman Wikipedia
Ocrad:halaman Wikipedia
ocropus:halaman Wikipedia
tesseract-ocr:halaman Wikipedia

Diambil dari daftar perangkat lunak OCR di Wikipedia

Google docs sekarang akan menggunakan OCR untuk mengonversi dokumen gambar/pdf yang Anda unggah menjadi teks. Saya telah sukses dengan itu.

Mereka menggunakan sistem OCR yang digunakan untuk proyek Google Buku raksasa.

Namun, harus diperhatikan bahwa hanya PDF dengan ukuran 2 MB yang akan diterima untuk diproses.

Perbarui
1. Untuk mencobanya, unggah pdf <2MB ke google docs dari browser web.
2. Klik kanan pada dokumen yang diunggah dan klik "Buka dengan Google Docs".
...Google Docs akan mengonversi menjadi teks dan menghasilkan file baru dengan nama yang sama tetapi Google Docs mengetik di folder yang sama.

Memeriksa versi PHP apa yang saya jalankan di Linux? Bagaimana saya bisa memulai program sebagai root menggunakan window manager?

Linux