Recoll adalah aplikasi pencarian GUI teks lengkap yang fantastis untuk Unix/Linux yang mendukung lusinan format berbeda, termasuk PDF. Itu bahkan dapat meneruskan nomor halaman dan istilah pencarian yang tepat dari kueri ke penampil dokumen dan dengan demikian memungkinkan Anda untuk melompat ke hasil langsung dari GUI-nya.
Recoll juga dilengkapi dengan antarmuka baris perintah yang layak dan antarmuka browser web.
Ada pdfgrep, yang melakukan persis seperti namanya.
pdfgrep -R 'a pattern to search recursively from path' /some/path
Saya telah menggunakannya untuk penelusuran sederhana dan berfungsi dengan baik.
(Ada paket di Debian, Ubuntu dan Fedora.)
Sejak versi 1.3.0 pdfgrep mendukung pencarian rekursif. Versi ini tersedia di Ubuntu sejak Ubuntu 12.10 (Quantal).
Distribusi Anda harus menyediakan utilitas bernama pdftotext :
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;
"-" diperlukan untuk memiliki output pdftotext ke stdout, bukan ke file. --with-filename dan --label= opsi akan menempatkan nama file di output grep. --color opsional flag bagus dan memberi tahu grep untuk menampilkan menggunakan warna pada terminal.
(Di Ubuntu, pdftotext disediakan oleh paket xpdf-utils atau poppler-utils .)
Metode ini, menggunakan pdftotext dan grep , memiliki keunggulan dibandingkan pdfgrep jika Anda ingin menggunakan fitur GNU grep pdfgrep itu tidak mendukung. Catatan :pdfgrep-1.3.x mendukung -C opsi untuk mencetak garis konteks.