Recoll adalah aplikasi pencarian GUI teks lengkap yang fantastis untuk Unix/Linux yang mendukung lusinan format berbeda, termasuk PDF. Itu bahkan dapat meneruskan nomor halaman dan istilah pencarian yang tepat dari kueri ke penampil dokumen dan dengan demikian memungkinkan Anda untuk melompat ke hasil langsung dari GUI-nya.
Recoll juga dilengkapi dengan antarmuka baris perintah yang layak dan antarmuka browser web.
Ada pdfgrep, yang melakukan persis seperti namanya.
pdfgrep -R 'a pattern to search recursively from path' /some/path
Saya telah menggunakannya untuk penelusuran sederhana dan berfungsi dengan baik.
(Ada paket di Debian, Ubuntu dan Fedora.)
Sejak versi 1.3.0 pdfgrep mendukung pencarian rekursif. Versi ini tersedia di Ubuntu sejak Ubuntu 12.10 (Quantal).
Distribusi Anda harus menyediakan utilitas bernama pdftotext
:
find /path -name '*.pdf' -exec sh -c 'pdftotext "{}" - | grep --with-filename --label="{}" --color "your pattern"' \;
"-" diperlukan untuk memiliki output pdftotext ke stdout, bukan ke file. --with-filename
dan --label=
opsi akan menempatkan nama file di output grep. --color
opsional flag bagus dan memberi tahu grep untuk menampilkan menggunakan warna pada terminal.
(Di Ubuntu, pdftotext
disediakan oleh paket xpdf-utils
atau poppler-utils
.)
Metode ini, menggunakan pdftotext
dan grep
, memiliki keunggulan dibandingkan pdfgrep
jika Anda ingin menggunakan fitur GNU grep
pdfgrep
itu tidak mendukung. Catatan :pdfgrep-1.3.x mendukung -C
opsi untuk mencetak garis konteks.