Anda harus menggunakan dua alat baris perintah yang berbeda, tergantung apakah Anda menggunakan format .doc atau .docx.
Untuk .doc gunakan catdoc:
catdoc foo.doc > foo.txt
Untuk .docx gunakan docx2txt:
docx2txt foo.docx
Yang terakhir akan menghasilkan file bernama foo.txt di direktori yang sama dengan aslinya.
Saya tidak yakin distribusi Linux mana yang Anda gunakan, tetapi catdoc dan docx2txt tersedia dari repositori Ubuntu, misalnya:
apt-get install docx2txt
Atau dengan Homebrew di Mac:
brew install docx2txt
di sini adalah proyek perl yang mengklaim dapat melakukannya. Saya telah melakukan banyak hal ini dengan tangan juga, menggunakan XSLT pada document.xml. file Docx itu sendiri hanyalah file zip, Anda dapat mengekstraknya dan memeriksa elemennya. Saya akan mengatakan bahwa ini tidak sulit dilakukan untuk file tertentu, tetapi sangat sulit dilakukan dalam kasus umum, karena kurangnya dokumentasi tentang cara Word menyimpan sesuatu secara internal, dan variasi representasi internal.