GNU/Linux >> Belajar Linux >  >> Linux

Konversi doc ke txt melalui baris perintah

Anda harus menggunakan dua alat baris perintah yang berbeda, tergantung apakah Anda menggunakan format .doc atau .docx.

Untuk .doc gunakan catdoc:

catdoc foo.doc > foo.txt

Untuk .docx gunakan docx2txt:

docx2txt foo.docx

Yang terakhir akan menghasilkan file bernama foo.txt di direktori yang sama dengan aslinya.

Saya tidak yakin distribusi Linux mana yang Anda gunakan, tetapi catdoc dan docx2txt tersedia dari repositori Ubuntu, misalnya:

apt-get install docx2txt

Atau dengan Homebrew di Mac:

brew install docx2txt

di sini adalah proyek perl yang mengklaim dapat melakukannya. Saya telah melakukan banyak hal ini dengan tangan juga, menggunakan XSLT pada document.xml. file Docx itu sendiri hanyalah file zip, Anda dapat mengekstraknya dan memeriksa elemennya. Saya akan mengatakan bahwa ini tidak sulit dilakukan untuk file tertentu, tetapi sangat sulit dilakukan dalam kasus umum, karena kurangnya dokumentasi tentang cara Word menyimpan sesuatu secara internal, dan variasi representasi internal.


Linux
  1. Bash Konversi \xc3\x89 Ke ?

  2. Memecahkan masalah GlusterFS

  3. Cara membuat screencaps video dari file video melalui commandline linux

  1. Tulis ke file .txt?

  2. Ubah keluaran ls menjadi csv

  3. Ubah output menjadi string

  1. Sesuaikan Volume Melalui Commandline Sehingga Volume Notify Muncul?

  2. Ubah .txt menjadi .csv di shell

  3. Ubah CRLF menjadi umpan baris di Linux