GNU/Linux >> Belajar Linux >  >> Linux

Alat untuk mengekstrak teks dari powerpoint pptx di linux?

Jika Anda dapat memproses file di bash , one-liner ini akan membongkar semua teks:

unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'

Cukup kirimkan file pptx sebagai $1 , dan itu akan menulis teks ke dalam file $2 . Konten setiap slide tidak akan muncul dalam urutan presentasi, dan tidak akan ada label atau apa pun, jadi Anda memerlukan beberapa baris skrip lagi dan direktori temp untuk mendapatkan daftar yang lebih mudah dibaca.


Karena Anda telah menginstal Abiword, Anda dapat membuat PDF terlebih dahulu

libreoffice --headless --convert-to pdf filename.pptx

Dan kemudian gunakan abiword untuk mengonversi pdf menjadi txt

abiword --to=txt filename.pdf 

Linux
  1. Ubah Surat Masuk Dari Teks/biasa Menjadi Teks/html?

  2. Linux – Ekstrak Tanggal Dari /etc/shadow?

  3. Bagaimana membedakan biner dari file teks di linux

  1. Bagaimana cara mengekstrak bagian teks dari file biner di linux/bash?

  2. Bagaimana cara mengekstrak teks dengan OCR dari PDF di Linux?

  3. File khusus Linux (mv atau cp) dari daftar teks file?

  1. Cara Membuat Video Dari File PDF Di Linux

  2. 5 alat sysadmin Linux favorit saya

  3. gImageReader – Ekstrak Teks dari Gambar dan PDF di Linux