Jika Anda dapat memproses file di bash
, one-liner ini akan membongkar semua teks:
unzip -qc "$1" ppt/slides/slide*.xml | grep -oP '(?<=\<a:t\>).*?(?=\</a:t\>)'
Cukup kirimkan file pptx sebagai $1
, dan itu akan menulis teks ke dalam file $2
. Konten setiap slide tidak akan muncul dalam urutan presentasi, dan tidak akan ada label atau apa pun, jadi Anda memerlukan beberapa baris skrip lagi dan direktori temp untuk mendapatkan daftar yang lebih mudah dibaca.
Karena Anda telah menginstal Abiword, Anda dapat membuat PDF terlebih dahulu
libreoffice --headless --convert-to pdf filename.pptx
Dan kemudian gunakan abiword untuk mengonversi pdf menjadi txt
abiword --to=txt filename.pdf