Alat biasa untuk mengonversi dokumen Microsoft Office ke HTML atau format lain adalah mswordview, yang sejak saat itu telah diganti namanya menjadi vwWare.
Jika Anda mencari alat baris perintah, mereka benar-benar merekomendasikan penggunaan AbiWord untuk melakukan konversi:
AbiWord --to=txt
Jika Anda mencari perpustakaan, mulailah dari halaman ikhtisar wvWare. Mereka juga mengelola daftar pustaka dan alat yang membaca dokumen MS Office.
Saya akan memilih solusi baris perintah (lalu menggunakan modul subproses Python untuk menjalankan alat dari Python).
Pengonversi untuk msword (catdoc ), unggul (xls2csv ) dan ppt (catppt ) dapat ditemukan (dalam bentuk sumber) di sini:http://vitus.wagner.pp.ru/software/catdoc/.
Tidak dapat mengomentari kegunaan catppt tetapi catdoc dan xls2csv berfungsi dengan baik!
Tapi pastikan untuk terlebih dahulu mencari repositori distribusi Anda... Di ubuntu misalnya, catdoc hanyalah satu apt-get away yang cepat.
Anda dapat mengakses OpenOffice melalui Python API.
Coba gunakan ini sebagai basis:http://wiki.services.openoffice.org/wiki/Odt2txt.py