mengekstraksi teks dari file MS word dengan python

Gunakan modul docx asli Python . Berikut cara mengekstrak semua teks dari dokumen:

document = docx.Document(filename)
docText = '\n\n'.join(
    paragraph.text for paragraph in document.paragraphs
)
print(docText)

Lihat situs Python DocX

Lihat juga Textract yang mengeluarkan tabel dll.

Parsing XML dengan regex memanggil cthulu. Jangan lakukan itu!

jawaban benjamin cukup bagus. Saya baru saja mengkonsolidasikan...

import zipfile, re

docx = zipfile.ZipFile('/path/to/file/mydocument.docx')
content = docx.read('word/document.xml').decode('utf-8')
cleaned = re.sub('<(.|\n)*?>','',content)
print(cleaned)

Anda dapat melakukan panggilan subproses ke antiword. Antiword adalah utilitas baris perintah linux untuk membuang teks dari dokumen kata. Bekerja cukup baik untuk dokumen sederhana (jelas kehilangan pemformatan). Ini tersedia melalui apt, dan mungkin sebagai RPM, atau Anda dapat mengompilasinya sendiri.

Bagaimana Anda mengetahui versi GTK+ mana yang diinstal di Ubuntu? Menggunakan Ctrl-Alt-F6 di Linux, dan tidak bisa mengembalikan layar saya

Linux