Gunakan w3m -dump <page.html>
.
Ini akan memberi Anda representasi teks dari file html.
Dari halaman manual:
-dump dump formatted page into stdout
Meskipun dikatakan formatted
, hasilnya hanyalah teks biasa.
html2text adalah skrip Python yang mengubah halaman HTML menjadi teks berstruktur Markdown yang setara. html2text dapat diunduh dan dijalankan di sistem operasi apa pun yang telah menginstal Python. Program html2text ada di repositori banyak distribusi Linux dan dapat dijalankan dari baris perintah seperti ini:
html2text -style pretty input.html
Perintah ini tidak hanya mengubah file html asli menjadi teks, tetapi juga melakukan pekerjaan yang cukup baik untuk membuat keluaran teks biasa mudah dibaca. Judulnya terlihat seperti judul, daftarnya terlihat seperti daftar, dll.
Jika Anda mengalami masalah dengan mengonversi tabel secara otomatis dari halaman web menjadi teks yang tidak diformat, ini dapat dengan mudah dilakukan dengan editor penurunan harga modern seperti aplikasi Typora atau Mark Text GUI untuk Windows/Mac/Linux. Membandingkan kedua aplikasi ini Mark Text lebih baik daripada Typora dalam menangkap secara akurat semua yang ada di halaman web dan Typora memiliki editor yang lebih ramah pengguna, jadi saya menggunakan kedua aplikasi tersebut. Saya menggunakan Mark Text sebagai pengambil halaman web, lalu saya menyalin/menempel teks penurunan harga yang saya rekam ke Typora dan menggunakan Typora untuk mengeditnya.
Seperti yang disebutkan oleh Gombai Sándor, dalam komentar untuk jawaban NZD:
lynx -dump -nolist -nomargins
Saat dijalankan dari baris perintah dengan URL, output akan ditulis ke stdout. Ini tampaknya bekerja dengan sangat baik. -nomargins
mungkin tidak didukung jika seseorang hanya memiliki akses ke versi lynx
yang lebih lama (yaitu Lynx Versi 2.8.5rel.5 (29 Okt 2005) pada UNIX lama).
Keluaran tampak cukup bebas dari markup dan tautan, dengan beberapa kemungkinan pengecualian (daftar berikut mungkin tidak khas atau lengkap):
- Ruang kosong ekstra tampaknya muncul dalam data tabular, dan, setidaknya dalam beberapa kasus, spasi putih biasanya berguna untuk mengekstrak data tabel, namun terkadang tidak konsisten sehingga mempersulit penguraian.
- Sementara tautan tidak dibuang, teks yang terlihat mungkin ditampilkan. Misalnya, referensi catatan kaki dapat dirender sebagai tanda bintang, atau, di wiki, yang dapat diklik dapat dirender sebagai teks biasa yang setara (tanpa URL yang mendasari).
- Beberapa referensi mungkin memperluas dan menampilkan teks alternatif.
- Daftar yang tidak diurutkan dibuang dengan tanda bintang dan lekukan.
- Buang daftar pesanan dengan angka dan lekukan.
- Bidang masukan mungkin muncul sebagai garis bawah