Beautiful Soup adalah paket Python untuk mengurai dokumen HTML dan XML dan berada di dalam paket Debian bernama python-bs4
. Namun, python-bs4
package adalah paket default pada sistem Linux Debian untuk versi Python 2. Oleh karena itu, jika tujuan Anda adalah menggunakan Python3 sebagai lingkungan default, Anda juga perlu menginstal Python3 dan versi BS4 yang sesuai python3-bs4
. Mari kita mulai dengan instalasi python3:
# apt-get install -y vim python3
Setelah instalasi paket python3 berhasil, pastikan python3 disetel sebagai default:
# update-alternatives --install /usr/bin/python python /usr/bin/python3.4 2 update-alternatives: using /usr/bin/python3.4 to provide /usr/bin/python (python) in auto mode
Konfirmasikan bahwa python 3 adalah versi default:
# python --version Python 3.4.2
Yang tersisa hanyalah menginstal paket HTML dan XML parsing Beautiful Soup agar sesuai dengan python versi 3:
# apt-get install python3-bs4
Semua selesai. Uji HTML dan XML parsing Beautiful Soup dengan skrip contoh berikut:
#!/usr/bin/env python3 from urllib.request import urlopen from bs4 import BeautifulSoup html = urlopen("http://www.gnu.org") bsObj = BeautifulSoup(html.read()); print (bsObj.title)
Simpan kode di atas ke dalam file mis. scrapetest.py
dan membuatnya dapat dieksekusi:
$ chmod +x scrapetest.py
Setelah siap, jalankan scrapetest.py
naskah:
$ ./scrapetest.py <title>The GNU Operating System and the Free Software Movement</title>
Pemecahan Masalah
Traceback (most recent call last): File "scrapetest.py", line 2, in <module> from bs4 import BeautifulSoup ImportError: No module named 'bs4'
Versi python dan bs4 Anda tidak cocok atau bs4 tidak diinstal. Pastikan bs4 diinstal dan itu sesuai dengan versi python Anda.