Dalam tutorial ini, kami akan menunjukkan kepada Anda cara menginstal Apache Spark di Ubuntu 20.04 LTS. Bagi Anda yang belum tahu, Apache Spark adalah sistem komputasi cluster yang cepat dan serba guna. . Ini menyediakan API tingkat tinggi di Java, Scala, dan Python, dan juga mesin yang dioptimalkan yang mendukung grafik eksekusi secara keseluruhan. Ini juga mendukung serangkaian alat tingkat tinggi yang kaya termasuk Spark SQL untuk SQL dan pemrosesan informasi terstruktur, MLlib untuk mesin pembelajaran, GraphX untuk pemrosesan grafik, dan Spark Streaming.
Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang terpenting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda sedang berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan 'sudo
' ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda melalui langkah-demi-langkah instalasi Apache Spark pada server 20,04 LTS (Focal Fossa). Anda dapat mengikuti instruksi yang sama untuk Ubuntu 18.04, 16.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
Prasyarat
- Server yang menjalankan salah satu sistem operasi berikut:Ubuntu 20.04, 18.04, 16.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
- Sebaiknya Anda menggunakan penginstalan OS baru untuk mencegah potensi masalah.
- Seorang
non-root sudo user
atau akses keroot user
. Kami merekomendasikan untuk bertindak sebagainon-root sudo user
, namun, karena Anda dapat membahayakan sistem jika tidak berhati-hati saat bertindak sebagai root.
Instal Apache Spark di Ubuntu 20.04 LTS Focal Fossa
Langkah 1. Pertama, pastikan bahwa semua paket sistem Anda mutakhir dengan menjalankan apt
berikut perintah di terminal.
sudo apt update sudo apt upgrade
Langkah 2. Menginstal Java.
Apache Spark membutuhkan Java untuk dijalankan, mari pastikan Java telah terinstal di sistem Ubuntu kita:
sudo apt install default-jdk
Kami memeriksa versi Java, dengan baris perintah di bawah ini:
java -version
Langkah 3. Unduh dan Instal Apache Spark.
Unduh rilis terbaru Apache Spark dari laman unduhan:
wget https://www.apache.org/dyn/closer.lua/spark/spark-3.0.0/spark-3.0.0-bin-hadoop2.7.tgz tar xvzf spark-3.0.0-bin-hadoop2.7.tgz sudo mv spark-3.0.0-bin-hadoop2.7/ /opt/spark
Selanjutnya, mengonfigurasi Apache Spark Environment:
nano ~/.bashrc
Selanjutnya, tambahkan baris ini ke akhir file .bashrc sehingga jalur dapat berisi jalur file yang dapat dieksekusi Spark:
export SPARK_HOME=/opt/spark export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Aktifkan perubahan:
source ~/.bashrc
Langkah 4. Mulai Server Master Spark Mandiri.
Sekarang setelah Anda selesai mengonfigurasi lingkungan Anda untuk Spark, Anda dapat memulai server master:
start-master.sh
Untuk melihat antarmuka pengguna Spark Web, buka browser web dan masukkan alamat IP localhost pada port 8080:
http://127.0.0.1:8080/
Dalam konfigurasi server tunggal dan mandiri ini, kita akan memulai satu server budak bersama dengan server master. start-slave.sh
perintah digunakan untuk memulai Proses Pekerja Spark:
start-slave.sh spark://ubuntu1:7077
Sekarang pekerja sudah aktif dan berjalan, jika Anda memuat ulang UI Web Spark Master, Anda akan melihatnya di daftar:
Setelah itu, selesaikan konfigurasi dan mulai server master dan slave, uji apakah shell Spark berfungsi:
spark-shell
Selamat! Anda telah berhasil menginstal Apache Spark. Terima kasih telah menggunakan tutorial ini untuk menginstal Apache Spark pada sistem Ubuntu 20.04 (Focal Fossa). Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda memeriksa resmi Situs web Apache Spark.