Dalam tutorial ini, kami akan menunjukkan cara menginstal Apache Spark di CentOS 8. Bagi Anda yang belum tahu, Apache Spark adalah sistem komputasi cluster yang cepat dan serba guna. Ini menyediakan API tingkat tinggi di Java, Scala, dan Python, dan juga mesin yang dioptimalkan yang mendukung grafik eksekusi secara keseluruhan. Ini juga mendukung serangkaian alat tingkat tinggi yang kaya termasuk Spark SQL untuk SQL dan pemrosesan informasi terstruktur, MLlib untuk pembelajaran mesin , GraphX untuk pemrosesan grafik, dan Spark Streaming.
Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang terpenting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda sedang berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan 'sudo
' ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Apache Spark di CentOS 8.
Prasyarat
- Server yang menjalankan salah satu sistem operasi berikut:CentOS 8.
- Sebaiknya Anda menggunakan penginstalan OS baru untuk mencegah potensi masalah.
- Seorang
non-root sudo user
atau akses keroot user
. Kami merekomendasikan untuk bertindak sebagainon-root sudo user
, namun, karena Anda dapat membahayakan sistem jika tidak berhati-hati saat bertindak sebagai root.
Instal Apache Spark di CentOS 8
Langkah 1. Pertama, mari kita mulai dengan memastikan sistem Anda mutakhir dan menginstal semua dependensi yang diperlukan.
sudo dnf install epel-release sudo dnf update
Langkah 2. Menginstal Java.
Instalasi Java di artikel ini telah dibahas di artikel sebelumnya. Kita akan merujuk ke artikel penginstalan Java. Kemudian kita periksa versi Java, dengan baris perintah di bawah ini:
java -version
Langkah 3. Menginstal Scala.
Apache Spark diimplementasikan pada bahasa pemrograman Scala, jadi kita harus menginstal Scala untuk menjalankan Apache Spark, jadi kita hanya perlu memastikan bahwa Java dan Python ada:
wget https://www.scala-lang.org/files/archive/scala-2.13.4.tgz tar xvf scala-2.13.4.tgz sudo mv scala-2.13.4 /usr/lib sudo ln -s /usr/lib/scala-2.13.4 /usr/lib/scala export PATH=$PATH:/usr/lib/scala/bin
Setelah diinstal, periksa versi skala:
scala -version
Langkah 4. Menginstal Apache Spark di CentOS 8.
Sekarang kami mengunduh versi terbaru Apache Spark dari sumber resminya:
wget https://downloads.apache.org/spark/spark-3.0.1/spark-3.0.1-bin-hadoop2.7.tgz tar -xzf spark-3.0.1-bin-hadoop2.7.tgz export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7 export PATH=$PATH:$SPARK_HOME/bin
Siapkan beberapa variabel Lingkungan sebelum Anda memulai percikan:
echo 'export PATH=$PATH:/usr/lib/scala/bin' >> .bash_profile echo 'export SPARK_HOME=$HOME/spark-3.0.1-bin-hadoop2.7' >> .bash_profile echo 'export PATH=$PATH:$SPARK_HOME/bin' >> .bash_profile
Kluster Spark yang berdiri sendiri dapat dimulai secara manual yaitu dengan mengeksekusi skrip awal pada setiap node, atau cukup menggunakan skrip peluncuran yang tersedia. Untuk pengujian, kita dapat menjalankan daemon master dan slave di mesin yang sama:
./sbin/start-master.sh
Langkah 5. Konfigurasi Firewall untuk Apache Spark.
Jalankan perintah berikut untuk membuka port pada firewall:
sudo firewall-cmd --permanent --zone=public --add-port=7077/tcp sudo firewall-cmd --reload
Langkah 6. Mengakses Antarmuka Web Apache Spark.
Apache Spark akan tersedia pada port HTTP 7077 secara default. Buka browser favorit Anda dan navigasikan ke http://your-domain.com:7077
atau http://server-ip-address:7077
dan selesaikan langkah-langkah yang diperlukan untuk menyelesaikan penginstalan.
Selamat! Anda telah berhasil menginstal Apache Spark. Terima kasih telah menggunakan tutorial ini untuk menginstal kerangka kerja sumber terbuka Apache Spark pada sistem CentOS 8 Anda. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda memeriksa situs web resmi Apache Spark.