GNU/Linux >> Belajar Linux >  >> Debian

Cara Menginstal Kerangka Komputasi Apache Spark Cluster di Debian 10

Apache Spark adalah kerangka kerja komputasi klaster sumber terbuka dan gratis yang digunakan untuk analitik, pembelajaran mesin, dan pemrosesan grafik pada volume data yang besar. Spark hadir dengan 80+ operator tingkat tinggi yang memungkinkan Anda membuat aplikasi paralel dan menggunakannya secara interaktif dari shell Scala, Python, R, dan SQL. Ini adalah mesin pemrosesan data dalam memori secepat kilat yang dirancang khusus untuk ilmu data. Ini menyediakan serangkaian fitur yang kaya termasuk, Kecepatan, Toleransi kesalahan, Pemrosesan aliran waktu nyata, Komputasi dalam memori, Analisis lanjutan, dan banyak lagi.

Dalam tutorial ini, kami akan menunjukkan cara menginstal Apache Spark di server Debian 10.

Prasyarat

  • Server yang menjalankan Debian 10 dengan RAM 2 GB.
  • Kata sandi root dikonfigurasi di server Anda.

Memulai

Sebelum memulai, disarankan untuk memperbarui server Anda dengan versi terbaru. Anda dapat memperbaruinya menggunakan perintah berikut:

apt-get update -y
apt-get upgrade -y

Setelah server Anda diperbarui, mulai ulang untuk menerapkan perubahan.

Instal Java

Apache Spark ditulis dalam bahasa Java. Jadi, Anda perlu menginstal Java di sistem Anda. Secara default, versi terbaru Java tersedia di repositori default Debian 10. Anda dapat menginstalnya menggunakan perintah berikut:

apt-get install default-jdk -y

Setelah menginstal Java, verifikasi versi Java yang diinstal menggunakan perintah berikut:

java --version

Anda akan mendapatkan output berikut:

openjdk 11.0.5 2019-10-15
OpenJDK Runtime Environment (build 11.0.5+10-post-Debian-1deb10u1)
OpenJDK 64-Bit Server VM (build 11.0.5+10-post-Debian-1deb10u1, mixed mode, sharing)

Unduh Apache Spark

Pertama, Anda perlu mengunduh versi terbaru Apache Spark dari situs resminya. Pada saat penulisan artikel ini, versi terbaru Apache Spark adalah 3.0. Anda dapat mengunduhnya ke direktori /opt dengan perintah berikut:

cd /opt
wget http://apachemirror.wuchna.com/spark/spark-3.0.0-preview2/spark-3.0.0-preview2-bin-hadoop2.7.tgz

Setelah unduhan selesai, ekstrak file yang diunduh menggunakan perintah berikut:

tar -xvzf spark-3.0.0-preview2-bin-hadoop2.7.tgz

Selanjutnya, ganti nama direktori yang diekstraksi menjadi spark seperti yang ditunjukkan di bawah ini:

mv spark-3.0.0-preview2-bin-hadoop2.7 spark

Selanjutnya, Anda perlu mengatur lingkungan untuk Spark. Anda dapat melakukannya dengan mengedit file ~/.bashrc:

nano ~/.bashrc

Tambahkan baris berikut di akhir file:

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

Simpan dan tutup file setelah Anda selesai. Kemudian, aktifkan lingkungan dengan perintah berikut:

source ~/.bashrc

Mulai Server Master

Anda sekarang dapat memulai server Master menggunakan perintah berikut:

start-master.sh

Anda akan mendapatkan output berikut:

starting org.apache.spark.deploy.master.Master, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.master.Master-1-debian10.out

Secara default, Apache Spark mendengarkan pada port 8080. Anda dapat memverifikasinya dengan perintah berikut:

netstat -ant | grep 8080

Keluaran:

tcp6       0      0 :::8080                 :::*                    LISTEN

Sekarang, buka browser web Anda dan ketik URL http://server-ip-address:8080. Anda akan melihat halaman berikut:

Harap catat URL Spark "spark://debian10:7077 " dari gambar di atas. Ini akan digunakan untuk memulai proses pekerja Spark.

Mulai Proses Spark Worker

Sekarang, Anda dapat memulai proses pekerja Spark dengan perintah berikut:

start-slave.sh spark://debian10:7077

Anda akan mendapatkan output berikut:

starting org.apache.spark.deploy.worker.Worker, logging to /opt/spark/logs/spark-root-org.apache.spark.deploy.worker.Worker-1-debian10.out

Akses Spark Shell

Spark Shell adalah lingkungan interaktif yang menyediakan cara sederhana untuk mempelajari API dan menganalisis data secara interaktif. Anda dapat mengakses shell Spark dengan perintah berikut:

spark-shell

Anda akan melihat output berikut:

WARNING: An illegal reflective access operation has occurred
WARNING: Illegal reflective access by org.apache.spark.unsafe.Platform (file:/opt/spark/jars/spark-unsafe_2.12-3.0.0-preview2.jar) to constructor java.nio.DirectByteBuffer(long,int)
WARNING: Please consider reporting this to the maintainers of org.apache.spark.unsafe.Platform
WARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operations
WARNING: All illegal access operations will be denied in a future release
19/12/29 15:53:11 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
Spark context Web UI available at http://debian10:4040
Spark context available as 'sc' (master = local[*], app id = local-1577634806690).
Spark session available as 'spark'.
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.0.0-preview2
      /_/
         
Using Scala version 2.12.10 (OpenJDK 64-Bit Server VM, Java 11.0.5)
Type in expressions to have them evaluated.
Type :help for more information.

scala> 

Dari sini, Anda dapat mempelajari cara memaksimalkan Apache Spark dengan cepat dan nyaman.

Jika Anda ingin menghentikan server Spark Master dan Slave, jalankan perintah berikut:

stop-slave.sh
stop-master.sh

Itu saja untuk saat ini, Anda telah berhasil menginstal Apache Spark di server Debian 10. Untuk informasi lebih lanjut, Anda dapat merujuk dokumentasi resmi Spark di Spark Doc.


Debian
  1. Cara Menginstal Apache Maven di Debian 10

  2. Cara Menginstal Apache ZooKeeper di Debian 10

  3. Cara Menginstal osquery di Debian 10

  1. Cara Instal Apache di Debian 9

  2. Cara Instal Apache Cassandra di Debian 11

  3. Cara Instal Apache Cassandra di Ubuntu 18.04 / Ubuntu 16.04 &Debian 9

  1. Cara Instal Apache Cassandra di Debian 9

  2. Cara Memasang Cluster CockroachDB di Debian 11

  3. Cara Menginstal Apache OFBiz CRM di Debian 10