Cara Menginstal dan Mengatur Apache Spark di Ubuntu 21.04

Pengantar

Apache Spark adalah kerangka kerja komputasi terdistribusi sumber terbuka yang dibuat untuk memberikan hasil komputasi yang lebih cepat.

Ini adalah mesin komputasi dalam memori, artinya data akan diproses dalam memori.

Percikan mendukung berbagai API untuk streaming, pemrosesan grafik, SQL, MLLib. Ini juga mendukung Java, Python, Scala, dan R sebagai bahasa pilihan. Spark kebanyakan dipasang di cluster Hadoop tetapi Anda juga dapat menginstal dan mengonfigurasi spark dalam mode mandiri.

Pada artikel ini, kita akan melihat cara menginstal Apache Spark di Debian dan Ubuntu -distribusi berbasis.

Instal Java di Ubuntu

Untuk menginstal Apache Spark di Ubuntu, Anda harus memiliki Java diinstal pada mesin Anda. Sebagian besar distribusi modern datang dengan Java yang terinstal secara default dan Anda dapat memverifikasinya menggunakan perintah berikut.

$ java -version

Jika tidak ada output, Anda dapat menginstal Java menggunakan artikel kami tentang cara menginstal Java di Ubuntu atau cukup jalankan perintah berikut untuk menginstal Java di Ubuntu dan distribusi berbasis Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Instal Scala di Ubuntu

Selanjutnya, Anda dapat menginstal Scala dari repositori apt dengan menjalankan perintah berikut untuk mencari scala dan menginstalnya.

Cari paket

$ sudo apt search scala

Instal paket

$ sudo apt install scala -y

Untuk memverifikasi pemasangan Scala , jalankan perintah berikut.

$ scala -version

Instal Apache Spark di Ubuntu

Sekarang buka halaman unduhan Apache Spark resmi dan ambil versi terbaru (yaitu 3.1.2) pada saat menulis artikel ini. Atau, Anda dapat menggunakan perintah wget untuk mengunduh file secara langsung di terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz

Sekarang buka terminal Anda dan alihkan ke tempat file yang diunduh ditempatkan dan jalankan perintah berikut untuk mengekstrak file tar Apache Spark.

$ tar -xvzf spark-3.1.2-bin-hadoop3.2.tgz

Terakhir, pindahkan Spark . yang telah diekstrak direktori ke /opt direktori.

sudo mv spark-3.1.2-bin-hadoop3.2 /opt/spark

Konfigurasikan Variabel untuk Spark

Sekarang Anda harus menyetel beberapa variabel lingkungan di .profil . Anda file sebelum memulai percikan.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Untuk memastikan bahwa variabel lingkungan baru ini dapat dijangkau dalam shell dan tersedia untuk Apache Spark, Anda juga wajib menjalankan perintah berikut untuk menerapkan perubahan terbaru.

$ source ~/.profile

Semua binari terkait percikan untuk memulai dan menghentikan layanan berada di bawah sbin folder.

$ ls -l /opt/spark

Mulai Apache Spark di Ubuntu

Jalankan perintah berikut untuk memulai Spark layanan master dan layanan budak.

$ start-master.sh

Setelah layanan dimulai, buka browser dan ketik halaman percikan akses URL berikut. Dari halaman tersebut, Anda dapat melihat layanan master saya dimulai.

http://localhost:8080/

Kemudian Anda dapat menambahkan pekerja dengan perintah ini :

$ start-workers.sh spark://localhost:7077

Pekerja akan ditambahkan seperti yang ditunjukkan:

Anda juga dapat memeriksa apakah spark-shell berfungsi dengan baik dengan meluncurkan spark-shell perintah.

$ spark-shell

Cara Menginstal SpamAssassin di Ubuntu/Debian Cara Menginstal ReactJS di Ubuntu 21.04

Ubuntu