GNU/Linux >> Belajar Linux > >> Ubuntu

Cara Menginstal dan Mengatur Apache Spark di Ubuntu/Debian

Apache Spark adalah kerangka kerja komputasi terdistribusi open-source yang dibuat untuk memberikan hasil komputasi yang lebih cepat. Ini adalah mesin komputasi dalam memori, artinya data akan diproses dalam memori.

Percikan mendukung berbagai API untuk streaming, pemrosesan grafik, SQL, MLLib. Ini juga mendukung Java, Python, Scala, dan R sebagai bahasa pilihan. Spark sebagian besar dipasang di kluster Hadoop tetapi Anda juga dapat menginstal dan mengonfigurasi percikan dalam mode mandiri.

Pada artikel ini, kita akan melihat cara menginstal Apache Spark di Debian dan Ubuntu -distribusi berbasis.

Instal Java dan Scala di Ubuntu

Untuk menginstal Apache Spark di Ubuntu, Anda harus memiliki Java dan Skala diinstal pada mesin Anda. Sebagian besar distribusi modern datang dengan Java yang terinstal secara default dan Anda dapat memverifikasinya menggunakan perintah berikut.

$ java -version

Jika tidak ada output, Anda dapat menginstal Java menggunakan artikel kami tentang cara menginstal Java di Ubuntu atau cukup jalankan perintah berikut untuk menginstal Java di Ubuntu dan distribusi berbasis Debian.

$ sudo apt update
$ sudo apt install default-jre
$ java -version

Selanjutnya, Anda dapat menginstal Scala dari repositori apt dengan menjalankan perintah berikut untuk mencari scala dan menginstalnya.

$ sudo apt search scala  ⇒ Search for the package
$ sudo apt install scala ⇒ Install the package

Untuk memverifikasi pemasangan Scala , jalankan perintah berikut.

$ scala -version 

Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL

Instal Apache Spark di Ubuntu

Sekarang buka halaman unduhan Apache Spark resmi dan ambil versi terbaru (yaitu 3.1.1) pada saat menulis artikel ini. Atau, Anda dapat menggunakan perintah wget untuk mengunduh file secara langsung di terminal.

$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz

Sekarang buka terminal Anda dan alihkan ke tempat file yang Anda unduh ditempatkan dan jalankan perintah berikut untuk mengekstrak file tar Apache Spark.

$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz

Terakhir, pindahkan Spark . yang telah diekstrak direktori ke /opt direktori.

$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark

Konfigurasi Variabel Lingkungan untuk Spark

Sekarang Anda harus menyetel beberapa variabel lingkungan di .profil . Anda file sebelum memulai percikan.

$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile
$ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile
$ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile

Untuk memastikan bahwa variabel lingkungan baru ini dapat dijangkau dalam shell dan tersedia untuk Apache Spark, Anda juga wajib menjalankan perintah berikut untuk menerapkan perubahan terbaru.

$ source ~/.profile

Semua binari terkait percikan untuk memulai dan menghentikan layanan berada di bawah sbin folder.

$ ls -l /opt/spark

Mulai Apache Spark di Ubuntu

Jalankan perintah berikut untuk memulai Spark layanan master dan layanan budak.

$ start-master.sh
$ start-workers.sh spark://localhost:7077

Setelah layanan dimulai, buka browser dan ketik halaman percikan akses URL berikut. Dari halaman tersebut, Anda dapat melihat layanan master dan slave saya dimulai.

http://localhost:8080/
OR
http://127.0.0.1:8080

Anda juga dapat memeriksa apakah spark-shell berfungsi dengan baik dengan meluncurkan spark-shell perintah.

$ spark-shell

Itu saja untuk artikel ini. Kami akan segera menangkap Anda dengan artikel menarik lainnya.

Cara Menginstal Desktop XFCE Terbaru di Ubuntu dan Fedora Cara Instal Apache Nifi di Ubuntu Linux

Ubuntu