Apache Spark adalah kerangka kerja komputasi terdistribusi open-source yang dibuat untuk memberikan hasil komputasi yang lebih cepat. Ini adalah mesin komputasi dalam memori, artinya data akan diproses dalam memori.
Percikan mendukung berbagai API untuk streaming, pemrosesan grafik, SQL, MLLib. Ini juga mendukung Java, Python, Scala, dan R sebagai bahasa pilihan. Spark sebagian besar dipasang di kluster Hadoop tetapi Anda juga dapat menginstal dan mengonfigurasi percikan dalam mode mandiri.
Pada artikel ini, kita akan melihat cara menginstal Apache Spark di Debian dan Ubuntu -distribusi berbasis.
Instal Java dan Scala di Ubuntu
Untuk menginstal Apache Spark di Ubuntu, Anda harus memiliki Java dan Skala diinstal pada mesin Anda. Sebagian besar distribusi modern datang dengan Java yang terinstal secara default dan Anda dapat memverifikasinya menggunakan perintah berikut.
$ java -version
Jika tidak ada output, Anda dapat menginstal Java menggunakan artikel kami tentang cara menginstal Java di Ubuntu atau cukup jalankan perintah berikut untuk menginstal Java di Ubuntu dan distribusi berbasis Debian.
$ sudo apt update $ sudo apt install default-jre $ java -version
Selanjutnya, Anda dapat menginstal Scala dari repositori apt dengan menjalankan perintah berikut untuk mencari scala dan menginstalnya.
$ sudo apt search scala ⇒ Search for the package $ sudo apt install scala ⇒ Install the package
Untuk memverifikasi pemasangan Scala , jalankan perintah berikut.
$ scala -version Scala code runner version 2.11.12 -- Copyright 2002-2017, LAMP/EPFL
Instal Apache Spark di Ubuntu
Sekarang buka halaman unduhan Apache Spark resmi dan ambil versi terbaru (yaitu 3.1.1) pada saat menulis artikel ini. Atau, Anda dapat menggunakan perintah wget untuk mengunduh file secara langsung di terminal.
$ wget https://apachemirror.wuchna.com/spark/spark-3.1.1/spark-3.1.1-bin-hadoop2.7.tgz
Sekarang buka terminal Anda dan alihkan ke tempat file yang Anda unduh ditempatkan dan jalankan perintah berikut untuk mengekstrak file tar Apache Spark.
$ tar -xvzf spark-3.1.1-bin-hadoop2.7.tgz
Terakhir, pindahkan Spark . yang telah diekstrak direktori ke /opt direktori.
$ sudo mv spark-3.1.1-bin-hadoop2.7 /opt/spark
Konfigurasi Variabel Lingkungan untuk Spark
Sekarang Anda harus menyetel beberapa variabel lingkungan di .profil . Anda file sebelum memulai percikan.
$ echo "export SPARK_HOME=/opt/spark" >> ~/.profile $ echo "export PATH=$PATH:/opt/spark/bin:/opt/spark/sbin" >> ~/.profile $ echo "export PYSPARK_PYTHON=/usr/bin/python3" >> ~/.profile
Untuk memastikan bahwa variabel lingkungan baru ini dapat dijangkau dalam shell dan tersedia untuk Apache Spark, Anda juga wajib menjalankan perintah berikut untuk menerapkan perubahan terbaru.
$ source ~/.profile
Semua binari terkait percikan untuk memulai dan menghentikan layanan berada di bawah sbin folder.
$ ls -l /opt/spark
Mulai Apache Spark di Ubuntu
Jalankan perintah berikut untuk memulai Spark layanan master dan layanan budak.
$ start-master.sh $ start-workers.sh spark://localhost:7077
Setelah layanan dimulai, buka browser dan ketik halaman percikan akses URL berikut. Dari halaman tersebut, Anda dapat melihat layanan master dan slave saya dimulai.
http://localhost:8080/ OR http://127.0.0.1:8080
Anda juga dapat memeriksa apakah spark-shell berfungsi dengan baik dengan meluncurkan spark-shell perintah.
$ spark-shell
Itu saja untuk artikel ini. Kami akan segera menangkap Anda dengan artikel menarik lainnya.