GNU/Linux >> Belajar Linux > >> Ubuntu

Cara Menginstal Hadoop di Ubuntu 20.04

Pada artikel ini, kami akan menjelaskan langkah-langkah yang diperlukan untuk menginstal dan mengkonfigurasi Hadoop di Ubuntu 20.04 LTS. Sebelum melanjutkan tutorial ini, pastikan Anda login sebagai pengguna dengan sudo hak istimewa. Semua perintah dalam tutorial ini harus dijalankan sebagai pengguna non-root.

Pustaka perangkat lunak Apache Hadoop adalah kerangka kerja yang memungkinkan pemrosesan kumpulan data besar yang tersebar di seluruh kelompok komputer menggunakan model pengembangan sederhana. Ini dirancang untuk naik level dari server tunggal ke ribuan mesin, masing-masing menawarkan komputasi dan penyimpanan lokal. Daripada mengandalkan perangkat keras untuk memberikan ketersediaan tinggi, koleksi itu sendiri dirancang untuk mendeteksi plus menangani kegagalan pada lapisan aplikasi, sehingga memberikan layanan yang sangat tersedia di atas sekelompok sistem komputer, yang masing-masing mungkin rentan terhadap kegagalan.

Instal Hadoop di Ubuntu 20.04

Langkah 1. Pertama, sebelum Anda mulai menginstal paket apa pun di server Ubuntu Anda, kami selalu menyarankan untuk memastikan bahwa semua paket sistem telah diperbarui.

sudo apt update
sudo apt upgrade

Langkah 2. Instal Java.

Anda dapat menginstal OpenJDK dari repositori apt default:

sudo apt install default-jdk default-jre

Setelah berhasil menginstal Java di Ubuntu 20.04, konfirmasikan versi dengan baris perintah java:

java -version

Langkah 3. Buat Pengguna Hadoop.

Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:

sudo adduser hadoop
sudo usermod -aG sudo hadoop
sudo usermod -aG sudo hadoop

Selanjutnya, jalankan perintah berikut untuk menghasilkan Pasangan Kunci Publik dan Pribadi:

ssh-keygen -t rsa

Kemudian, tambahkan kunci publik yang dihasilkan dari id_rsa.pub ke authorized_keys dan atur izin:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys 
chmod 640 ~/.ssh/authorized_keys

Verifikasi bahwa Anda dapat ssh menggunakan kunci tambahan:

ssh localhost

Langkah 4. Instal Hadoop di sistem Ubuntu.

Buka halaman resmi proyek Apache Hadoop, dan pilih versi Hadoop yang ingin Anda terapkan:

su - hadoop 
wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz
tar -xvzf hadoop-3.3.2.tar.gz 
mv hadoop-3.3.2 hadoop

Selanjutnya, Anda perlu mengonfigurasi Hadoop dan Variabel Lingkungan Java pada sistem Ubuntu:

nano ~/.bashrc

Tambahkan baris berikut:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
export HADOOP_HOME=/home/hadoop/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export HADOOP_YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Setelah selesai, aktifkan variabel lingkungan:

source ~/.bashrc

Selanjutnya, buka file variabel lingkungan Hadoop:

export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/

Langkah 5. Konfigurasi Hadoop.

Sekarang buat namenode dan datanode direktori di dalam direktori home Hadoop:

mkdir -p ~/hadoopdata/hdfs/namenode 
mkdir -p ~/hadoopdata/hdfs/datanode

Selanjutnya, edit core-site.xml file dan perbarui dengan nama host sistem Anda:

nano $HADOOP_HOME/etc/hadoop/core-site.xml

Ubah baris berikut:

<configuration>        <property>                <name>fs.defaultFS</name>                <value>hdfs://hadoop.tecadmin.com:9000</value>        </property></configuration>

Kemudian, edit hdfs-site.xml berkas:

nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Ubah baris berikut:

<configuration>        <property>                <name>dfs.replication</name>                <value>1</value>        </property>        <property>                <name>dfs.name.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value>        </property>        <property>                <name>dfs.data.dir</name>                <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value>        </property></configuration>

Selanjutnya, edit mapred-site.xml berkas:

nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Buat perubahan berikut:

<configuration>        <property>                <name>mapreduce.framework.name</name>                <value>yarn</value>        </property></configuration>

Sekali lagi, edit yarn-site.xml berkas:

nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Buat file berikut berubah:

<configuration>        <property>               <name>yarn.nodemanager.aux-services</name>                <value>mapreduce_shuffle</value>        </property></configuration>

Langkah 6. Mulai Hadoop Cluster.

Sekarang jalankan perintah berikut untuk memformat Hadoop Namenode:

hdfs namenode -format 
start-dfs.sh

Kemudian, mulai layanan YARN menggunakan perintah berikut:

start-yarn.sh

Ketik perintah sederhana ini untuk memeriksa apakah semua daemon aktif dan berjalan sebagai proses Java:

jps

Langkah 7. Konfigurasi Firewall.

Jalankan perintah berikut untuk mengizinkan koneksi Hadoop melalui firewall:

firewall-cmd --permanent --add-port=9870/tcp 
firewall-cmd --permanent --add-port=8088/tcp 
firewall-cmd --reload

Langkah 8. Mengakses Hadoop.

Gunakan browser pilihan Anda dan navigasikan ke URL atau IP localhost Anda. Nomor port default 9870 memberi Anda akses ke Hadoop NameNode UI:

http://your-ip-address:9870

Hanya itu yang perlu Anda lakukan untuk menginstal Hadoop di Ubuntu 20.04 LTS Focal Fossa. Saya harap Anda menemukan tip cepat ini bermanfaat. Untuk bacaan lebih lanjut tentang Apache Hadoop, silakan merujuk ke basis pengetahuan resmi mereka. Jika Anda memiliki pertanyaan atau saran, jangan ragu untuk meninggalkan komentar di bawah.

Cara Menginstal Telegram Desktop di Ubuntu 20.04 Cara Menginstal Figma di Ubuntu 20.04

Ubuntu