Pada artikel ini, kami akan menjelaskan langkah-langkah yang diperlukan untuk menginstal dan mengkonfigurasi Hadoop di Ubuntu 20.04 LTS. Sebelum melanjutkan tutorial ini, pastikan Anda login sebagai pengguna dengan sudo
hak istimewa. Semua perintah dalam tutorial ini harus dijalankan sebagai pengguna non-root.
Pustaka perangkat lunak Apache Hadoop adalah kerangka kerja yang memungkinkan pemrosesan kumpulan data besar yang tersebar di seluruh kelompok komputer menggunakan model pengembangan sederhana. Ini dirancang untuk naik level dari server tunggal ke ribuan mesin, masing-masing menawarkan komputasi dan penyimpanan lokal. Daripada mengandalkan perangkat keras untuk memberikan ketersediaan tinggi, koleksi itu sendiri dirancang untuk mendeteksi plus menangani kegagalan pada lapisan aplikasi, sehingga memberikan layanan yang sangat tersedia di atas sekelompok sistem komputer, yang masing-masing mungkin rentan terhadap kegagalan.
Instal Hadoop di Ubuntu 20.04
Langkah 1. Pertama, sebelum Anda mulai menginstal paket apa pun di server Ubuntu Anda, kami selalu menyarankan untuk memastikan bahwa semua paket sistem telah diperbarui.
sudo apt update sudo apt upgrade
Langkah 2. Instal Java.
Anda dapat menginstal OpenJDK dari repositori apt default:
sudo apt install default-jdk default-jre
Setelah berhasil menginstal Java di Ubuntu 20.04, konfirmasikan versi dengan baris perintah java:
java -version
Langkah 3. Buat Pengguna Hadoop.
Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:
sudo adduser hadoop sudo usermod -aG sudo hadoop sudo usermod -aG sudo hadoop
Selanjutnya, jalankan perintah berikut untuk menghasilkan Pasangan Kunci Publik dan Pribadi:
ssh-keygen -t rsa
Kemudian, tambahkan kunci publik yang dihasilkan dari id_rsa.pub
ke authorized_keys
dan atur izin:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 640 ~/.ssh/authorized_keys
Verifikasi bahwa Anda dapat ssh menggunakan kunci tambahan:
ssh localhost
Langkah 4. Instal Hadoop di sistem Ubuntu.
Buka halaman resmi proyek Apache Hadoop, dan pilih versi Hadoop yang ingin Anda terapkan:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.2.2/hadoop-3.2.2.tar.gz tar -xvzf hadoop-3.3.2.tar.gz mv hadoop-3.3.2 hadoop
Selanjutnya, Anda perlu mengonfigurasi Hadoop dan Variabel Lingkungan Java pada sistem Ubuntu:
nano ~/.bashrc
Tambahkan baris berikut:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/ export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export HADOOP_YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Setelah selesai, aktifkan variabel lingkungan:
source ~/.bashrc
Selanjutnya, buka file variabel lingkungan Hadoop:
export JAVA_HOME=/usr/lib/jvm/java-1.8.0-openjdk-amd64/
Langkah 5. Konfigurasi Hadoop.
Sekarang buat namenode
dan datanode
direktori di dalam direktori home Hadoop:
mkdir -p ~/hadoopdata/hdfs/namenode mkdir -p ~/hadoopdata/hdfs/datanode
Selanjutnya, edit core-site.xml
file dan perbarui dengan nama host sistem Anda:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Ubah baris berikut:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.tecadmin.com:9000</value> </property></configuration>
Kemudian, edit hdfs-site.xml
berkas:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Ubah baris berikut:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property></configuration>
Selanjutnya, edit mapred-site.xml
berkas:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Buat perubahan berikut:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property></configuration>
Sekali lagi, edit yarn-site.xml
berkas:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Buat file berikut berubah:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property></configuration>
Langkah 6. Mulai Hadoop Cluster.
Sekarang jalankan perintah berikut untuk memformat Hadoop Namenode:
hdfs namenode -format start-dfs.sh
Kemudian, mulai layanan YARN menggunakan perintah berikut:
start-yarn.sh
Ketik perintah sederhana ini untuk memeriksa apakah semua daemon aktif dan berjalan sebagai proses Java:
jps
Langkah 7. Konfigurasi Firewall.
Jalankan perintah berikut untuk mengizinkan koneksi Hadoop melalui firewall:
firewall-cmd --permanent --add-port=9870/tcp firewall-cmd --permanent --add-port=8088/tcp firewall-cmd --reload
Langkah 8. Mengakses Hadoop.
Gunakan browser pilihan Anda dan navigasikan ke URL atau IP localhost Anda. Nomor port default 9870 memberi Anda akses ke Hadoop NameNode UI:
http://your-ip-address:9870
Hanya itu yang perlu Anda lakukan untuk menginstal Hadoop di Ubuntu 20.04 LTS Focal Fossa. Saya harap Anda menemukan tip cepat ini bermanfaat. Untuk bacaan lebih lanjut tentang Apache Hadoop, silakan merujuk ke basis pengetahuan resmi mereka. Jika Anda memiliki pertanyaan atau saran, jangan ragu untuk meninggalkan komentar di bawah.