Dalam tutorial ini, kami akan menunjukkan cara menginstal Apache Hadoop di Ubuntu 20.04 LTS. Bagi Anda yang belum tahu, Apache Hadoop adalah framework open-source yang digunakan untuk penyimpanan terdistribusi serta pemrosesan data besar terdistribusi pada kelompok komputer yang berjalan pada perangkat keras komoditas. Daripada mengandalkan perangkat keras untuk memberikan ketersediaan tinggi, perpustakaan itu sendiri dirancang untuk mendeteksi dan menangani kegagalan pada lapisan aplikasi, sehingga memberikan layanan yang sangat tersedia di atas sekelompok komputer, yang masing-masing mungkin rentan terhadap kegagalan.
Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang terpenting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda sedang berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan 'sudo
' ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Flask di Ubuntu 20.04 (Focal Fossa). Anda dapat mengikuti instruksi yang sama untuk Ubuntu 18.04, 16.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
Prasyarat
- Server yang menjalankan salah satu sistem operasi berikut:Ubuntu 20.04, 18.04, 16.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
- Sebaiknya Anda menggunakan penginstalan OS baru untuk mencegah potensi masalah.
- Akses SSH ke server (atau cukup buka Terminal jika Anda menggunakan desktop).
- Seorang
non-root sudo user
atau akses keroot user
. Kami merekomendasikan untuk bertindak sebagainon-root sudo user
, namun, karena Anda dapat membahayakan sistem jika tidak berhati-hati saat bertindak sebagai root.
Instal Apache Hadoop di Ubuntu 20.04 LTS Focal Fossa
Langkah 1. Pertama, pastikan bahwa semua paket sistem Anda mutakhir dengan menjalankan apt
berikut perintah di terminal.
sudo apt update sudo apt upgrade
Langkah 2. Menginstal Java.
Untuk menjalankan Hadoop, Anda harus menginstal Java 8 di mesin Anda. Untuk melakukannya, gunakan perintah berikut:
sudo apt install default-jdk default-jre
Setelah diinstal, Anda dapat memverifikasi versi Java yang diinstal dengan perintah berikut:
java -version
Langkah 3. Buat Pengguna Hadoop.
Pertama, buat pengguna baru bernama Hadoop dengan perintah berikut:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Selanjutnya, masuk dengan pengguna Hadoop dan buat pasangan kunci SSH dengan perintah berikut:
su - hadoopuser ssh-keygen -t rsa cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys chmod 0600 ~/.ssh/authorized_keys
Setelah itu, verifikasi SSH tanpa kata sandi dengan perintah berikut:
ssh localhost
Setelah Anda masuk tanpa kata sandi, Anda dapat melanjutkan ke langkah berikutnya.
Langkah 4. Menginstal Apache Hadoop di Ubuntu 20.04.
Sekarang kami mengunduh versi stabil terbaru dari Apache Hadoop, Saat artikel ini ditulis adalah versi 3.3.0:
su - hadoop wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz tar -xvzf hadoop-3.3.0.tar.gz
Selanjutnya, pindahkan direktori hasil ekstrak ke /usr/local/
:
sudo mv hadoop-3.3.0 /usr/local/hadoop sudo mkdir /usr/local/hadoop/logs
Kami mengubah kepemilikan direktori Hadoop menjadi Hadoop:
sudo chown -R hadoop:hadoop /usr/local/hadoop
Langkah 5. Konfigurasi Apache Hadoop.
Menyiapkan variabel lingkungan. Edit ~/.bashrc
file dan tambahkan nilai berikut di akhir file:
nano ~/.bashrc
Tambahkan baris berikut:
export HADOOP_HOME=/usr/local/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Menerapkan variabel lingkungan ke sesi yang sedang berjalan:
source ~/.bashrc
Selanjutnya, Anda perlu mendefinisikan variabel lingkungan Java di hadoop-env.sh
untuk mengonfigurasi pengaturan proyek terkait YARN, HDFS, MapReduce, dan Hadoop:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Tambahkan baris berikut:
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
Sekarang Anda dapat memverifikasi versi Hadoop menggunakan perintah berikut:
hadoop version
Langkah 6. Konfigurasikan core-site.xml
berkas.
Buka core-site.xml
file dalam editor teks:
sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml
Tambahkan baris berikut:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://0.0.0.0:9000</value> <description>The default file system URI</description> </property> </configuration>
Langkah 7. Konfigurasikan hdfs-site.xml
Berkas.
Gunakan perintah berikut untuk membuka hdfs-site.xml
file untuk diedit:
sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Tambahkan baris berikut:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Langkah 8. Konfigurasikan mapred-site.xml
Berkas.
Gunakan perintah berikut untuk mengakses mapred-site.xml
berkas:
sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Tambahkan baris berikut:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Langkah 9. Konfigurasikan yarn-site.xml
Berkas.
Buka yarn-site.xml
file dalam editor teks:
sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Tambahkan baris berikut:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Langkah 10. Format HDFS NameNode.
Sekarang kita login dengan pengguna Hadoop dan memformat NameNode HDFS dengan perintah berikut:
su - hadoop hdfs namenode -format
Langkah 11. Mulai Cluster Hadoop.
Sekarang mulai NameNode dan DataNode dengan perintah berikut:
start-dfs.sh
Lalu, mulai YARN resource dan nodemanagers:
start-yarn.sh
Anda harus mengamati output untuk memastikan bahwa ia mencoba untuk memulai datanode pada node slave satu per satu. Untuk memeriksa apakah semua layanan dimulai dengan baik menggunakan 'jps
' perintah:
jps
Langkah 12. Mengakses Apache Hadoop.
Nomor port default 9870 memberi Anda akses ke Hadoop NameNode UI:
http://your-server-ip:9870
Port default 9864 digunakan untuk mengakses DataNodes individual langsung dari browser Anda:
http://your-server-ip:9864
Pengelola Sumber Daya YARN dapat diakses pada port 8088:
http://your-server-ip:8088
Selamat! Anda telah berhasil menginstal Hadoop. Terima kasih telah menggunakan tutorial ini untuk menginstal Apache Hadoop pada sistem Focal Fossa Ubuntu 20.04 LTS Anda. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda untuk memeriksa resmi Situs web Apache Hadoop.