Apache Hadoop atau juga dikenal sebagai Hadoop adalah kerangka kerja open-source, berbasis Java yang memungkinkan pemrosesan terdistribusi dari kumpulan data besar di seluruh komputer. Ini digunakan untuk menyimpan dan memproses kumpulan data besar. Ini memungkinkan pengelompokan beberapa komputer untuk menyimpan dan memproses data lebih cepat daripada menggunakan satu komputer besar. Hadoop terdiri dari empat modul utama:
– HDFS (Hadoop Distributed File System)
– YARN (Yet Another Resource Negotiator)
– MapReduce
– Hadoop Common
Dalam tutorial ini, kami akan menjelaskan cara menginstal Hadoop di Debian 11.
Prasyarat
- Debian 11
- Akses root SSH atau pengguna sistem normal dengan hak sudo
Langkah 1. Masuk ke server
Pertama, masuk ke server Debian 11 Anda melalui SSH sebagai pengguna root:
ssh root@IP_Address -p Port_number
Ganti "root" dengan pengguna yang memiliki hak sudo jika perlu. Selain itu, ganti “IP_Address” dan “Port_Number” dengan alamat IP dan nomor port SSH server Anda masing-masing.
Anda dapat memeriksa apakah Anda telah menginstal versi Debian yang tepat di server Anda dengan perintah berikut:
$ lsb_release -a
Anda harus mendapatkan output ini:
No LSB modules are available. Distributor ID: Debian Description: Debian GNU/Linux 11 (bullseye) Release: 11 Codename: bullseye
Sebelum memulai, Anda harus memastikan bahwa semua paket OS Ubuntu yang terinstal di server sudah terbaru.
Anda dapat melakukannya dengan menjalankan perintah berikut:
$ sudo apt update -y $ sudo apt upgrade -y
Langkah 2. Buat Pengguna Sistem dan Buat Kunci SSH
Bukan ide yang baik untuk menjalankan Hadoop sebagai root, jadi untuk alasan keamanan, kami akan membuat pengguna sistem baru:
$ sudo useradd -r hadoop -m -d /opt/hadoop --shell /bin/bash
Pengguna 'hadoop' telah dibuat, mari masuk sebagai pengguna.
$ su - hadoop
Hadoop membutuhkan akses ssh untuk mengelola node-nya, baik node jarak jauh maupun lokal. Untuk mengakses node tanpa kata sandi, kita dapat membuat kunci SSH dan menyalin kunci publik ke file ~/.ssh/authorized_keys.
$ ssh-keygen -t rsa
Anda akan mendapatkan output seperti ini.
hadoop@debian11:~$ ssh-keygen -t rsa Generating public/private rsa key pair. Enter file in which to save the key (/opt/hadoop/.ssh/id_rsa): Created directory '/opt/hadoop/.ssh'. Enter passphrase (empty for no passphrase): Enter same passphrase again: Your identification has been saved in /opt/hadoop/.ssh/id_rsa Your public key has been saved in /opt/hadoop/.ssh/id_rsa.pub The key fingerprint is: SHA256:QYHlb6Is9n05OtnR+6i71t4MZeN9gVqGVCoa28aiUXg [email protected] The key's randomart image is: +---[RSA 3072]----+ | o+. . | | oo o | | . Eo. o | | o *oo . . | | . +S+oo ++. | | .o.oo. =+ o.| | o.o o =... o| | . o .o * o= .| | . o=+*o.+ | +----[SHA256]-----+
Selanjutnya, mari tambahkan kunci publik hadoop ke file kunci resmi, untuk memungkinkan pengguna 'hadoop' masuk ke sistem tanpa kata sandi dan hanya menggunakan kunci SSH.
$ cat ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys
Masuk ke sistem melalui SSH sekarang.
$ ssh localhost
Anda seharusnya dapat masuk ke SSH tanpa kata sandi sekarang.
Mari keluar dari pengguna 'hadoop' lalu lanjutkan ke langkah berikutnya.
$ exit
Langkah 3. Instal Java
Hadoop ditulis dalam Java, jadi kami membutuhkan Java di sistem kami untuk dapat menjalankan Hadoop. Mari kita jalankan perintah di bawah ini untuk menginstal JDK default untuk Java dari repositori.
$ sudo apt install default-jdk default-jre -y
Java harus diinstal sekarang, Anda dapat memeriksa dan memverifikasinya dengan menjalankan perintah ini:
$ sudo java -version
Langkah 4. Unduh dan Instal Hadoop
Pada saat artikel ini ditulis, versi stabil terbaru dari Hadoop adalah versi 3.3.2. Anda dapat membuka halaman unduhan mereka di https://hadoop.apache.org/releases.html untuk memeriksa versi yang lebih baru jika ada.
Mari kita login sebagai user 'hadoop' untuk mendownload dan mengekstraknya, jadi kita tidak perlu mengubah izin file dan direktori.
$ su - hadoop $ wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz -O hadoop-3.2.3.tar.gz $ tar -xzvf hadoop-3.2.3.tar.gz -C /opt/hadoop --strip-components=1
Sebelum melanjutkan ke langkah selanjutnya, pastikan JAVA_HOME menunjuk ke direktori yang benar, Anda dapat memeriksanya dengan mendaftar /usr/lib/jvm
$ ls /var/lib/jvm
Sekarang, mari kita edit /opt/hadoop/.bashrc
$ nano /opt/hadoop/.bashrc
Masukkan baris berikut ke dalam file.
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/opt/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"HOME/lib
Simpan file dan keluar, lalu jalankan perintah di bawah ini untuk mengaktifkan variabel lingkungan yang baru ditambahkan.
$ source ~/.bashrc
Langkah 5. Konfigurasi Hadoop
Hadoop dapat dikonfigurasi untuk berjalan dalam satu node atau cluster multi-node. Dalam tutorial ini, kami akan menunjukkan kepada Anda cara mengatur Hadoop single node cluster atau mode pseudo-distributed. Ada beberapa file yang perlu kita modifikasi pada langkah ini, sekarang mari kita edit file lingkungan Hadoop terlebih dahulu.
$ nano /opt/hadoop/etc/hadoop/hadoop-env.sh
Tambahkan baris berikut ke file.
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
Edit file core-site.xml.
$ nano /opt/hadoop/etc/hadoop/core-site.xml
Tambahkan baris ini ke tag konfigurasi.
<property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property>
Edit file hdfs-site.xml
$ nano /opt/hadoop/etc/hadoop/hdfs-site.xml
Tambahkan baris ini ke tag konfigurasi.
<property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/opt/hadoop/hadoop_tmp/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/opt/hadoop/hadoop_tmp/hdfs/datanode</value> </property>
Simpan file dengan menekan CTRL + O dan keluar dengan CTRL + X
Edit file yarn-site.xml
$ nano /opt/hadoop/etc/hadoop/yarn-site.xml
Tambahkan baris ini ke tag konfigurasi.
<property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property>
File terakhir yang dimodifikasi adalah mapred-site.xml.
$ nano /opt/hadoop/etc/hadoop/mapred-site.xml
Tambahkan baris ini ke tag konfigurasi.
<property> <name>mapreduce.framework.name</name> <value>yarn</value> </property>
Jangan lupa simpan filenya lalu keluar dari editor nano.
File di atas telah dimodifikasi, kita perlu membuat beberapa direktori, jalankan perintah ini:
$ mkdir -p /opt/hadoop/hadoop_tmp/hdfs/{namenode,datanode}
Sebelum memulai layanan Hadoop untuk pertama kalinya, kita perlu memformat namenode.
$ hdfs namenode -format
Mulai namenode dan datanode
$ start-dfs.sh
Jika Anda melihat pesan peringatan ini:
Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
Itu berarti OS server Anda adalah 64bit, tetapi perpustakaan asli Hadoop adalah 32bit. Ini diharapkan dan Anda dapat mengabaikan peringatan tersebut. Jika Anda tidak nyaman dengannya, Anda dapat mengunduh file sumber Hadoop kemudian mengompilasinya untuk mendapatkan pustaka bersama 64bit.
Sekarang mari kita mulai YARN resource dan node manager.
$ start-yarn.sh
Yang terakhir, jalankan perintah ini:
$ jps
Anda akan mendapatkan output seperti ini:
106129 SecondaryNameNode 108050 Jps 105877 NameNode 106375 ResourceManager 105960 DataNode 106458 NodeManager
Sekarang. Anda dapat pergi ke http://YOUR_SERVER_IP_ADDRESS:9870/ dan melihat namenode, datanode, dll.
Untuk memeriksa portal web YARN, Anda dapat menavigasi ke http://YOUR_SERVER_IP_ADDRESS:8088/
Itu dia. Anda telah berhasil menginstal dan mengkonfigurasi Hadoop pada Debian 11. VPS.
Tentu saja, Anda tidak perlu menginstal Hadoop di Debian 11 jika Anda memiliki Server Debian Terkelola bersama kami. Anda cukup meminta tim dukungan kami untuk menginstal Hadoop di Debian 11 untuk Anda. Mereka tersedia 24/7 dan akan dapat membantu Anda dengan penginstalan.
PS. Jika Anda senang membaca posting blog ini tentang cara menginstal Hadoop di Debian 11, jangan ragu untuk membagikannya di jejaring sosial menggunakan pintasan di bawah, atau cukup tinggalkan komentar di bagian komentar. Terima kasih.