GNU/Linux >> Belajar Linux >  >> Debian

Cara Menginstal Hadoop di Debian 11

Apache Hadoop atau juga dikenal sebagai Hadoop adalah kerangka kerja open-source, berbasis Java yang memungkinkan pemrosesan terdistribusi dari kumpulan data besar di seluruh komputer. Ini digunakan untuk menyimpan dan memproses kumpulan data besar. Ini memungkinkan pengelompokan beberapa komputer untuk menyimpan dan memproses data lebih cepat daripada menggunakan satu komputer besar. Hadoop terdiri dari empat modul utama:

– HDFS (Hadoop Distributed File System)
– YARN (Yet Another Resource Negotiator)
– MapReduce
– Hadoop Common

Dalam tutorial ini, kami akan menjelaskan cara menginstal Hadoop di Debian 11.

Prasyarat

  • Debian 11
  • Akses root SSH atau pengguna sistem normal dengan hak sudo

Langkah 1. Masuk ke server

Pertama, masuk ke server Debian 11 Anda melalui SSH sebagai pengguna root:

ssh root@IP_Address -p Port_number

Ganti "root" dengan pengguna yang memiliki hak sudo jika perlu. Selain itu, ganti “IP_Address” dan “Port_Number” dengan alamat IP dan nomor port SSH server Anda masing-masing.

Anda dapat memeriksa apakah Anda telah menginstal versi Debian yang tepat di server Anda dengan perintah berikut:

$ lsb_release -a

Anda harus mendapatkan output ini:

No LSB modules are available.
Distributor ID: Debian
Description: Debian GNU/Linux 11 (bullseye)
Release: 11
Codename: bullseye

Sebelum memulai, Anda harus memastikan bahwa semua paket OS Ubuntu yang terinstal di server sudah terbaru.
Anda dapat melakukannya dengan menjalankan perintah berikut:

$ sudo apt update -y
$ sudo apt upgrade -y

Langkah 2. Buat Pengguna Sistem dan Buat Kunci SSH

Bukan ide yang baik untuk menjalankan Hadoop sebagai root, jadi untuk alasan keamanan, kami akan membuat pengguna sistem baru:

$ sudo useradd -r hadoop -m -d /opt/hadoop --shell /bin/bash

Pengguna 'hadoop' telah dibuat, mari masuk sebagai pengguna.

$ su - hadoop

Hadoop membutuhkan akses ssh untuk mengelola node-nya, baik node jarak jauh maupun lokal. Untuk mengakses node tanpa kata sandi, kita dapat membuat kunci SSH dan menyalin kunci publik ke file ~/.ssh/authorized_keys.

$ ssh-keygen -t rsa

Anda akan mendapatkan output seperti ini.

hadoop@debian11:~$ ssh-keygen -t rsa
Generating public/private rsa key pair.
Enter file in which to save the key (/opt/hadoop/.ssh/id_rsa): 
Created directory '/opt/hadoop/.ssh'.
Enter passphrase (empty for no passphrase): 
Enter same passphrase again: 
Your identification has been saved in /opt/hadoop/.ssh/id_rsa
Your public key has been saved in /opt/hadoop/.ssh/id_rsa.pub
The key fingerprint is:
SHA256:QYHlb6Is9n05OtnR+6i71t4MZeN9gVqGVCoa28aiUXg [email protected]
The key's randomart image is:
+---[RSA 3072]----+
| o+. . |
| oo o |
| . Eo. o |
| o *oo . . |
| . +S+oo ++. |
| .o.oo. =+ o.|
| o.o o =... o|
| . o .o * o= .|
| . o=+*o.+ |
+----[SHA256]-----+

Selanjutnya, mari tambahkan kunci publik hadoop ke file kunci resmi, untuk memungkinkan pengguna 'hadoop' masuk ke sistem tanpa kata sandi dan hanya menggunakan kunci SSH.

$ cat ~/.ssh/id_rsa.pub > ~/.ssh/authorized_keys

Masuk ke sistem melalui SSH sekarang.

$ ssh localhost

Anda seharusnya dapat masuk ke SSH tanpa kata sandi sekarang.
Mari keluar dari pengguna 'hadoop' lalu lanjutkan ke langkah berikutnya.

$ exit

Langkah 3. Instal Java

Hadoop ditulis dalam Java, jadi kami membutuhkan Java di sistem kami untuk dapat menjalankan Hadoop. Mari kita jalankan perintah di bawah ini untuk menginstal JDK default untuk Java dari repositori.

$ sudo apt install default-jdk default-jre -y

Java harus diinstal sekarang, Anda dapat memeriksa dan memverifikasinya dengan menjalankan perintah ini:

$ sudo java -version

Langkah 4. Unduh dan Instal Hadoop

Pada saat artikel ini ditulis, versi stabil terbaru dari Hadoop adalah versi 3.3.2. Anda dapat membuka halaman unduhan mereka di https://hadoop.apache.org/releases.html untuk memeriksa versi yang lebih baru jika ada.

Mari kita login sebagai user 'hadoop' untuk mendownload dan mengekstraknya, jadi kita tidak perlu mengubah izin file dan direktori.

$ su - hadoop
$ wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.3/hadoop-3.2.3.tar.gz -O hadoop-3.2.3.tar.gz
$ tar -xzvf hadoop-3.2.3.tar.gz -C /opt/hadoop --strip-components=1

Sebelum melanjutkan ke langkah selanjutnya, pastikan JAVA_HOME menunjuk ke direktori yang benar, Anda dapat memeriksanya dengan mendaftar /usr/lib/jvm

$ ls /var/lib/jvm


Sekarang, mari kita edit /opt/hadoop/.bashrc

$ nano /opt/hadoop/.bashrc

Masukkan baris berikut ke dalam file.

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/opt/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
HOME/lib

Simpan file dan keluar, lalu jalankan perintah di bawah ini untuk mengaktifkan variabel lingkungan yang baru ditambahkan.

$ source ~/.bashrc

Langkah 5. Konfigurasi Hadoop

Hadoop dapat dikonfigurasi untuk berjalan dalam satu node atau cluster multi-node. Dalam tutorial ini, kami akan menunjukkan kepada Anda cara mengatur Hadoop single node cluster atau mode pseudo-distributed. Ada beberapa file yang perlu kita modifikasi pada langkah ini, sekarang mari kita edit file lingkungan Hadoop terlebih dahulu.

$ nano /opt/hadoop/etc/hadoop/hadoop-env.sh

Tambahkan baris berikut ke file.

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

Edit file core-site.xml.

$ nano /opt/hadoop/etc/hadoop/core-site.xml

Tambahkan baris ini ke tag konfigurasi.

<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>

Edit file hdfs-site.xml

$ nano /opt/hadoop/etc/hadoop/hdfs-site.xml

Tambahkan baris ini ke tag konfigurasi.

<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/hadoop/hadoop_tmp/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/hadoop/hadoop_tmp/hdfs/datanode</value>
</property>

Simpan file dengan menekan CTRL + O dan keluar dengan CTRL + X

Edit file yarn-site.xml

$ nano /opt/hadoop/etc/hadoop/yarn-site.xml

Tambahkan baris ini ke tag konfigurasi.

<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>

File terakhir yang dimodifikasi adalah mapred-site.xml.

$ nano /opt/hadoop/etc/hadoop/mapred-site.xml

Tambahkan baris ini ke tag konfigurasi.

<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

Jangan lupa simpan filenya lalu keluar dari editor nano.

 

File di atas telah dimodifikasi, kita perlu membuat beberapa direktori, jalankan perintah ini:

$ mkdir -p /opt/hadoop/hadoop_tmp/hdfs/{namenode,datanode}

Sebelum memulai layanan Hadoop untuk pertama kalinya, kita perlu memformat namenode.

$ hdfs namenode -format

Mulai namenode dan datanode

$ start-dfs.sh

Jika Anda melihat pesan peringatan ini:

Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

Itu berarti OS server Anda adalah 64bit, tetapi perpustakaan asli Hadoop adalah 32bit. Ini diharapkan dan Anda dapat mengabaikan peringatan tersebut. Jika Anda tidak nyaman dengannya, Anda dapat mengunduh file sumber Hadoop kemudian mengompilasinya untuk mendapatkan pustaka bersama 64bit.

Sekarang mari kita mulai YARN resource dan node manager.

$ start-yarn.sh

Yang terakhir, jalankan perintah ini:

$ jps

Anda akan mendapatkan output seperti ini:

106129 SecondaryNameNode
108050 Jps
105877 NameNode
106375 ResourceManager
105960 DataNode
106458 NodeManager

Sekarang. Anda dapat pergi ke http://YOUR_SERVER_IP_ADDRESS:9870/ dan melihat namenode, datanode, dll.

Untuk memeriksa portal web YARN, Anda dapat menavigasi ke http://YOUR_SERVER_IP_ADDRESS:8088/

Itu dia. Anda telah berhasil menginstal dan mengkonfigurasi Hadoop pada Debian 11. VPS.

Tentu saja, Anda tidak perlu menginstal Hadoop di Debian 11 jika Anda memiliki Server Debian Terkelola bersama kami. Anda cukup meminta tim dukungan kami untuk menginstal Hadoop di Debian 11 untuk Anda. Mereka tersedia 24/7 dan akan dapat membantu Anda dengan penginstalan.

PS. Jika Anda senang membaca posting blog ini tentang cara menginstal Hadoop di Debian 11, jangan ragu untuk membagikannya di jejaring sosial menggunakan pintasan di bawah, atau cukup tinggalkan komentar di bagian komentar. Terima kasih.


Debian
  1. Cara Menginstal Debian 10 (Buster)

  2. Cara Menginstal Apache Hadoop di Debian 9 Stretch

  3. Cara Instal Apache Hadoop di Debian 11

  1. Cara Menginstal Python 3.9 di Debian 10

  2. Cara Menginstal Memcached di Debian 10

  3. Cara Menginstal TeamViewer di Debian 10

  1. Cara Menginstal Git di Debian 9

  2. Cara Menginstal Go di Debian 9

  3. Cara Menginstal Pip di Debian 9