Dalam tutorial ini, kami akan menunjukkan kepada Anda cara menginstal Apache Hadoop di Debian 9 Stretch. Bagi Anda yang belum tahu, Apache Hadoop adalah framework open-source yang digunakan untuk penyimpanan terdistribusi serta pemrosesan big data terdistribusi pada cluster komputer yang berjalan pada perangkat keras komoditas. Hadoop menyimpan data di Hadoop Distributed File System (HDFS) dan pemrosesan data ini dilakukan menggunakan MapReduce. YARN menyediakan API untuk meminta dan mengalokasikan sumber daya di kluster Hadoop.
Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang terpenting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda sedang berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan 'sudo
' ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Apache Hadoop di server Debian 9 (Stretch).
Prasyarat
- Server yang menjalankan salah satu sistem operasi berikut:Debian 9 (Stretch).
- Sebaiknya Anda menggunakan penginstalan OS baru untuk mencegah potensi masalah.
- Akses SSH ke server (atau cukup buka Terminal jika Anda menggunakan desktop).
- Seorang
non-root sudo user
atau akses keroot user
. Kami merekomendasikan untuk bertindak sebagainon-root sudo user
, namun, karena Anda dapat membahayakan sistem jika tidak berhati-hati saat bertindak sebagai root.
Instal Apache Hadoop di Debian 9 Stretch
Langkah 1. Sebelum menginstal perangkat lunak apa pun, penting untuk memastikan sistem Anda mutakhir dengan menjalankan apt-get
berikut perintah di terminal:
apt-get update apt-get upgrade
Langkah 2. Menginstal Java (OpenJDK).
Apache Hadoop membutuhkan Java versi 8 ke atas. Jadi, Anda dapat memilih untuk menginstal OpenJDK atau Oracle JDK:
- Instal Java JDK 8 di Debian:
[email protected] ~# java -version java version "1.8.0_192" Java(TM) SE Runtime Environment (build 1.8.0_192-b02) Java HotSpot(TM) 64-Bit Server VM (build 25.74-b02, mixed mode)
Langkah 3. Menginstal Apache Hadoop di Debian 9.
Untuk menghindari masalah keamanan, sebaiknya siapkan grup pengguna dan akun pengguna Hadoop baru untuk menangani semua aktivitas terkait Hadoop, dengan perintah berikut:
sudo addgroup hadoopgroup sudo adduser —ingroup hadoopgroup hadoopuser
Setelah membuat pengguna, juga diperlukan untuk mengatur ssh berbasis kunci pada akunnya sendiri. Untuk melakukan ini, jalankan perintah berikut:
su - hadoopuser ssh-keygen -t rsa -P "" cat /home/hadoopuser/.ssh/id_rsa.pub >> /home/hadoopuser/.ssh/authorized_keys chmod 600 authorized_keys ssh-copy-id -i ~/.ssh/id_rsa.pub slave-1 ssh slave-1
Selanjutnya, unduh Apache Hadoop versi stabil terbaru, Saat artikel ini ditulis adalah versi 2.8.1:
wget http://www-us.apache.org/dist/hadoop/common/hadoop-3.1.1/hadoop-3.1.1.tar.gz tar xzf hadoop-3.1.1.tar.gz mv hadoop-3.1.1 hadoop
Langkah 4. Atur Lingkungan Apache Hadoop.
Menyiapkan variabel lingkungan. Edit ~/.bashrc
file dan tambahkan nilai berikut di akhir file:
export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
Menerapkan variabel lingkungan ke sesi yang sedang berjalan:
source ~/.bashrc
Sekarang edit $HADOOP_HOME/etc/hadoop/hadoop-env.sh
file dan setel variabel lingkungan Java_HOME:
export JAVA_HOME=/usr/jdk1.8.0_192/
Hadoop memiliki banyak file konfigurasi, yang perlu dikonfigurasi sesuai dengan persyaratan infrastruktur Hadoop Anda. Mari kita mulai dengan konfigurasi dengan penyiapan cluster node tunggal Hadoop dasar:
cd $HADOOP_HOME/etc/hadoop
Edit core-site.xml
:
<configuration> <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> </configuration>
Edit hdfs-site.xml
:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hadoopdata/hdfs/datanode</value> </property> </configuration>
Edit mapred-site.xml
:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Edit yarn-site.xml
:
<configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Sekarang format namenode menggunakan perintah berikut, jangan lupa untuk memeriksa direktori penyimpanan:
hdfs namenode -format
Mulai semua layanan Hadoop menggunakan perintah berikut:
cd $HADOOP_HOME/sbin/ start-dfs.sh start-yarn.sh
Anda harus mengamati output untuk memastikan bahwa ia mencoba memulai datanode pada node slave satu per satu. Untuk memeriksa apakah semua layanan dimulai dengan baik menggunakan 'jps
' perintah:
jps
Langkah 5. Siapkan Firewall untuk Apache Hadoop.
Izinkan Apache Hadoop melalui firewall:
ufw allow 50070/tcp ufw allow 8088/tcp ufw reload
Langkah 6. Mengakses Apache Hadoop.
Apache Hadoop akan tersedia di HTTP port 8088 dan port 50070 secara default. Buka browser favorit Anda dan navigasikan ke http://yourdomain.com:50070
atau http://server-ip:50070
.
Selamat! Anda telah berhasil menginstal Apache Hadoop. Terima kasih telah menggunakan tutorial ini untuk menginstal Apache Hadoop di sistem Debian 9 Stretch. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda memeriksa situs web resmi Apache Hadoop .