Dalam tutorial ini, kami akan menunjukkan kepada Anda cara menginstal Apache Hadoop di Debian 11. Bagi Anda yang belum tahu, Apache Hadoop adalah platform perangkat lunak open-source berbasis Java yang mengelola pemrosesan dan penyimpanan data untuk aplikasi data besar. Ini dirancang untuk meningkatkan skala dari server tunggal hingga ribuan mesin, masing-masing menawarkan komputasi dan penyimpanan lokal.
Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang terpenting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda sedang berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan 'sudo
' ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Apache Hadoop pada Debian 11 (Bullseye).
Prasyarat
- Server yang menjalankan salah satu sistem operasi berikut:Debian 11 (Bullseye).
- Sebaiknya Anda menggunakan penginstalan OS baru untuk mencegah potensi masalah.
- Akses SSH ke server (atau cukup buka Terminal jika Anda menggunakan desktop).
- Seorang
non-root sudo user
atau akses keroot user
. Kami merekomendasikan untuk bertindak sebagainon-root sudo user
, namun, karena Anda dapat membahayakan sistem jika tidak berhati-hati saat bertindak sebagai root.
Instal Apache Hadoop di Debian 11 Bullseye
Langkah 1. Sebelum menginstal perangkat lunak apa pun, penting untuk memastikan sistem Anda mutakhir dengan menjalankan apt
berikut perintah di terminal:
sudo apt updatesudo apt upgrade
Langkah 2. Menginstal Java.
Apache Hadoop adalah aplikasi berbasis Java. Jadi, Anda perlu menginstal Java di sistem Anda:
sudo apt install default-jdk default-jre
Verifikasi instalasi Java:
java -versi
Langkah 3. Membuat Pengguna Hadoop.
Jalankan perintah berikut untuk membuat pengguna baru dengan nama Hadoop:
adduser hadoop
Selanjutnya, alihkan ke pengguna Hadoop setelah pengguna dibuat:
su - hadoop
Sekarang saatnya untuk membuat kunci ssh karena Hadoop memerlukan akses ssh untuk mengelola node, remote atau mesin lokal jadi untuk node tunggal dari setup Hadoop kita konfigurasikan sedemikian rupa sehingga kami memiliki akses ke localhost:
ssh-keygen -t rsa
Setelah itu, beri izin ke file otor_keys:
cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keyschmod 0600 ~/.ssh/authorized_keys
Kemudian, verifikasi koneksi SSH tanpa kata sandi dengan perintah berikut:
ssh-server-IP-address Anda
Langkah 4. Menginstal Apache Hadoop di Debian 11.
Pertama, alihkan ke pengguna Hadoop dan unduh versi terbaru Hadoop dari halaman resmi menggunakan wget
berikut perintah:
su - hadoopwget https://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-3.3.1/hadoop-3.3.1-src.tar.gz
Selanjutnya, ekstrak file yang diunduh dengan perintah berikut:
tar -xvzf hadoop-3.3.1.tar.gz
Setelah dibongkar, ubah direktori saat ini ke folder Hadoop:
su rootcd /home/hadoopmv hadoop-3.3.1 /usr/local/hadoop
Selanjutnya, buat direktori untuk menyimpan log dengan perintah berikut:
mkdir /usr/local/hadoop/logs
Ubah kepemilikan direktori Hadoop menjadi Hadoop:
chown -R hadoop:hadoop /usr/local/hadoopsu hadoop
Setelah itu, kita mengkonfigurasi variabel lingkungan Hadoop:
nano ~/.bashrc
Tambahkan konfigurasi berikut:
ekspor HADOOP_HOME =/ usr / local / hadoopexport HADOOP_INSTALL =$ HADOOP_HOMEexport HADOOP_MAPRED_HOME =$ HADOOP_HOMEexport HADOOP_COMMON_HOME =$ HADOOP_HOMEexport HADOOP_HDFS_HOME =$ HADOOP_HOMEexport YARN_HOME =$ HADOOP_HOMEexport HADOOP_COMMON_LIB_NATIVE_DIR =$ HADOOP_HOME / lib / nativeexport PATH =$ PATH:$ HADOOP_HOME / sbin:$HADOOP_HOME/binexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Simpan dan tutup file. Kemudian, aktifkan variabel lingkungan:
sumber ~/.bashrc
Langkah 5. Konfigurasi Apache Hadoop.
- Konfigurasikan variabel lingkungan Java:
sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh
Tambahkan konfigurasi berikut:
ekspor JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 ekspor HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"
Selanjutnya, kita perlu mengunduh file aktivasi Javax:
cd /usr/local/hadoop/libsudo wget https://jcenter.bintray.com/javax/activation/javax.activation-api/1.2.0/javax.activation-api-1.2.0.jarVerifikasi versi Apache Hadoop:
versi hadoopKeluaran:
Hadoop 3.3.1
- Konfigurasikan file core-site.xml:
nano $HADOOP_HOME/etc/hadoop/core-site.xml
Tambahkan file berikut:
fs.default.name hdfs://0.0.0.0:9000 URI sistem file default
- Konfigurasikan file hdfs-site.xml:
Sebelum mengonfigurasi, buat direktori untuk menyimpan metadata node:
mkdir -p /home/hadoop/hdfs/{namenode,datanode}chown -R hadoop:hadoop /home/hadoop/hdfs
Selanjutnya, edit hdfs-site.xml
file dan tentukan lokasi direktori:
nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml
Tambahkan baris berikut:
dfs.replication 1 dfs.name.dir file :///home/hadoop/hdfs/namenode dfs.data.dir file:///home/hadoop/hdfs/datanode
- Konfigurasikan file mapred-site.xml:
Sekarang kita edit mapred-site.xml
berkas:
nano $HADOOP_HOME/etc/hadoop/mapred-site.xml
Tambahkan konfigurasi berikut:
mapreduce.framework.name benang
- Konfigurasikan file yarn-site.xml:
Anda perlu mengedit yarn-site.xml
file dan tentukan pengaturan terkait BENANG:
nano $HADOOP_HOME/etc/hadoop/yarn-site.xml
Tambahkan konfigurasi berikut:
yarn.nodemanager.aux-services mapreduce_shuffle
- Format HDFS NameNode.
Jalankan perintah berikut untuk memformat Hadoop Namenode:
hdfs namenode -format
- Mulai Gugus Hadoop.
Sekarang kita mulai NameNode dan DataNode dengan perintah berikut di bawah ini:
start-dfs.sh
Selanjutnya, mulai YARN resource dan node manager:
start-yarn.sh
Sekarang Anda dapat memverifikasinya dengan perintah berikut:
jps
Keluaran:
[email protected]:~$ jps58000 NameNode54697 DataNode55365 ResourceManager55083 SecondaryNameNode58556 Jps55365 NodeManager
Langkah 6. Mengakses Antarmuka Web Hadoop.
Setelah berhasil diinstal, buka browser web Anda dan akses Apache Hadoop menggunakan URL http://your-server-ip-address:9870
. Anda akan diarahkan ke antarmuka web Hadoop:
Navigasikan URL atau IP localhost Anda untuk mengakses DataNodes individual :http://your-server-ip-address:9864
Untuk mengakses YARN Resource Manager, gunakan URL http://your-server-ip-adddress:8088
. Anda akan melihat layar berikut:
Selamat! Anda telah berhasil menginstal Hadoop. Terima kasih telah menggunakan tutorial ini untuk menginstal versi terbaru Apache Hadoop di Debian 11 Bullseye. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda memeriksa Apache resmi situs web.