GNU/Linux >> Belajar Linux > >> Ubuntu

Cara Menginstal Apache Hadoop di Ubuntu 20.04 LTS

Dalam tutorial ini, kami akan menunjukkan cara menginstal Apache Hadoop di Ubuntu 20.04 LTS. Bagi Anda yang belum tahu, Apache Hadoop adalah framework open-source yang digunakan untuk penyimpanan terdistribusi serta pemrosesan data besar terdistribusi pada kelompok komputer yang berjalan pada perangkat keras komoditas. Daripada mengandalkan perangkat keras untuk memberikan ketersediaan tinggi, perpustakaan itu sendiri dirancang untuk mendeteksi dan menangani kegagalan pada lapisan aplikasi, sehingga memberikan layanan yang sangat tersedia di atas sekelompok komputer, yang masing-masing mungkin rentan terhadap kegagalan.

Artikel ini mengasumsikan Anda memiliki setidaknya pengetahuan dasar tentang Linux, tahu cara menggunakan shell, dan yang terpenting, Anda meng-host situs Anda di VPS Anda sendiri. Instalasi cukup sederhana dan mengasumsikan Anda sedang berjalan di akun root, jika tidak, Anda mungkin perlu menambahkan 'sudo ' ke perintah untuk mendapatkan hak akses root. Saya akan menunjukkan kepada Anda langkah demi langkah instalasi Flask di Ubuntu 20.04 (Focal Fossa). Anda dapat mengikuti instruksi yang sama untuk Ubuntu 18.04, 16.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.

Prasyarat

Server yang menjalankan salah satu sistem operasi berikut:Ubuntu 20.04, 18.04, 16.04, dan distribusi berbasis Debian lainnya seperti Linux Mint.
Sebaiknya Anda menggunakan penginstalan OS baru untuk mencegah potensi masalah.
Akses SSH ke server (atau cukup buka Terminal jika Anda menggunakan desktop).
Seorang non-root sudo user atau akses ke root user . Kami merekomendasikan untuk bertindak sebagai non-root sudo user , namun, karena Anda dapat membahayakan sistem jika tidak berhati-hati saat bertindak sebagai root.

Instal Apache Hadoop di Ubuntu 20.04 LTS Focal Fossa

Langkah 1. Pertama, pastikan bahwa semua paket sistem Anda mutakhir dengan menjalankan apt berikut perintah di terminal.

sudo apt update
sudo apt upgrade

Langkah 2. Menginstal Java.

Untuk menjalankan Hadoop, Anda harus menginstal Java 8 di mesin Anda. Untuk melakukannya, gunakan perintah berikut:

sudo apt install default-jdk default-jre

Setelah diinstal, Anda dapat memverifikasi versi Java yang diinstal dengan perintah berikut:

java -version

Langkah 3. Buat Pengguna Hadoop.

Pertama, buat pengguna baru bernama Hadoop dengan perintah berikut:

sudo addgroup hadoopgroup
sudo adduser —ingroup hadoopgroup hadoopuser

Selanjutnya, masuk dengan pengguna Hadoop dan buat pasangan kunci SSH dengan perintah berikut:

su - hadoopuser
ssh-keygen -t rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
chmod 0600 ~/.ssh/authorized_keys

Setelah itu, verifikasi SSH tanpa kata sandi dengan perintah berikut:

ssh localhost

Setelah Anda masuk tanpa kata sandi, Anda dapat melanjutkan ke langkah berikutnya.

Langkah 4. Menginstal Apache Hadoop di Ubuntu 20.04.

Sekarang kami mengunduh versi stabil terbaru dari Apache Hadoop, Saat artikel ini ditulis adalah versi 3.3.0:

su - hadoop
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.0/hadoop-3.3.0.tar.gz
tar -xvzf hadoop-3.3.0.tar.gz

Selanjutnya, pindahkan direktori hasil ekstrak ke /usr/local/ :

sudo mv hadoop-3.3.0 /usr/local/hadoop
sudo mkdir /usr/local/hadoop/logs

Kami mengubah kepemilikan direktori Hadoop menjadi Hadoop:

sudo chown -R hadoop:hadoop /usr/local/hadoop

Langkah 5. Konfigurasi Apache Hadoop.

Menyiapkan variabel lingkungan. Edit ~/.bashrc file dan tambahkan nilai berikut di akhir file:

nano ~/.bashrc

Tambahkan baris berikut:

export HADOOP_HOME=/usr/local/hadoop
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"

Menerapkan variabel lingkungan ke sesi yang sedang berjalan:

source ~/.bashrc

Selanjutnya, Anda perlu mendefinisikan variabel lingkungan Java di hadoop-env.sh untuk mengonfigurasi pengaturan proyek terkait YARN, HDFS, MapReduce, dan Hadoop:

sudo nano $HADOOP_HOME/etc/hadoop/hadoop-env.sh

Tambahkan baris berikut:

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 
export HADOOP_CLASSPATH+=" $HADOOP_HOME/lib/*.jar"

Sekarang Anda dapat memverifikasi versi Hadoop menggunakan perintah berikut:

hadoop version

Langkah 6. Konfigurasikan core-site.xml berkas.

Buka core-site.xml file dalam editor teks:

sudo nano $HADOOP_HOME/etc/hadoop/core-site.xml

Tambahkan baris berikut:

<configuration>
   <property>
      <name>fs.default.name</name>
      <value>hdfs://0.0.0.0:9000</value>
      <description>The default file system URI</description>
   </property>
</configuration>

Langkah 7. Konfigurasikan hdfs-site.xml Berkas.

Gunakan perintah berikut untuk membuka hdfs-site.xml file untuk diedit:

sudo nano $HADOOP_HOME/etc/hadoop/hdfs-site.xml

Tambahkan baris berikut:

<configuration>
   <property>
      <name>dfs.replication</name>
      <value>1</value>
   </property>

   <property>
      <name>dfs.name.dir</name>
      <value>file:///home/hadoop/hdfs/namenode</value>
   </property>

   <property>
      <name>dfs.data.dir</name>
      <value>file:///home/hadoop/hdfs/datanode</value>
   </property>
</configuration>

Langkah 8. Konfigurasikan mapred-site.xml Berkas.

Gunakan perintah berikut untuk mengakses mapred-site.xml berkas:

sudo nano $HADOOP_HOME/etc/hadoop/mapred-site.xml

Tambahkan baris berikut:

<configuration>
   <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
   </property>
</configuration>

Langkah 9. Konfigurasikan yarn-site.xml Berkas.

Buka yarn-site.xml file dalam editor teks:

sudo nano $HADOOP_HOME/etc/hadoop/yarn-site.xml

Tambahkan baris berikut:

<configuration>
   <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
   </property>
</configuration>

Langkah 10. Format HDFS NameNode.

Sekarang kita login dengan pengguna Hadoop dan memformat NameNode HDFS dengan perintah berikut:

su - hadoop
hdfs namenode -format

Langkah 11. Mulai Cluster Hadoop.

Sekarang mulai NameNode dan DataNode dengan perintah berikut:

start-dfs.sh

Lalu, mulai YARN resource dan nodemanagers:

start-yarn.sh

Anda harus mengamati output untuk memastikan bahwa ia mencoba untuk memulai datanode pada node slave satu per satu. Untuk memeriksa apakah semua layanan dimulai dengan baik menggunakan 'jps ' perintah:

jps

Langkah 12. Mengakses Apache Hadoop.

Nomor port default 9870 memberi Anda akses ke Hadoop NameNode UI:

http://your-server-ip:9870

Port default 9864 digunakan untuk mengakses DataNodes individual langsung dari browser Anda:

http://your-server-ip:9864

Pengelola Sumber Daya YARN dapat diakses pada port 8088:

http://your-server-ip:8088

Selamat! Anda telah berhasil menginstal Hadoop. Terima kasih telah menggunakan tutorial ini untuk menginstal Apache Hadoop pada sistem Focal Fossa Ubuntu 20.04 LTS Anda. Untuk bantuan tambahan atau informasi berguna, kami sarankan Anda untuk memeriksa resmi Situs web Apache Hadoop.

Cara Menginstal Firefox di Ubuntu 20.04 LTS Cara Memasang Panel Kontrol Ajenti di Ubuntu 20.04 LTS

Ubuntu