GNU/Linux >> Belajar Linux >  >> Cent OS

Cara menginstal Hadoop di RHEL 8 / CentOS 8 Linux

Apache Hadoop adalah kerangka kerja sumber terbuka yang digunakan untuk penyimpanan terdistribusi serta pemrosesan data besar terdistribusi pada kelompok komputer yang berjalan pada perangkat keras komoditas. Hadoop menyimpan data di Hadoop Distributed File System (HDFS) dan pemrosesan data ini dilakukan menggunakan MapReduce. YARN menyediakan API untuk meminta dan mengalokasikan sumber daya di cluster Hadoop.

Kerangka kerja Apache Hadoop terdiri dari modul-modul berikut:

  • Hadoop Umum
  • Sistem File Terdistribusi Hadoop (HDFS)
  • BENANG
  • Pengurangan Peta

Artikel ini menjelaskan cara menginstal Hadoop Versi 2 pada RHEL 8 atau CentOS 8. Kami akan menginstal HDFS (Namenode dan Datanode), YARN, MapReduce pada cluster node tunggal dalam Mode Terdistribusi Pseudo yang merupakan simulasi terdistribusi pada satu mesin. Setiap daemon Hadoop seperti hdfs, yarn, mapreduce, dll. akan berjalan sebagai proses java terpisah/individu.

Dalam tutorial ini Anda akan mempelajari:

  • Cara menambahkan pengguna untuk Lingkungan Hadoop
  • Cara menginstal dan mengkonfigurasi Oracle JDK
  • Cara mengonfigurasi SSH tanpa kata sandi
  • Cara menginstal Hadoop dan mengonfigurasi file xml terkait yang diperlukan
  • Cara memulai Kluster Hadoop
  • Cara mengakses NameNode dan ResourceManager Web UI

Arsitektur HDFS.

Persyaratan dan Konvensi Perangkat Lunak yang Digunakan

Persyaratan Perangkat Lunak dan Konvensi Baris Perintah Linux
Kategori Persyaratan, Konvensi, atau Versi Perangkat Lunak yang Digunakan
Sistem RHEL 8 / CentOS 8
Perangkat Lunak Hadoop 2.8.5, Oracle JDK 1.8
Lainnya Akses istimewa ke sistem Linux Anda sebagai root atau melalui sudo perintah.
Konvensi # – membutuhkan perintah linux yang diberikan untuk dieksekusi dengan hak akses root baik secara langsung sebagai pengguna root atau dengan menggunakan sudo perintah
$ – membutuhkan perintah linux yang diberikan untuk dieksekusi sebagai pengguna biasa yang tidak memiliki hak istimewa

Tambahkan pengguna untuk Lingkungan Hadoop

Buat pengguna dan grup baru menggunakan perintah:

# useradd hadoop# passwd hadoop
[root@hadoop ~]# useradd hadoop[root@hadoop ~]# passwd hadoopMengubah kata sandi untuk hadoop pengguna. Kata sandi baru:Ketik ulang kata sandi baru:passwd:semua token otentikasi berhasil diperbarui.[root@hadoop ~]# cat / dll/passwd | grep hadoophadoop:x:1000:1000::/home/hadoop:/bin/bash

Instal dan konfigurasikan Oracle JDK

Unduh dan instal paket resmi jdk-8u202-linux-x64.rpm untuk menginstal Oracle JDK.

[root@hadoop ~]# rpm -ivh jdk-8u202-linux-x64.rpmwarning:jdk-8u202-linux-x64.rpm:Header V3 RSA/SHA256 Tanda tangan, ID kunci ec551f03:NOKEYVerifying... ## ############################## [100%]Mempersiapkan... ########### ###################### [100%]Memperbarui / menginstal... 1:jdk1.8-2000:1.8.0_202-fcs ##### ############################ [100%]Membongkar file JAR... tools.jar... plugin.jar... javaws.jar... deploy.jar... rt.jar... jsse.jar... charsets.jar... localedata.jar...

Setelah instalasi untuk memverifikasi java telah berhasil dikonfigurasi, jalankan perintah berikut:

[root@hadoop ~]# java -versionjava versi "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mode campuran)[root@hadoop ~]# update-alternatives --config javaAda 1 program yang menyediakan 'java'. Perintah Seleksi ---------------------------------------------* + 1 /usr/java/jdk1.8.0_202-amd64/jre/bin/java

Konfigurasikan SSH tanpa kata sandi

Instal Open SSH Server dan Open SSH Client atau jika sudah terinstal maka akan menampilkan paket-paket di bawah ini.

[root@hadoop ~]# rpm -qa | grep openssh*openssh-server-7.8p1-3.el8.x86_64openssl-libs-1.1.1-6.el8.x86_64openssl-1.1.1-6.el8.x86_64openssh-clients-7.8p1-3.el8.x86_64openssh-7.8 p1-3.el8.x86_64openssl-pkcs11-0.4.8-2.el8.x86_64

Hasilkan Pasangan Kunci Publik dan Pribadi dengan perintah berikut. Terminal akan meminta untuk memasukkan nama file. Tekan ENTER dan lanjutkan. Setelah itu salin formulir kunci publik id_rsa.pub ke authorized_keys .

$ ssh-keygen -t rsa$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys$ chmod 640 ~/.ssh/authorized_keys
[hadoop@hadoop ~]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Masukkan file untuk menyimpan kunci (/home/hadoop/.ssh/id_rsa):Direktori yang dibuat '/home/hadoop /.ssh'.Masukkan frasa sandi (kosongkan tanpa frasa sandi):Masukkan kembali frasa sandi yang sama:Identifikasi Anda telah disimpan di /home/hadoop/.ssh/id_rsa.Kunci publik Anda telah disimpan di /home/hadoop/.ssh/ id_rsa.pub.Sidik jari kuncinya adalah:SHA256:H+LLPkaJJDD7B0f0Je/NFJRP5/FUeJswMmZpJFXoelg [email protected] randomart kuncinya adalah:+---[RSA 2048]----+| .. ..++*o .o|| o .. +.O.+o.+|| + . . * +oo==|| . o o . E .oo|| . =.S.* o || . o.o=o || . .. o || .Hai. || o+. |+----[SHA256]-----+[hadoop@hadoop ~]$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys[hadoop@hadoop ~]$ chmod 640 ~/ .ssh/authorized_keys

Verifikasi konfigurasi ssh tanpa kata sandi dengan perintah :

$ ssh  
[hadoop@hadoop ~]$ ssh hadoop.sandbox.comKonsol web:https://hadoop.sandbox.com:9090/ atau https://192.168.1.108:9090/Login terakhir:Sabtu 13 Apr 12:09 :55 2019[hadoop@hadoop ~]$

Instal Hadoop dan konfigurasikan file xml terkait

Unduh dan ekstrak Hadoop 2.8.5 dari situs web resmi Apache.

# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz# tar -xzvf hadoop-2.8.5.tar.gz 
[root@rhel8-sandbox ~]# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz--2019-04- 13 11:14:03-- https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gzResolving archive.apache.org (archive.apache.org )... 163.172.17.199Menghubungkan ke archive.apache.org (archive.apache.org)|163.172.17.199|:443... terhubung.Permintaan HTTP terkirim, menunggu tanggapan... 200 OKPanjang:246543928 (235M) [ application/x-gzip]Menyimpan ke:'hadoop-2.8.5.tar.gz'hadoop-2.8.5.tar.gz 100%[=====================================================================================>] 235,12 juta 1,47 MB/dtk dalam 2 menit 53 detik2019-04-13 11:16:57 (1,36 MB/dtk) - 'hadoop-2,8.5 .tar.gz' disimpan [246543928/246543928]

Menyiapkan variabel lingkungan

Edit bashrc untuk pengguna Hadoop melalui pengaturan variabel lingkungan Hadoop berikut:

export HADOOP_HOME=/home/hadoop/hadoop-2.8.5
export HADOOP_INSTALL=$HADOOP_HOME
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
 

Sumber .bashrc dalam sesi login saat ini.

$ source ~/.bashrc

Edit hadoop-env.sh file yang ada di /etc/hadoop di dalam direktori instalasi Hadoop dan buat perubahan berikut dan periksa apakah Anda ingin mengubah konfigurasi lainnya.

export JAVA_HOME=${JAVA_HOME:-"/usr/java/jdk1.8.0_202-amd64"}
export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/home/hadoop/hadoop-2.8.5/etc/hadoop"}
 

Perubahan Konfigurasi dalam file core-site.xml

Edit core-site.xml dengan vim atau Anda dapat menggunakan salah satu editor. File berada di bawah /etc/hadoop di dalam hadoop direktori home dan tambahkan entri berikut.

<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop.sandbox.com:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/home/hadoop/hadooptmpdata</value>
</property>
</configuration>
 

Selain itu, buat direktori di bawah hadoop folder rumah.

$ mkdir hadooptmpdata

Perubahan Konfigurasi pada file hdfs-site.xml

Edit hdfs-site.xml yang ada di bawah lokasi yang sama yaitu /etc/hadoop di dalam hadoop direktori instalasi dan buat Namenode/Datanode direktori di bawah hadoop direktori home pengguna.

$ mkdir -p hdfs/namenode$ mkdir -p hdfs/datanode
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.name.dir</name>
<value>file:///home/hadoop/hdfs/namenode</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>file:///home/hadoop/hdfs/datanode</value>
</property>
</configuration>
 

Perubahan Konfigurasi pada file mapred-site.xml

Salin mapred-site.xml dari mapred-site.xml.template menggunakan cp perintah dan kemudian edit mapred-site.xml ditempatkan di /etc/hadoop di bawah hadoop direktori instilasi dengan perubahan berikut.

$ cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
 

Perubahan Konfigurasi pada file yarn-site.xml

Edit yarn-site.xml dengan entri berikut.

<configuration>
<property>
<name>mapreduceyarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
 

Memulai Kluster Hadoop

Format namenode sebelum menggunakannya untuk pertama kali. Sebagai pengguna hadoop jalankan perintah di bawah ini untuk memformat Namenode.

$ hdfs namenode -format
[hadoop@hadoop ~]$ hdfs namenode -format19/04/13 11:54:10 INFO namenode.NameNode:STARTUP_MSG:/******************* *****************************************STARTUP_MSG:Memulai NameNodeSTARTUP_MSG:user =hadoopSTARTUP_MSG:host =hadoop.sandbox.com/192.168.1.108STARTUP_MSG:args =[-format]STARTUP_MSG:versi =2.8.519/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.threshold-pct =0.999000012874603319/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.min.datanodes =019/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.extension =3000019/ 13/04 11:54:18 INFO metrics.TopMetrics:NNTKonf atas:dfs.namenode.top.window.num.buckets =1019/04/13 11:54:18 INFO metrics.TopMetrics:NNTKonf atas:dfs.namenode. top.num.users =1019/04/13 11:54:18 INFO metrics.TopMetrics:NNTop conf:dfs.namenode.top.windows.minutes =1,5,2519/04/13 11:54:18 INFO namenode .FSNamesystem:Coba lagi cache pada namenode diaktifkan19/04/13 11:54:18 INFO namenode.FS Sistem nama:Coba lagi cache akan menggunakan 0,03 dari total tumpukan dan coba lagi waktu kedaluwarsa entri cache adalah 600000 milis19/04/13 11:54:18 INFO util.GSet:Kapasitas komputasi untuk peta NameNodeRetryCache19/04/13 11:54:18 INFO util. GSet:Jenis VM =64-bit19/04/13 11:54:18 INFO util.GSet:0,029999999329447746% memori maks 966.7 MB =297.0 KB19/04/13 11:54:18 INFO util.GSet:capacity =2^15 =32768 entri19/04/13 11:54:18 INFO namenode.FSImage:Allocated new BlockPoolId:BP-415167234-192.168.1.108-155514205816719/04/13 11:54:18 INFO common.Storage:Storage directory /home/hadoop /hdfs/namenode telah berhasil diformat.19/04/13 11:54:18 INFO namenode.FSImageFormatProtobuf:Menyimpan file gambar /home/hadoop/hdfs/namenode/current/fsimage.ckpt_00000000000000000000 tanpa kompresi19/04/13 11:54:18 INFO namenode.FSImageFormatProtobuf:File gambar /home/hadoop/hdfs/namenode/current/fsimage.ckpt_00000000000000000000 ukuran 323 byte disimpan dalam 0 detik.19/04/13 11:54:18 INFO namenode.NNStorageRetentionM anager:Akan menyimpan 1 gambar dengan txid>=019/04/13 11:54:18 INFO util.ExitUtil:Keluar dengan status 019/04/13 11:54:18 INFO namenode.NameNode:SHUTDOWN_MSG:/*** ************************************************** *******SHUTDOWN_MSG:Mematikan NameNode di hadoop.sandbox.com/192.168.1.108************************* ********************************/

Setelah Namenode diformat, jalankan HDFS menggunakan start-dfs.sh naskah.

$ start-dfs.sh 
[hadoop@hadoop ~]$ start-dfs.shMemulai namenode di [hadoop.sandbox.com]hadoop.sandbox.com:memulai namenode, masuk ke /home/hadoop/hadoop-2.8.5/logs/hadoop- hadoop-namenode-hadoop.sandbox.com.outhadoop.sandbox.com:memulai datanode, masuk ke /home/hadoop/hadoop-2.8.5/logs/hadoop-hadoop-datanode-hadoop.sandbox.com.outMemulai namenode sekunder [ 0.0.0.0]Keaslian host '0.0.0.0 (0.0.0.0)' tidak dapat ditentukan. Sidik jari kunci ECDSA adalah SHA256:e+NfCeK/kvnignWDHgFvIkHjBWwghIIjJkfjygR7NkI.Yakin ingin melanjutkan koneksi (ya/tidak)? yes0.0.0.0:Peringatan:Menambahkan '0.0.0.0' (ECDSA) secara permanen ke daftar host yang [email protected]'s password:0.0.0.0:memulai secondarynamenode, masuk ke /home/hadoop/hadoop- 2.8.5/logs/hadoop-hadoop-secondarynamenode-hadoop.sandbox.com.out

Untuk memulai layanan YARN, Anda perlu menjalankan skrip yarn start yaitu start-yarn.sh

$ start-yarn.sh
[hadoop@hadoop ~]$ start-yarn.shstarting yarn daemonsmulai resourcemanager, masuk ke /home/hadoop/hadoop-2.8.5/logs/yarn-hadoop-resourcemanager-hadoop.sandbox.com.outhadoop.sandbox. com:memulai nodemanager, masuk ke /home/hadoop/hadoop-2.8.5/logs/yarn-hadoop-nodemanager-hadoop.sandbox.com.out

Untuk memverifikasi semua layanan Hadoop/daemon dimulai dengan sukses, Anda dapat menggunakan jps perintah.

$ jps2033 NameNode2340 SecondaryNameNode2566 ResourceManager2983 Jps2139 DataNode2671 NodeManager

Sekarang kita dapat memeriksa versi Hadoop saat ini yang dapat Anda gunakan perintah di bawah ini:

$ versi hadoop

atau

$ versi hdfs
[hadoop@hadoop ~]$ versi hadoopHadoop 2.8.5Subversion https://git-wip-us.Apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d53d3d5f8Dikompilasi oleh jdu pada 2018-09-10T03:protoc 2.5.0Dari sumber dengan checksum 9942ca5c745417c14e318835f420733Perintah ini dijalankan menggunakan /home/hadoop/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.jar[hadoop@hadoop ~]$ versi hdfsHadoop 2.8.5Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d53d3d5f8Dikompilasi oleh jdu pada 10-09-2018T03:32ZDikompilasi dengan protoc 2.5.0Dari sumber dengan checksum 9942cae31885435/wasc42145c31745435/home hadoop/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.jar[hadoop@hadoop ~]$

Antarmuka Baris Perintah HDFS

Untuk mengakses HDFS dan membuat beberapa direktori di atas DFS, Anda dapat menggunakan HDFS CLI.

$ hdfs dfs -mkdir /testdata$ hdfs dfs -mkdir /hadoopdata$ hdfs dfs -ls /
[hadoop@hadoop ~]$ hdfs dfs -ls /Ditemukan 2 itemdrwxr-xr-x - hadoop supergroup 0 2019-04-13 11:58 /hadoopdatadrwxr-xr-x - hadoop supergroup 0 2019-04-13 11 :59 /testdata

Akses Namenode dan YARN dari Browser

Anda dapat mengakses UI Web untuk NameNode dan YARN Resource Manager melalui salah satu browser seperti Google Chrome/Mozilla Firefox.

UI Web Namenode – http://<hadoop cluster hostname/IP address>:50070

Antarmuka Pengguna Web Namenode.

Informasi Detail HDFS.

Penjelajahan Direktori HDFS.

Antarmuka web YARN Resource Manager (RM) akan menampilkan semua pekerjaan yang sedang berjalan di Hadoop Cluster saat ini.

Resource Manager Web UI – http://<hadoop cluster hostname/IP address>:8088

Antarmuka Pengguna Web Manajer Sumber Daya (BENANG).

Kesimpulan

Dunia sedang mengubah cara kerjanya saat ini dan Big-data memainkan peran utama dalam fase ini. Hadoop adalah kerangka kerja yang membuat hidup kita mudah saat mengerjakan kumpulan data yang besar. Ada perbaikan di semua lini. Masa depan itu menyenangkan.


Cent OS
  1. Cara menginstal redmine di RHEL 8 / CentOS 8 Linux

  2. Cara menginstal server DNS di RHEL 8 / CentOS 8 Linux

  3. Cara Instal PostgreSQL di CentOS 8 / Rocky Linux 8 / RHEL 8

  1. Cara menginstal Perl di RHEL 8 / CentOS 8 Linux

  2. Cara install apache tomcat di linux RHEL 8 / CentOS 8

  3. Cara menginstal node.js di RHEL 8 / CentOS 8 Linux

  1. Cara Menginstal Xdebug di RHEL 8 / CentOS 8 Linux

  2. Cara menginstal asterisk di RHEL 8 / CentOS 8 Linux

  3. Cara menginstal Apache di RHEL 8 / CentOS 8 Linux