Apache Hadoop adalah kerangka kerja sumber terbuka yang digunakan untuk penyimpanan terdistribusi serta pemrosesan data besar terdistribusi pada kelompok komputer yang berjalan pada perangkat keras komoditas. Hadoop menyimpan data di Hadoop Distributed File System (HDFS) dan pemrosesan data ini dilakukan menggunakan MapReduce. YARN menyediakan API untuk meminta dan mengalokasikan sumber daya di cluster Hadoop.
Kerangka kerja Apache Hadoop terdiri dari modul-modul berikut:
- Hadoop Umum
- Sistem File Terdistribusi Hadoop (HDFS)
- BENANG
- Pengurangan Peta
Artikel ini menjelaskan cara menginstal Hadoop Versi 2 pada RHEL 8 atau CentOS 8. Kami akan menginstal HDFS (Namenode dan Datanode), YARN, MapReduce pada cluster node tunggal dalam Mode Terdistribusi Pseudo yang merupakan simulasi terdistribusi pada satu mesin. Setiap daemon Hadoop seperti hdfs, yarn, mapreduce, dll. akan berjalan sebagai proses java terpisah/individu.
Dalam tutorial ini Anda akan mempelajari:
- Cara menambahkan pengguna untuk Lingkungan Hadoop
- Cara menginstal dan mengkonfigurasi Oracle JDK
- Cara mengonfigurasi SSH tanpa kata sandi
- Cara menginstal Hadoop dan mengonfigurasi file xml terkait yang diperlukan
- Cara memulai Kluster Hadoop
- Cara mengakses NameNode dan ResourceManager Web UI
Arsitektur HDFS.
Persyaratan dan Konvensi Perangkat Lunak yang Digunakan
Kategori | Persyaratan, Konvensi, atau Versi Perangkat Lunak yang Digunakan |
---|---|
Sistem | RHEL 8 / CentOS 8 |
Perangkat Lunak | Hadoop 2.8.5, Oracle JDK 1.8 |
Lainnya | Akses istimewa ke sistem Linux Anda sebagai root atau melalui sudo perintah. |
Konvensi | # – membutuhkan perintah linux yang diberikan untuk dieksekusi dengan hak akses root baik secara langsung sebagai pengguna root atau dengan menggunakan sudo perintah$ – membutuhkan perintah linux yang diberikan untuk dieksekusi sebagai pengguna biasa yang tidak memiliki hak istimewa |
Tambahkan pengguna untuk Lingkungan Hadoop
Buat pengguna dan grup baru menggunakan perintah:
# useradd hadoop# passwd hadoop
[root@hadoop ~]# useradd hadoop[root@hadoop ~]# passwd hadoopMengubah kata sandi untuk hadoop pengguna. Kata sandi baru:Ketik ulang kata sandi baru:passwd:semua token otentikasi berhasil diperbarui.[root@hadoop ~]# cat / dll/passwd | grep hadoophadoop:x:1000:1000::/home/hadoop:/bin/bash
Instal dan konfigurasikan Oracle JDK
Unduh dan instal paket resmi jdk-8u202-linux-x64.rpm untuk menginstal Oracle JDK.
[root@hadoop ~]# rpm -ivh jdk-8u202-linux-x64.rpmwarning:jdk-8u202-linux-x64.rpm:Header V3 RSA/SHA256 Tanda tangan, ID kunci ec551f03:NOKEYVerifying... ## ############################## [100%]Mempersiapkan... ########### ###################### [100%]Memperbarui / menginstal... 1:jdk1.8-2000:1.8.0_202-fcs ##### ############################ [100%]Membongkar file JAR... tools.jar... plugin.jar... javaws.jar... deploy.jar... rt.jar... jsse.jar... charsets.jar... localedata.jar...
Setelah instalasi untuk memverifikasi java telah berhasil dikonfigurasi, jalankan perintah berikut:
[root@hadoop ~]# java -versionjava versi "1.8.0_202"Java(TM) SE Runtime Environment (build 1.8.0_202-b08)Java HotSpot(TM) 64-Bit Server VM (build 25.202-b08, mode campuran)[root@hadoop ~]# update-alternatives --config javaAda 1 program yang menyediakan 'java'. Perintah Seleksi ---------------------------------------------* + 1 /usr/java/jdk1.8.0_202-amd64/jre/bin/java
Konfigurasikan SSH tanpa kata sandi
Instal Open SSH Server dan Open SSH Client atau jika sudah terinstal maka akan menampilkan paket-paket di bawah ini.
[root@hadoop ~]# rpm -qa | grep openssh*openssh-server-7.8p1-3.el8.x86_64openssl-libs-1.1.1-6.el8.x86_64openssl-1.1.1-6.el8.x86_64openssh-clients-7.8p1-3.el8.x86_64openssh-7.8 p1-3.el8.x86_64openssl-pkcs11-0.4.8-2.el8.x86_64
Hasilkan Pasangan Kunci Publik dan Pribadi dengan perintah berikut. Terminal akan meminta untuk memasukkan nama file. Tekan ENTER
dan lanjutkan. Setelah itu salin formulir kunci publik id_rsa.pub
ke authorized_keys
.
$ ssh-keygen -t rsa$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys$ chmod 640 ~/.ssh/authorized_keys
[hadoop@hadoop ~]$ ssh-keygen -t rsaGenerating public/private rsa key pair.Masukkan file untuk menyimpan kunci (/home/hadoop/.ssh/id_rsa):Direktori yang dibuat '/home/hadoop /.ssh'.Masukkan frasa sandi (kosongkan tanpa frasa sandi):Masukkan kembali frasa sandi yang sama:Identifikasi Anda telah disimpan di /home/hadoop/.ssh/id_rsa.Kunci publik Anda telah disimpan di /home/hadoop/.ssh/ id_rsa.pub.Sidik jari kuncinya adalah:SHA256:H+LLPkaJJDD7B0f0Je/NFJRP5/FUeJswMmZpJFXoelg [email protected] randomart kuncinya adalah:+---[RSA 2048]----+| .. ..++*o .o|| o .. +.O.+o.+|| + . . * +oo==|| . o o . E .oo|| . =.S.* o || . o.o=o || . .. o || .Hai. || o+. |+----[SHA256]-----+[hadoop@hadoop ~]$ cat ~/.ssh/id_rsa.pub>> ~/.ssh/authorized_keys[hadoop@hadoop ~]$ chmod 640 ~/ .ssh/authorized_keys
Verifikasi konfigurasi ssh tanpa kata sandi dengan perintah :
$ ssh
[hadoop@hadoop ~]$ ssh hadoop.sandbox.comKonsol web:https://hadoop.sandbox.com:9090/ atau https://192.168.1.108:9090/Login terakhir:Sabtu 13 Apr 12:09 :55 2019[hadoop@hadoop ~]$
Instal Hadoop dan konfigurasikan file xml terkait
Unduh dan ekstrak Hadoop 2.8.5 dari situs web resmi Apache.
# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz# tar -xzvf hadoop-2.8.5.tar.gz[root@rhel8-sandbox ~]# wget https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gz--2019-04- 13 11:14:03-- https://archive.apache.org/dist/hadoop/common/hadoop-2.8.5/hadoop-2.8.5.tar.gzResolving archive.apache.org (archive.apache.org )... 163.172.17.199Menghubungkan ke archive.apache.org (archive.apache.org)|163.172.17.199|:443... terhubung.Permintaan HTTP terkirim, menunggu tanggapan... 200 OKPanjang:246543928 (235M) [ application/x-gzip]Menyimpan ke:'hadoop-2.8.5.tar.gz'hadoop-2.8.5.tar.gz 100%[=====================================================================================>] 235,12 juta 1,47 MB/dtk dalam 2 menit 53 detik2019-04-13 11:16:57 (1,36 MB/dtk) - 'hadoop-2,8.5 .tar.gz' disimpan [246543928/246543928]Menyiapkan variabel lingkungan
Edit
bashrc
untuk pengguna Hadoop melalui pengaturan variabel lingkungan Hadoop berikut:export HADOOP_HOME=/home/hadoop/hadoop-2.8.5 export HADOOP_INSTALL=$HADOOP_HOME export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native"
Sumber
.bashrc
dalam sesi login saat ini.$ source ~/.bashrcEdit
hadoop-env.sh
file yang ada di/etc/hadoop
di dalam direktori instalasi Hadoop dan buat perubahan berikut dan periksa apakah Anda ingin mengubah konfigurasi lainnya.export JAVA_HOME=${JAVA_HOME:-"/usr/java/jdk1.8.0_202-amd64"} export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/home/hadoop/hadoop-2.8.5/etc/hadoop"}
Perubahan Konfigurasi dalam file core-site.xml
Edit
core-site.xml
dengan vim atau Anda dapat menggunakan salah satu editor. File berada di bawah/etc/hadoop
di dalamhadoop
direktori home dan tambahkan entri berikut.<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://hadoop.sandbox.com:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop/hadooptmpdata</value> </property> </configuration>
Selain itu, buat direktori di bawah
hadoop
folder rumah.$ mkdir hadooptmpdataPerubahan Konfigurasi pada file hdfs-site.xml
Edit
hdfs-site.xml
yang ada di bawah lokasi yang sama yaitu/etc/hadoop
di dalamhadoop
direktori instalasi dan buatNamenode/Datanode
direktori di bawahhadoop
direktori home pengguna.$ mkdir -p hdfs/namenode$ mkdir -p hdfs/datanode<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.name.dir</name> <value>file:///home/hadoop/hdfs/namenode</value> </property> <property> <name>dfs.data.dir</name> <value>file:///home/hadoop/hdfs/datanode</value> </property> </configuration>
Perubahan Konfigurasi pada file mapred-site.xml
Salin
mapred-site.xml
darimapred-site.xml.template
menggunakancp
perintah dan kemudian editmapred-site.xml
ditempatkan di/etc/hadoop
di bawahhadoop
direktori instilasi dengan perubahan berikut.$ cp mapred-site.xml.template mapred-site.xml<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
Perubahan Konfigurasi pada file yarn-site.xml
Edit
yarn-site.xml
dengan entri berikut.<configuration> <property> <name>mapreduceyarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>
Memulai Kluster Hadoop
Format namenode sebelum menggunakannya untuk pertama kali. Sebagai pengguna hadoop jalankan perintah di bawah ini untuk memformat Namenode.
$ hdfs namenode -format[hadoop@hadoop ~]$ hdfs namenode -format19/04/13 11:54:10 INFO namenode.NameNode:STARTUP_MSG:/******************* *****************************************STARTUP_MSG:Memulai NameNodeSTARTUP_MSG:user =hadoopSTARTUP_MSG:host =hadoop.sandbox.com/192.168.1.108STARTUP_MSG:args =[-format]STARTUP_MSG:versi =2.8.519/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.threshold-pct =0.999000012874603319/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.min.datanodes =019/04/13 11:54:17 INFO namenode.FSNamesystem:dfs.namenode.safemode.extension =3000019/ 13/04 11:54:18 INFO metrics.TopMetrics:NNTKonf atas:dfs.namenode.top.window.num.buckets =1019/04/13 11:54:18 INFO metrics.TopMetrics:NNTKonf atas:dfs.namenode. top.num.users =1019/04/13 11:54:18 INFO metrics.TopMetrics:NNTop conf:dfs.namenode.top.windows.minutes =1,5,2519/04/13 11:54:18 INFO namenode .FSNamesystem:Coba lagi cache pada namenode diaktifkan19/04/13 11:54:18 INFO namenode.FS Sistem nama:Coba lagi cache akan menggunakan 0,03 dari total tumpukan dan coba lagi waktu kedaluwarsa entri cache adalah 600000 milis19/04/13 11:54:18 INFO util.GSet:Kapasitas komputasi untuk peta NameNodeRetryCache19/04/13 11:54:18 INFO util. GSet:Jenis VM =64-bit19/04/13 11:54:18 INFO util.GSet:0,029999999329447746% memori maks 966.7 MB =297.0 KB19/04/13 11:54:18 INFO util.GSet:capacity =2^15 =32768 entri19/04/13 11:54:18 INFO namenode.FSImage:Allocated new BlockPoolId:BP-415167234-192.168.1.108-155514205816719/04/13 11:54:18 INFO common.Storage:Storage directory /home/hadoop /hdfs/namenode telah berhasil diformat.19/04/13 11:54:18 INFO namenode.FSImageFormatProtobuf:Menyimpan file gambar /home/hadoop/hdfs/namenode/current/fsimage.ckpt_00000000000000000000 tanpa kompresi19/04/13 11:54:18 INFO namenode.FSImageFormatProtobuf:File gambar /home/hadoop/hdfs/namenode/current/fsimage.ckpt_00000000000000000000 ukuran 323 byte disimpan dalam 0 detik.19/04/13 11:54:18 INFO namenode.NNStorageRetentionM anager:Akan menyimpan 1 gambar dengan txid>=019/04/13 11:54:18 INFO util.ExitUtil:Keluar dengan status 019/04/13 11:54:18 INFO namenode.NameNode:SHUTDOWN_MSG:/*** ************************************************** *******SHUTDOWN_MSG:Mematikan NameNode di hadoop.sandbox.com/192.168.1.108************************* ********************************/Setelah Namenode diformat, jalankan HDFS menggunakan
start-dfs.sh
naskah.$ start-dfs.sh[hadoop@hadoop ~]$ start-dfs.shMemulai namenode di [hadoop.sandbox.com]hadoop.sandbox.com:memulai namenode, masuk ke /home/hadoop/hadoop-2.8.5/logs/hadoop- hadoop-namenode-hadoop.sandbox.com.outhadoop.sandbox.com:memulai datanode, masuk ke /home/hadoop/hadoop-2.8.5/logs/hadoop-hadoop-datanode-hadoop.sandbox.com.outMemulai namenode sekunder [ 0.0.0.0]Keaslian host '0.0.0.0 (0.0.0.0)' tidak dapat ditentukan. Sidik jari kunci ECDSA adalah SHA256:e+NfCeK/kvnignWDHgFvIkHjBWwghIIjJkfjygR7NkI.Yakin ingin melanjutkan koneksi (ya/tidak)? yes0.0.0.0:Peringatan:Menambahkan '0.0.0.0' (ECDSA) secara permanen ke daftar host yang [email protected]'s password:0.0.0.0:memulai secondarynamenode, masuk ke /home/hadoop/hadoop- 2.8.5/logs/hadoop-hadoop-secondarynamenode-hadoop.sandbox.com.outUntuk memulai layanan YARN, Anda perlu menjalankan skrip yarn start yaitu
start-yarn.sh
$ start-yarn.sh[hadoop@hadoop ~]$ start-yarn.shstarting yarn daemonsmulai resourcemanager, masuk ke /home/hadoop/hadoop-2.8.5/logs/yarn-hadoop-resourcemanager-hadoop.sandbox.com.outhadoop.sandbox. com:memulai nodemanager, masuk ke /home/hadoop/hadoop-2.8.5/logs/yarn-hadoop-nodemanager-hadoop.sandbox.com.outUntuk memverifikasi semua layanan Hadoop/daemon dimulai dengan sukses, Anda dapat menggunakan
jps
perintah.$ jps2033 NameNode2340 SecondaryNameNode2566 ResourceManager2983 Jps2139 DataNode2671 NodeManagerSekarang kita dapat memeriksa versi Hadoop saat ini yang dapat Anda gunakan perintah di bawah ini:
$ versi hadoopatau
$ versi hdfs[hadoop@hadoop ~]$ versi hadoopHadoop 2.8.5Subversion https://git-wip-us.Apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d53d3d5f8Dikompilasi oleh jdu pada 2018-09-10T03:protoc 2.5.0Dari sumber dengan checksum 9942ca5c745417c14e318835f420733Perintah ini dijalankan menggunakan /home/hadoop/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.jar[hadoop@hadoop ~]$ versi hdfsHadoop 2.8.5Subversion https://git-wip-us.apache.org/repos/asf/hadoop.git -r 0b8464d75227fcee2c6e7f2410377b3d53d3d5f8Dikompilasi oleh jdu pada 10-09-2018T03:32ZDikompilasi dengan protoc 2.5.0Dari sumber dengan checksum 9942cae31885435/wasc42145c31745435/home hadoop/hadoop-2.8.5/share/hadoop/common/hadoop-common-2.8.5.jar[hadoop@hadoop ~]$Antarmuka Baris Perintah HDFS
Untuk mengakses HDFS dan membuat beberapa direktori di atas DFS, Anda dapat menggunakan HDFS CLI.
$ hdfs dfs -mkdir /testdata$ hdfs dfs -mkdir /hadoopdata$ hdfs dfs -ls /[hadoop@hadoop ~]$ hdfs dfs -ls /Ditemukan 2 itemdrwxr-xr-x - hadoop supergroup 0 2019-04-13 11:58 /hadoopdatadrwxr-xr-x - hadoop supergroup 0 2019-04-13 11 :59 /testdataAkses Namenode dan YARN dari Browser
Anda dapat mengakses UI Web untuk NameNode dan YARN Resource Manager melalui salah satu browser seperti Google Chrome/Mozilla Firefox.
UI Web Namenode –
Antarmuka Pengguna Web Namenode. Informasi Detail HDFS. Penjelajahan Direktori HDFS.http://<hadoop cluster hostname/IP address>:50070
Antarmuka web YARN Resource Manager (RM) akan menampilkan semua pekerjaan yang sedang berjalan di Hadoop Cluster saat ini.
Resource Manager Web UI –
Antarmuka Pengguna Web Manajer Sumber Daya (BENANG).http://<hadoop cluster hostname/IP address>:8088
Kesimpulan
Dunia sedang mengubah cara kerjanya saat ini dan Big-data memainkan peran utama dalam fase ini. Hadoop adalah kerangka kerja yang membuat hidup kita mudah saat mengerjakan kumpulan data yang besar. Ada perbaikan di semua lini. Masa depan itu menyenangkan.
Cara menginstal redmine di RHEL 8 / CentOS 8 Linux Cara menginstal dan mengatur layanan contoh dengan xinetd di RHEL 8 / CentOS 8 LinuxCent OS