How-to ini menjelaskan cara mengganti drive yang gagal pada RAID perangkat lunak yang dikelola oleh mdadm
kegunaan. Untuk mengganti drive RAID 6 yang gagal di mdadm
:
- Identifikasi masalahnya.
- Dapatkan detail dari larik RAID.
- Hapus disk yang gagal dari larik RAID.
- Matikan mesin dan ganti disk.
- Partisi disk baru.
- Tambahkan disk baru ke larik RAID.
- Verifikasi pemulihan.
Mari kita lihat proses ini lebih detail dengan melihat contoh.
Identifikasi masalahnya
Untuk mengidentifikasi disk mana yang gagal dalam larik RAID, jalankan:
[root@server loc]# cat /proc/mdadm
Atau:
[root@server loc]# mdadm -–query -–detail /dev/md2
Disk yang gagal akan muncul sebagai gagal atau dihapus . Misalnya:
[root@server loc]# mdadm -–query -–detail /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Mon Jun 22 08:47:09 2015
Raid Level : raid6
Array Size : 5819252736 (5549.67 GiB 5958.91 GB)
Used Dev Size : 2909626368 (2774.84 GiB 2979.46 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Mon Oct 15 11:55:06 2018
State : clean, degraded, recovering
Active Devices : 3
Working Devices : 4
Failed Devices : 0
Spare Devices : 1
Layout : left-symmetric
Chunk Size : 512K
Consistency Policy : bitmap
Rebuild Status : 3% complete
Name : localhost.localdomain:2
UUID : 54404ab5:4450e4f3:aba6c1fb:93a4087e
Events : 1046292
Number Major Minor Raid Device State
0 0 0 0 removed
1 8 36 1 active sync /dev/sdc4
2 8 52 2 active sync /dev/sdd4
3 8 68 3 active sync /dev/sde4
Dapatkan detail dari larik RAID
Untuk memeriksa status larik RAID dan mengidentifikasi status disk dalam RAID:
[root@server loc]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md2 : active raid6 sdb4[4](F) sdd4[2] sdc4[1] sde4[3]
5819252736 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/3] [_UUU]
[>………………..] recovery = 3.4% (100650992/2909626368) finish=471.5min speed=99278K/sec
bitmap: 2/22 pages [8KB], 65536KB chunk
unused devices: <none>
Seperti yang bisa kita lihat, perangkat /dev/sdb4
telah gagal dalam RAID.
Karena kami mengidentifikasi bahwa disk yang gagal adalah /dev/sdb4
(yang terjadi di server ini), kita perlu mendapatkan nomor seri disk menggunakan smartctl
:
[root@server loc]# smartctl -–all /dev/sdb | grep -i 'Serial'
Perintah di atas penting karena Anda perlu mengetahui disk apa yang harus dihapus dari server, sesuai dengan label fisik disk.
Hapus disk yang gagal dari larik RAID
Penting untuk menghapus disk yang gagal dari larik sehingga larik mempertahankan status yang konsisten dan mengetahui setiap perubahan, seperti:
[root@server loc]# mdadm -–manage /dev/md2 -–remove /dev/sdb4
Saat penghapusan berhasil, pesan seperti berikut akan muncul:
[root@server loc]# mdadm: hot removed /dev/sdb4 from /dev/md2
Periksa status /proc/mdstat
sekali lagi:
[root@server loc]# cat /proc/mdstat
Anda dapat melihat bahwa /dev/sdb4
tidak lagi terlihat.
Matikan mesin dan ganti disk
Sekarang saatnya untuk mematikan sistem dan mengganti disk yang rusak dengan yang baru, tetapi sebelum mematikan sistem, beri komentar /dev/md2
dari /etc/fstab
your Anda mengajukan. Lihat contoh di bawah ini:
[root@server loc]# cat /etc/fstab
#
# /etc/fstab
# Created by anaconda on Fri May 20 13:12:25 2016
#
# Accessible filesystems, by reference, are maintained under ‘/dev/disk’
# See man pages fstab(5), findfs(8), mount(8) and/or blkid(8) for more info
#
/dev/mapper/centos-root / xfs defaults 0 0
UUID=1300b86d-2638-4a9f-b366-c5e67e9ffa4e /boot xfs defaults 0 0
#/dev/mapper/centos-home /home xfs defaults 0 0
/dev/mapper/centos-swap swap swap defaults 0 0
#/dev/md2 /var/loc xfs defaults 0 0
Partisi disk baru
Karena kami memiliki disk kerja lain dalam larik RAID, mudah dan nyaman untuk menyalin skema partisi disk yang berfungsi ke disk baru. Tugas ini diselesaikan dengan sgdisk
utilitas, yang disediakan oleh gdisk
kemasan.
Instal gdisk
seperti ini (sesuaikan perintah ini untuk distribusi Anda):
[root@server loc]# yum install gdisk
Menggunakan gdisk
, pertama-tama kita akan melewati -R
pilihan (singkatan dari Replika). Pastikan Anda meniru skema partisi dari disk yang berfungsi. Penting bahwa Anda menggunakan urutan disk yang benar untuk mereplikasi skema partisi dari disk yang berfungsi ke yang baru. Dalam situasi kami, pada disk baru adalah /dev/sdb
dan disk yang berfungsi adalah /dev/sdc
, /dev/sdd
, /dev/sde
.
Sekarang, untuk mereplikasi skema partisi dari disk yang berfungsi (misalnya /dev/sdc
) ke disk baru /dev/sdb
, perintah berikut diperlukan:
[root@server loc]# sgdisk -R /dev/sdb /dev/sdc
Untuk mencegah konflik GUID dengan drive lain, kami perlu mengacak GUID drive baru menggunakan:
[root@server loc]# sgdisk -G /dev/sdb
The operation has completed successfully.
Selanjutnya, verifikasi output /dev/sdb menggunakan parted
utilitas:
[root@server loc]# parted /dev/sdb print
Tambahkan disk baru ke larik RAID
Setelah menyelesaikan replikasi skema partisi ke drive baru, sekarang kita dapat menambahkan drive ke larik RAID:
[root@server loc]# mdadm -–manage /dev/md2 -–add /dev/sdb4
mdadm: added /dev/sdb4
Verifikasi pemulihan
Untuk memverifikasi pemulihan RAID, gunakan yang berikut:
[root@server loc]# cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4]
md2 : active raid6 sdb4[4] sdd4[2] sdc4[1] sde4[3]
5819252736 blocks super 1.2 level 6, 512k chunk, algorithm 2 [4/3] [_UUU]
[==>………………] recovery = 12.2% (357590568/2909626368) finish=424.1min speed=100283K/sec
bitmap: 0/22 pages [0KB], 65536KB chunk
unused devices: <none>
Atau:
[root@server loc]# mdadm -–query -–detail /dev/md2
/dev/md2:
Version : 1.2
Creation Time : Mon Jun 22 08:47:09 2015
Raid Level : raid6
Array Size : 5819252736 (5549.67 GiB 5958.91 GB)
Used Dev Size : 2909626368 (2774.84 GiB 2979.46 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Mon Oct 15 12:37:37 2018
State : clean, degraded, recovering
Active Devices : 3
Working Devices : 4
Failed Devices : 0
Spare Devices : 1
Layout : left-symmetric
Chunk Size : 512K
Consistency Policy : bitmap
Rebuild Status : 12% complete
Name : localhost.localdomain:2
UUID : 54404ab5:4450e4f3:aba6c1fb:93a4087e
Events : 1046749
Number Major Minor Raid Device State
4 8 20 0 spare rebuilding /dev/sdb4
1 8 36 1 active sync /dev/sdc4
2 8 52 2 active sync /dev/sdd4
3 8 68 3 active sync /dev/sde4
Dari output di atas, sekarang kita melihat bahwa /dev/sdb4
sedang membangun kembali, dan empat perangkat yang berfungsi dan aktif tersedia. Proses pembuatan ulang mungkin memakan waktu cukup lama, bergantung pada ukuran total disk dan jenis disk Anda (yaitu, tradisional atau solid-state).
Rayakan
Anda sekarang telah berhasil mengganti drive RAID 6 yang gagal dengan mdadm
. Mudah-mudahan, Anda tidak perlu melakukan ini, tetapi perangkat keras gagal. Kemungkinannya adalah jika Anda menggunakan RAID 6, itu akan terjadi pada akhirnya. Jika Anda bisa, siapkan lab, paksa RAID 6 agar gagal di dalamnya, lalu pulihkan. Mengetahui bagaimana mengatasi masalah akan membuat pengalaman ketika hal yang tidak terpikirkan terjadi jauh lebih sedikit stres.