Solusi 1:
Kemungkinan taruhan terbaik Anda adalah masalah perangkat keras di antara disk Anda dan hingga dan termasuk pengontrol sas raid Anda. Saya sarankan mencoba:
- Jalankan alat diagnostik apa pun dari vendor jika tersedia
- Periksa/pasang kembali/ganti kabel
- hapus komponen perangkat keras dan tukar perangkat keras dalam rantai yang menghubungkan disk ke pengontrol serangan Anda, termasuk pengontrol itu sendiri (yaitu, untuk Anda, coba sesuatu yang lain selain serangan terintegrasi motherboard).
Saya memiliki satu dari dua Dell PowerEdge R515 identik yang memberikan pesan yang sangat mirip (log secara berkala diisi dengan pesan mpt2sas0, meskipun saya tidak memiliki kode numerik yang tepat). Diagnostik yang dapat di-boot Dell sendiri mengambil ini sebagai "kesalahan perangkat keras" dan mengganti bidang belakang RAID sas memecahkan masalah.
Ketika saya sedang menyelidiki, saya tidak dapat menemukan sumber yang komprehensif tentang arti berbagai kode kesalahan mpt2sas0. Saya curiga mereka bahkan mungkin khusus vendor perangkat keras (seseorang yang tahu lebih banyak tentang SAS perlu mengonfirmasi atau menyangkal hal ini). Jadi kode kesalahan Anda bisa berarti sesuatu yang sangat berbeda, tetapi jika SMART bersih, sulit membayangkan alasan bagus lainnya untuk mpt2sas0 melaporkan kode kesalahan.
Kesalahan ini bisa sangat serius. R515 saya bekerja dengan baik dengan pesan-pesan ini selama seminggu dengan serangan perangkat lunak Linux Ubuntu 12 disk 6, tetapi kemudian tiba-tiba mengeluarkan semua 12 disk dari array sebagai rusak (!)
Juga dalam kasus saya SMART untuk semua disk benar-benar bersih. Pemeriksaan yang baik adalah tes diagnostik mandiri yang cerdas:smartctl -t long /dev/sdX
, lalu periksa hasilnya sekitar satu hari kemudian dengan smartctl -l selftest /dev/sdX
. Jika semuanya baik-baik saja, tes harus mengatakan Completed
dan LBA_first_err
kolom harus kosong.
Solusi 2:
Wow, yang sulit.
Ini sepertinya menunjukkan bahwa 0x31120303 adalah bus reset karena salah satu perangkat Anda berada di bawah beban berat. Ia juga mengatakan Anda tidak perlu khawatir tentang hal itu. (Haha, ya benar.)
Ini menunjukkan bahwa pesan log ini terjadi karena salah satu perangkat Anda terlalu lama merespons perintah. Ini mengatakan hal yang sama, dan juga menunjukkan itu terjadi di bawah beban berat.
Meskipun ini bukan jawaban yang lengkap, mudah-mudahan ini akan mengarahkan Anda ke arah yang berguna.