Bagaimana menginterpretasikan data smartctl (smartmon) ini

Solusi 1:

Untuk disk Seagate (dan mungkin beberapa disk lama dari WD juga), Seek_Error_Rate dan Raw_Read_Error_Rate adalah angka 48 bit, di mana 16 bit paling signifikan adalah hitungan kesalahan, dan 32 bit rendah adalah angka operasi.

% python
>>> 200009354607 & 0xFFFFFFFF
2440858991
>>> (200009354607 & 0xFFFF00000000) >> 32
46

Jadi disk Anda telah melakukan 2440858991 pencarian, 46 di antaranya gagal. Pengalaman saya dengan hard disk Seagate adalah hard disk tersebut cenderung gagal saat jumlah kesalahan melebihi 1000. YMMV.

Solusi 2:

RAW_VALUES "tingkat kesalahan pencarian" dan "tingkat kesalahan pembacaan mentah" hampir tidak ada artinya bagi siapa pun kecuali dukungan Seagate. Seperti yang ditunjukkan orang lain, nilai mentah parameter seperti "hitungan sektor yang dialokasikan kembali" atau entri dalam log kesalahan drive lebih cenderung menunjukkan kemungkinan kegagalan yang lebih tinggi.

Namun Anda dapat melihat data yang ditafsirkan di kolom VALUE, WORST, dan THRESH yang dimaksudkan untuk dibaca sebagai pengukur:

ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH
  7 Seek_Error_Rate         0x000f   077   060   030

Berarti tingkat kesalahan pencarian Anda saat ini dianggap "77% baik" dan dilaporkan sebagai masalah oleh SMART saat mencapai "30% baik". Itu pernah serendah "60% bagus", tetapi secara ajaib pulih sejak itu. Perhatikan bahwa nilai yang ditafsirkan dihitung oleh logika SMART drive secara internal dan perhitungan persisnya mungkin atau mungkin tidak dipublikasikan oleh produsen dan biasanya tidak dapat disesuaikan oleh pengguna.

Secara pribadi, saya menganggap drive yang berisi entri log kesalahan sebagai "gagal" dan mendesak penggantian segera setelah terjadi. Namun secara keseluruhan, data SMART ternyata menjadi indikator yang agak lemah untuk prediksi kegagalan, seperti yang diungkapkan oleh sebuah makalah penelitian yang diterbitkan oleh Google.

Solusi 3:

Menurut pengalaman saya, Seagate memiliki angka aneh untuk kedua atribut SMART tersebut. Saat mendiagnosis Seagate, saya cenderung mengabaikannya dan melihat lebih dekat bidang lain seperti Jumlah Sektor yang Dialokasikan Kembali. Tentu saja, jika ragu, ganti hard disk, tetapi bahkan Seagate baru akan memiliki angka yang tinggi untuk atribut tersebut.

Solusi 4:

Saya menyadari diskusi ini agak lama tetapi ingin menambahkan 2 sen saya. Saya telah menemukan informasi cerdas sebagai indikator pra-gagal yang cukup baik. Ketika Anda mendapatkan ambang batas yang cerdas, ganti drive. Itulah gunanya ambang tersebut.

Sebagian besar waktu Anda akan mulai melihat bad sector. Itu adalah tanda pasti drive mulai gagal. SMART telah menyelamatkan saya berkali-kali. Saya menggunakan perangkat lunak RAID 1 dan ini sangat membantu karena Anda cukup mengganti drive yang gagal dan membangun kembali susunannya.

Saya juga menjalankan tes mandiri pendek dan panjang setiap minggu.

smartctl -t short /dev/sda
smartctl -t long /dev/sda

Atau tambahkan /etc/smartd.conf dan kirimkan ke email Anda jika ada kesalahan

/dev/sda -s L/../../3/22 -I 194 -m example@unixlinux.onlineomedomain
/dev/sdb -s L/../../7/22 -I 194 -m example@unixlinux.online

Pastikan untuk menginstal logwatch dan redirect root ke alamat email dan periksa email harian dari logwatch. Bendera tersandung SMARTD akan muncul di sana tetapi tidak ada gunanya jika tidak ada yang memantaunya secara rutin.

Solusi 5:

Maaf telah melakukan necromancy pada posting ini, tetapi menurut pengalaman saya, kolom "Raw Read Error Rate" dan "Hardware ECC Recovered" untuk hard disk Seagate secara harfiah akan ke mana-mana dan meningkat terus-menerus ke kisaran triliunan di mana mereka akan berputar kembali ke nol untuk melanjutkan proses lagi. Saya memiliki Seagate ST9750420AS yang mengalami masalah tersebut sejak hari pertama dan masih berfungsi dengan baik bahkan setelah beberapa tahun dan penggunaan selama 3500+ jam.

Saya pikir bidang tersebut dapat diabaikan dengan aman jika Anda menjalankannya dalam kasus Anda. Pastikan saja kedua bidang tersebut melaporkan nomor yang sama dan selalu sinkron. Jika mereka tidak... yah... Itu mungkin berarti masalah.

Mengapa wget tidak memverifikasi sertifikat SSL? Bagaimana cara membangunkan server setelah UPS Mematikannya saat daya listrik dipulihkan?

Linux