Solusi 1:
Waktu fsck default 180 hari adalah solusi untuk cacat desain yang ext3 tidak mendukung pemeriksaan konsistensi online. Solusi sebenarnya adalah menemukan sistem file yang mendukung ini. Saya tidak tahu apakah ada sistem file dewasa yang melakukannya. Ini benar-benar tragedi. Mungkin btrfs akan menyelamatkan kita suatu hari nanti.
Saya telah menanggapi masalah kejutan downtime multi-jam dari fsck dengan melakukan reboot terjadwal dengan fsck penuh sebagai bagian dari pemeliharaan standar. Ini lebih baik daripada mengalami kerusakan kecil selama jam produksi, dan mengubahnya menjadi gangguan yang nyata.
Sebagian besar masalahnya adalah ext3 memiliki fsck yang terlalu lambat. Meskipun xfs memiliki fsck yang jauh lebih cepat, xfs menggunakan terlalu banyak memori untuk distribusi untuk mendorong xfs secara default pada sistem file besar. Namun, pada sebagian besar sistem ini bukan masalah. Beralih ke xfs setidaknya memungkinkan fsck yang cukup cepat. Ini dapat membuat menjalankan fsck sebagai bagian dari pemeliharaan normal lebih mudah dijadwalkan.
Jika Anda menjalankan RedHat dan mempertimbangkan untuk menggunakan xfs, Anda harus berhati-hati terhadap seberapa kuat mereka tidak menganjurkan penggunaan xfs dan fakta bahwa mungkin hanya sedikit orang yang menggunakan xfs pada kernel yang Anda jalankan.
Pemahaman saya adalah bahwa proyek ext4 memiliki tujuan untuk setidaknya meningkatkan kinerja fsck.
Solusi 2:
Saya akan mengatakan bahwa ini hanyalah alasan lain mengapa server produksi tidak boleh berjalan sendirian dan selalu memiliki cadangan panas/dingin atau mengambil bagian dalam cluster dua node. Di hari-hari virtualisasi ini, Anda dapat dengan mudah memiliki server utama fisik dan server virtual, yang hanya merupakan salinan fisik yang dilakukan setiap X hari, siap untuk diambil alih.
Selain jawaban yang tidak begitu membantu ini, saya akan mengatakan bahwa Anda harus menyeimbangkan pentingnya data Anda ... Jika ini hanya node cluster, lewati saja. Jika ini adalah server web klien yang tidak dicadangkan, Anda mungkin ingin membuat rencana sebelumnya :-)
Solusi 3:
Tergantung .. Misalnya kami memiliki satu server turun untuk pemeliharaan rutin yang menjalankan tumpukan QMail. QMail membuat dan membunuh banyak file seiring berjalannya waktu, dan itu adalah server email yang sangat sibuk. Fsck memakan waktu sekitar 36 jam. Ini tidak seperti kami menghemat banyak kinerja dari kesepakatan, tetapi pada akhirnya saya kira Anda dapat berargumen bahwa sistem file lebih sehat. Apakah itu benar-benar sepadan dengan kekacauan yang terjadi? Bukan. Pada. Semua.