Sebenarnya, menurut saya tidak banyak pilihan yang realistis. Dalam urutan preferensi, pilihan saya adalah:
- Amazon S3. Memenuhi semua kebutuhan Anda, dan kualitas opsional Anda juga. Memiliki rekam jejak waktu aktif dan dukungan yang sangat baik. Itu bukan di rumah; tetapi apakah itu benar-benar bukan persyaratan yang dapat Anda kerjakan, f.x. menggunakan akses VPN atau hanya HTTPS lama yang bagus... S3 benar-benar akan menjadi pilihan pertama saya, jika latensi WAN dan harga Amazon cocok untuk Anda. Dan jika harga tidak sesuai untuk Anda, saya ragu solusi DYI benar-benar akan jauh lebih murah...
- MogileFS tampaknya sangat cocok dengan kebutuhan Anda. Tidak banyak aktivitas di sekitar MogileFS, tetapi sebagian besar karena MogileFS berfungsi seperti yang dimaksudkan untuk (relatif sedikit) penggunanya.
- Lustre memiliki teknologi yang sangat hebat di belakangnya, merupakan sistem file POSIX lokal biasa (jika itu bermanfaat bagi Anda), dan terus diperbarui selama bertahun-tahun. Pertanyaan besarnya adalah apakah seluruh merger Sun - Oracle akan berdampak pada Lustre. Dalam jangka panjang, jika Sun memainkan kartunya dengan benar, memiliki ZFS dan Luster di bawah satu atap dapat menghasilkan hal-hal yang sangat menyenangkan... Saat ini, menurut saya Lustre sebagian besar digunakan dalam inisiatif HPC akademik dan komersial, bukan dalam aplikasi Internet -- ini mungkin tidak benar, tetapi jika Luster bekerja dengan baik di aplikasi Internet, maka mereka pasti tidak memasarkan fakta itu dengan baik...
Sistem File Terdistribusi Hadoop (HDFS) tidak akan cocok dengan kebutuhan Anda IMHO. HDFS luar biasa, tetapi pendekatannya yang seperti tabel besar berarti kurang dapat diakses daripada sistem file di atas. Tentu saja, jika Anda benar-benar mencari skalabilitas masif dan perspektif jangka panjang, HDFS mungkin tepat -- dengan Yahoo, Facebook, dan lainnya berinvestasi dalam pertumbuhan Hadoop.
Satu komentar, sebagian besar sistem di atas menyalin seluruh file ke 2-3 node untuk mencapai redundansi. Ini memakan lebih banyak ruang daripada skema penyandian / RAID paritas, tetapi ini dapat dikelola dalam skala besar, dan tampaknya ini adalah solusi yang diambil semua orang. Jadi Anda tidak akan mendapatkan efisiensi 75% yang Anda sebutkan...
Jika itu saya, saya akan menggunakan GlusterFS. Rilis saat ini cukup solid dan saya mengenal orang-orang di beberapa instalasi yang sangat besar baik di HPC maupun ruang Internet yang mengandalkannya dalam sistem produksi mereka. Anda pada dasarnya dapat menyesuaikannya dengan kebutuhan Anda dengan meletakkan komponen sesuai kebutuhan Anda. Tidak seperti Lustre, tidak ada server metadata khusus sehingga titik pusat kegagalan diminimalkan, dan lebih mudah untuk menskalakan penyiapan.
Sayangnya, menurut saya tidak ada cara mudah untuk memenuhi kriteria 75% Anda tanpa menurunkan performa.
Itu berjalan pada perangkat keras komoditas, namun kinerjanya benar-benar bersinar saat menggunakan interkoneksi Infiniband. Untungnya harga IB sangat rendah akhir-akhir ini.
Anda mungkin ingin melihat orang-orang di Scalable Informatics dan produk Jackrabbit mereka sebagai solusinya. Mereka mendukung GlusterFS pada perangkat keras mereka, dan harga solusi mereka tentu menyaingi biaya untuk menyusun sesuatu dari awal.