Saya telah mencari hal yang sama selama beberapa hari sekarang. Sejauh ini saya telah menemukan Sphinx4 dan FreeTTS. Keduanya adalah implementasi java dan Sphinx sepertinya lebih sering diperbarui tidak seperti FreeTTS. Satu-satunya masalah yang saya alami adalah Sphinx kesulitan memahami saya di lingkungan kantor, dan saya memerlukan solusi untuk lingkungan gudang.
Sebagian besar Java:http://cmusphinx.sourceforge.net/html/cmusphinx.php
Anda dapat mengunduh vPass (kata sandi suara) dari http://www.basic-signalprocessing.com.
Komponen dirancang untuk bahasa Java dan .Net. Periode pengakuan adalah 5 detik. VPass sudah teruji dengan baik vText bukan, masih baru, itu sebabnya belum dikemas.
sphinx sejauh ini merupakan opsi terbaik yang tersedia jika anggaran Anda terbatas. Namun, itu juga membuat besar bedakan model apa yang Anda gunakan, cara menyetelnya dan bagaimana Anda menyetel sumber audio Anda. benar-benar semuanya harus cocok jika tidak maka tidak akan berhasil. mengingat masalah yang Anda uraikan, id bersedia bertaruh dalam jumlah besar yang membuat model Anda tercampur aduk dan mikrofon Anda tidak dikalibrasi dengan benar. juga, jika Anda memiliki aksen, itu mungkin tidak akan berfungsi - ini bukan masalah dengan dekoder tetapi dengan model akustik - jika tidak ada orang dengan suara/aksen yang mirip dengan Anda yang disertakan dalam data pelatihan, Anda akan mendapatkan hasil yang buruk .
yang mengatakan, apakah Anda sudah melihat halaman model sumber terbuka mereka?
http://www.speech.cs.cmu.edu/sphinx/models/
tergantung pada apa yang Anda coba lakukan, Anda seharusnya dapat memperoleh akurasi sekitar 90% pada kebebasan berbicara dengan model WSJ 16kHz dan gigaword LMs NVP. Namun saya mengingatkan bahwa ASR adalah usaha besar-besaran dan belum mencapai status komoditas.