Pidato adalah metode yang populer dan cerdas di zaman modern untuk berinteraksi dengan perangkat elektronik. Seperti yang kita ketahui, ada banyak alat pengenalan suara open source yang tersedia di berbagai platform. Sejak awal teknologi ini telah ditingkatkan secara bersamaan dalam memahami suara manusia. Inilah alasannya; sekarang telah melibatkan banyak profesional daripada sebelumnya. Kemajuan teknisnya cukup kuat untuk membuatnya lebih jelas bagi orang awam.
Alat Pengenalan Ucapan Sumber Terbuka
Alat pengenalan suara open source tidak banyak tersedia seperti perangkat lunak biasa yang kami gunakan dalam kehidupan sehari-hari di platform Linux. Setelah lama melakukan penelitian, kami menemukan beberapa aplikasi berfitur bagus untuk Anda dengan deskripsi singkat. Mari kita lihat poin-poin di bawah ini!
1. Kaldi
Kaldi adalah jenis perangkat lunak pengenalan ucapan khusus, yang dimulai sebagai bagian dari proyek di Universitas John Hopkins. Toolkit ini hadir dengan desain yang dapat diperluas dan ditulis dalam bahasa pemrograman C++. Ini memberikan lingkungan yang fleksibel dan nyaman bagi penggunanya dengan banyak ekstensi untuk meningkatkan kekuatan Kaldi.
Fitur Kaldi yang Patut Diperhatikan
- Aplikasi pengenalan suara open source yang gratis dan fleksibel, di bawah lisensi Apache.
- Berjalan di berbagai platform, termasuk GNU/Linux, BSD, dan Microsoft Windows.
- Menyediakan dukungan untuk memasang dan mengonfigurasi aplikasi ke sistem Anda.
- Selain sistem pengenalan ucapan, ini juga mendukung jaringan saraf yang dalam dan transformasi linier.
2. CMUSphinx
CMUS Sphinx hadir dengan sekelompok sistem yang diperkaya fitur dengan beberapa paket pra-bangun yang terkait dengan pengenalan suara. Ini adalah program sumber terbuka, dikembangkan di Universitas Carnegie Mellon. Anda akan mendapatkan alat pengenal tanpa speaker ini dalam beberapa bahasa, termasuk Prancis, Inggris, Jerman, Belanda, dan lainnya.
Fitur Penting CMUSphinx
- Ini adalah sistem pengenalan ucapan yang mudah digunakan dan cepat dengan antarmuka yang ramah pengguna.
- Dihadirkan dengan desain yang fleksibel dan sistem yang efisien, bahkan di platform sumber daya rendah.
- Menyediakan alat pelatihan model akustik melalui paket Sphinxtrain.
- Membantu untuk melakukan berbagai jenis tugas melalui paketnya yang bermanfaat, termasuk pencarian kata kunci, evaluasi pengucapan, penyelarasan, dan lainnya.
- Ini adalah alat lintas platform yang mendukung sistem Windows dan Linux.
3. DeepSpeech
DeepSpeech adalah mesin pengenalan ucapan sumber terbuka untuk mengubah ucapan Anda menjadi teks. Ini adalah aplikasi gratis oleh Mozilla. Untuk menjalankan proyek DeepSearch ke perangkat Anda, Anda memerlukan Python 3.r atau lebih tinggi. Selain itu, diperlukan file ekstensi Git, yaitu Git Large File Storage. Ini digunakan untuk membuat versi file besar saat Anda menjalankannya ke sistem Anda.
Fitur DeepSpeech yang Patut Diperhatikan
- DeepSpeech menggunakan framework TensorFlow untuk membuat transformasi suara lebih nyaman.
- Mendukung NVIDIA GPU, yang membantu melakukan inferensi lebih cepat.
- Anda dapat menggunakan inferensi DeepSearch dengan tiga cara berbeda; Paket Python, paket Node.JS, atau klien baris perintah.
- Setiap kali Anda ingin menjalankan perangkat lunak ini ke sistem Anda, Anda harus mengaktifkan lingkungan virtual dengan perintah Python.
- Perlu lingkungan Linux atau Mac untuk menjalankan aplikasi ini.
4. Wav2Letter++
WavLetter++ adalah alat pengenalan ucapan yang modern dan populer, dikembangkan oleh tim Riset AI Facebook. Ini adalah program sumber terbuka lainnya di bawah lisensi BCD. Perangkat lunak pengenal suara supercepat ini dibuat dalam C++ dan diperkenalkan dengan banyak fitur. Ini menyediakan fasilitas pemodelan bahasa, terjemahan mesin, sintesis ucapan, dan lainnya bagi penggunanya dalam lingkungan yang fleksibel.
Fitur Wav2Letter++ yang Patut Disimak
- Berisi komunitas aktif di platform populer seperti Facebook dan grup Google untuk membantu penggunanya di seluruh dunia.
- WavLetter++ adalah toolkit yang cepat dan fleksibel yang menggunakan pustaka tensor ArrayFire untuk efisiensi maksimum.
- Ini memungkinkan Anda bekerja dengan kerangka kerja berkinerja tinggi seperti wav2letter++, yang membantu melakukan riset dan penyetelan model yang berhasil.
- Juga, menyediakan dokumentasi lengkap melalui bagian tutorial.
- Dalam folder resep, Anda akan mendapatkan resep terperinci untuk WSJ, Timit, dan Librispeech.
5. Julius
Julius secara komparatif adalah perangkat lunak pengenalan suara sumber terbuka yang dikembangkan oleh Lee Akinobu. Alat ini ditulis dalam bahasa pemrograman C oleh pengembang Lab Kawahara, Universitas Kyoto. Ini adalah aplikasi pengenalan ucapan berkinerja tinggi yang memiliki kosakata besar. Anda dapat menggunakannya dalam bahasa Inggris dan bahasa Jepang. Ini bisa menjadi pilihan yang bagus jika Anda ingin menggunakannya untuk tujuan akademik dan penelitian.
Fitur Julius yang Patut Diperhatikan
- Julius adalah aplikasi yang sangat dapat dikonfigurasi yang dapat mengatur parameter pencarian yang berbeda untuk menyempurnakan kinerjanya.
- Alat ini didasarkan pada strategi 2 langkah yang memberi Anda kinerja waktu nyata dan berkualitas tinggi.
- Ini adalah proyek lintas platform yang berjalan di Sistem Linux, BSD, Windows, dan Android.
- Terintegrasi dengan Julian, parser pengenalan berbasis tata bahasa.
- Selain mendukung tata bahasa berbasis aturan, ini juga menyediakan keluaran grafik Word, penilaian Keyakinan, penolakan masukan berbasis GMM, dan banyak lagi fasilitas lainnya.
6. Simon
Simon hadir dengan perangkat lunak pengenalan ucapan yang modern dan mudah digunakan, yang dikembangkan oleh Peter Grasch. Ini adalah program sumber terbuka lainnya di bawah Lisensi Publik Umum GNU. Anda bebas menggunakan Simon di sistem Linux dan Windows. Juga, ini memberikan fleksibilitas untuk bekerja dengan bahasa apa pun yang Anda inginkan.
Fitur Simon yang Patut Disimak
- Menggunakan kalkulator yang dikendalikan suaranya, Simon menyediakan fasilitas untuk melakukan berbagai operasi aritmatika.
- Kompatibel dengan Skype dan program VOIP populer lainnya untuk membangun sistem komunikasi yang mudah dengan teman dan kerabat.
- Memungkinkan pengguna menonton peragaan slide dan video, mendengarkan musik, dan lainnya dengan beberapa perintah suara sederhana.
- Juga, ini adalah alat penting dalam membaca koran dan menjelajahi internet.
7. Mycroft
Mycroft hadir dengan asisten suara sumber terbuka yang mudah digunakan untuk mengonversi suara menjadi teks. Itu dianggap sebagai salah satu alat pengenalan ucapan Linux paling populer di zaman modern, ditulis dengan Python. Ini memungkinkan pengguna untuk memanfaatkan alat ini dengan sebaik-baiknya dalam proyek sains atau aplikasi perangkat lunak perusahaan. Selain itu, dapat digunakan sebagai asisten praktis, yang dapat memberi tahu Anda waktu, tanggal, cuaca, dan lainnya seperti ini.
Fitur Penting dari Mycroft
- Terintegrasi dengan media sosial terpopuler dan platform profesional, termasuk Facebook, Github, LinkedIn, dan lainnya.
- Anda dapat menjalankan aplikasi ini pada platform perangkat lunak dan perangkat keras yang berbeda. Ini bisa berupa desktop atau Raspberry Pi.
- Selain sebagai asisten suara yang cerdas, ia menyediakan fasilitas rekaman audio, pembelajaran mesin, perpustakaan perangkat lunak, dan banyak lagi.
- Ini memungkinkan pengguna mengonversi bahasa alami menjadi data yang dapat dibaca mesin melalui Adaptasi, parser maksud dari Mycroft.
8. OpenMindSpeech
Open Mind Speech adalah salah satu alat pengenalan ucapan Linux penting yang bertujuan untuk mengonversi ucapan Anda menjadi teks secara gratis. Ini adalah bagian dari Open Mind Initiative, menjalankan operasinya, terutama untuk pengembang. Program ini diperkenalkan dengan nama yang berbeda seperti VoiceControl, SpeechInput, dan FreeSpeech sebelum mendapatkan nama yang sekarang.
Fitur Penting OpenMindSpeech
- Menggunakan lingkungan Overflow dalam operasi pengenalan suara untuk membuat aplikasi kompleks menjadi fleksibel.
- Open Mind Speech sebagian besar kompatibel dengan platform berbasis Linux dan UNIX.
- Dengan menggunakan internet, alat ini dapat mengumpulkan data ucapan dari warga elektronik, yang merupakan kontributor data mentah.
9. Kontrol Suara
Speech Control adalah aplikasi pengenalan suara gratis, cocok untuk semua distro Ubuntu. Muncul dengan antarmuka pengguna grafis berdasarkan Qt. Meskipun masih dalam tahap pengembangan awal, Anda dapat menggunakannya untuk proyek sederhana Anda.
Fitur SpeechControl yang Patut Disimak
- Kontrol Ucapan adalah program sumber terbuka di bawah Lisensi Publik Umum (GPL).
- Ini bertujuan untuk bekerja sebagai asisten virtual yang memberikan panduan tugas berulang untuk menjalankan proses dengan lancar.
- Sebagian besar cocok untuk platform berbasis Linux.
- Selain itu, berikan dokumentasi pengguna yang mudah dipahami dengan detail proyek.
10. Deepspeech.pytorch
Deepspeech.pytorch adalah aplikasi pengenalan ucapan open source lain yang dapat disebutkan yang pada akhirnya merupakan implementasi DeepSpeech2 untuk PyTorch. Ini berisi sekumpulan arsitektur DeepSpeech2 berbasis jaringan yang kuat. Dengan banyak sumber daya yang bermanfaat, ini dapat digunakan sebagai salah satu alat pengenalan suara Linux yang penting untuk penelitian dan pengembangan proyek.
Fitur Deepspeech.pytorch yang Patut Disimak
- Mendukung augmentasi derau yang membantu meningkatkan ketahanan saat memuat audio.
- Untuk mengirimkan permintaan kiriman ke server, ia menyediakan skrip server dasar.
- Mendukung beberapa set data untuk diunduh, termasuk TEDLIUM, AN4, Voxforge, dan LibriSpeech.
- Memungkinkan Anda menambahkan derau ke dalam data pelatihan melalui injeksi derau.
- Mendukung Visdom dan Tensorboard untuk memvisualisasikan pelatihan eksperimen ilmiah.
Menyelesaikan Pikiran
Jadi, kami telah mencapai titik akhir pada alat pengenalan suara open source untuk Linux. Harapan, Anda mendapat informasi yang komprehensif mengenai topik ini. Aplikasi yang disebutkan di atas gratis, mudah digunakan, dan siap menjadi bagian dari proyek akademik atau pribadi Anda.
Mana yang paling Anda sukai? Jika Anda memiliki pilihan lain, jangan ragu untuk memberi tahu kami. Silakan bagikan artikel ini dengan komunitas Anda, jika Anda merasa terbantu. Sampai saat itu, bersenang-senanglah. Terima kasih!