Cara Mengonversi Ucapan ke Teks dengan Python [Proses Langkah-demi-Langkah]
Diterbitkan: 2020-08-07Daftar isi
Pengantar Pidato ke Teks
Kita hidup di zaman di mana cara kita berinteraksi dengan mesin menjadi beragam dan kompleks. Kami telah berevolusi dari tombol mekanis chunky ke antarmuka layar sentuh. Tetapi evolusi ini tidak terbatas pada perangkat keras. Status quo untuk input untuk komputer telah menjadi teks sejak konsepsi. Namun, dengan kemajuan dalam NLP (Natural Language Processing) dan ML (Machine Learning), Ilmu Data kami memiliki alat untuk menggabungkan ucapan sebagai media untuk berinteraksi dengan gadget kami.
Alat-alat ini sudah mengelilingi kita dan paling sering melayani kita sebagai asisten virtual. Google, Siri, Alexa, dll. adalah pencapaian penting dalam menambahkan dimensi lain yang lebih pribadi dan nyaman untuk berinteraksi dengan dunia digital.
Tidak seperti kebanyakan inovasi teknologi, teknologi speech to text tersedia untuk dijelajahi semua orang, baik untuk konsumsi maupun untuk membangun proyek Anda.
Python adalah salah satu bahasa pemrograman paling umum di dunia yang memiliki alat untuk membuat aplikasi pidato ke teks Anda.
Sejarah Pidato ke Teks
Sebelum kita menjelajahi pernyataan ke teks dengan Python, ada baiknya untuk menghargai seberapa banyak kemajuan yang telah kita buat di bidang ini. Berikut ini adalah garis waktu yang disederhanakan dari:
- Audrey ,1952: sistem pengenalan suara pertama yang dikembangkan oleh peneliti laboratorium 3 Bells. Itu hanya bisa mengenali angka.
- IBM Showbox (1962): Sistem pengenalan suara pertama IBM yang mampu mengenali 16 kata selain angka. Dapat memecahkan dikte aritmatika sederhana dan mencetak hasilnya.
- Defense Advanced Research Projects Agency (DARPA) (1970): DARPA mendanai Speech Understanding Research, yang mendorong pengembangan Harpy untuk mengenali 1011 kata.
- Hidden Markov Model (HMM), 1980-an: HMM adalah model statistik yang memodelkan masalah yang membutuhkan informasi berurutan. Model ini diterapkan untuk kemajuan lebih lanjut dalam pengenalan suara.
- Pencarian suara oleh Google 2001: Google memperkenalkan fitur Pencarian Suara yang memungkinkan pengguna untuk mencari menggunakan ucapan. Ini adalah aplikasi berkemampuan suara pertama yang menjadi sangat populer.
- Siri ,2011: Apple memperkenalkan Siri yang mampu melakukan cara yang real-time dan nyaman untuk berinteraksi dengan perangkatnya.
- Alexa , 2014 & google home , 2016: Asisten virtual berbasis perintah suara menjadi arus utama saat google home dan Alexa secara kolektif menjual lebih dari 150 juta unit.
Baca Juga: Top 7 Python NLP Library

Tantangan dalam Pidato ke Teks
Speech to text masih merupakan masalah kompleks yang jauh dari produk yang benar-benar jadi. Beberapa kesulitan teknis membuat alat ini tidak sempurna. Berikut ini adalah tantangan umum dengan teknologi pengenalan suara:
1. Saya interpretasi yang tepat
Pengenalan ucapan tidak selalu menafsirkan kata-kata yang diucapkan dengan benar. VUI (Voice User Interface) tidak sepandai manusia dalam memahami konteks yang mengubah hubungan antara kata dan kalimat. Dengan demikian, mesin mungkin berjuang untuk memahami semantik sebuah kalimat.
2. Waktu
Terkadang, sistem pengenalan suara membutuhkan waktu terlalu lama untuk diproses. Ini mungkin karena keragaman pola suara yang dimiliki manusia. Kesulitan dalam pengenalan suara seperti itu dapat dihindari dengan memperlambat ucapan atau menjadi lebih tepat dalam pengucapan, yang menghilangkan kenyamanan alat.
3. Aksen
VUI mungkin merasa sulit untuk memahami dialek yang berbeda dari rata-rata. Dalam bahasa yang sama, penutur dapat memiliki cara yang sangat berbeda untuk mengucapkan kata-kata yang sama.
4. Kebisingan dan kenyaringan latar belakang
Di dunia yang ideal, ini tidak akan menjadi masalah, tetapi bukan itu masalahnya, sehingga VUI mungkin merasa sulit untuk bekerja di lingkungan yang bising (ruang publik, kantor besar, dll.).
Wajib Dibaca: Cara membuat chatbot dengan Python
Pidato ke Teks dengan Python
Jika seseorang tidak ingin melalui proses yang sulit dalam membangun pernyataan menjadi teks dari awal, gunakan yang berikut ini sebagai panduan. Panduan ini hanyalah pengantar dasar untuk membuat aplikasi pidato ke teks Anda sendiri. Pastikan Anda memiliki mikrofon yang berfungsi selain versi Python yang relatif baru.
Langkah 1 :
Unduh paket python berikut:
- speech_recogntion (pip install SpeechRecogntion): Ini adalah paket utama yang menjalankan langkah paling penting untuk mengubah ucapan menjadi teks. Alternatif lain memiliki pro dan kontra, seperti banding, perakitan, google-cloud-search, pocketsphinx, Watson-developer-cloud, wit, dll.
- Audio saya (instal pip Pyaudio)
- Portaudio (instal pip Portaudio)
Langkah 2 :
Buat proyek (beri nama apa pun yang Anda inginkan), dan impor speech_recogntion sebagai sr.
Buat sebanyak mungkin instance dari kelas pengenal.
Langkah 3 :
Setelah Anda membuat instance ini, sekarang kita harus mendefinisikan sumber input.
Untuk saat ini, mari kita tentukan sumbernya sebagai mikrofon itu sendiri (Anda dapat menggunakan file audio yang ada)
Langkah 4 :
Sekarang kita akan mendefinisikan variabel untuk menyimpan input. Kami menggunakan metode 'mendengarkan' untuk mengambil informasi dari sumbernya. Jadi, dalam kasus kami, kami akan menggunakan mikrofon sebagai sumber yang kami buat di baris kode sebelumnya.
Langkah 5 :
Sekarang kita memiliki input (mikrofon sebagai sumber) yang ditentukan dan menyimpannya dalam variabel ('audio'), kita hanya perlu menggunakan metode recognition_google untuk mengubahnya menjadi teks. Kami dapat menyimpan hasilnya dalam sebuah variabel atau dapat dengan mudah mencetak hasilnya. Kami tidak harus hanya mengandalkan recognition_google, kami memiliki metode lain yang menggunakan API berbeda yang juga berfungsi. Contoh metode tersebut adalah:

mengenali_bing()
recongize_google_cloud()
recongize_houndify()
recongize_ibm()
recongize_Sphinx() (berfungsi offline juga)
Metode berikut menggunakan paket yang ada yang membantu mengurangi keharusan mengembangkan perangkat lunak pengenalan ucapan ke teks dari awal. Paket-paket ini memiliki lebih banyak alat yang dapat membantu Anda membangun proyek yang memecahkan masalah yang lebih spesifik. Salah satu contoh fitur yang berguna adalah Anda dapat mengubah bahasa default dari bahasa Inggris menjadi bahasa Hindi. Ini akan mengubah hasil yang dicetak ke dalam bahasa Hindi (walaupun seperti yang ada saat ini, pidato ke teks paling berkembang untuk memahami bahasa Inggris).
Tapi, itu adalah latihan pemikiran yang baik dari pengembang yang parah untuk memahami bagaimana perangkat lunak tersebut berjalan.
Mari kita hancurkan.
Pada dasarnya, pidato hanyalah gelombang suara. Gelombang suara atau sinyal audio tersebut memiliki beberapa sifat karakteristik (yang mungkin tampak akrab dengan fisika akustik) seperti Amplitudo, puncak dan lembah, panjang gelombang, siklus, dan frekuensi.
Sinyal audio tersebut terus menerus dan dengan demikian memiliki titik data yang tak terbatas. Untuk mengubah sinyal audio tersebut menjadi sinyal digital, sehingga komputer dapat memprosesnya, jaringan harus mengambil distribusi sampel yang diskrit yang sangat mirip dengan kontinuitas sinyal audio.
Setelah kami memiliki frekuensi pengambilan sampel yang sesuai (8000 Hz adalah standar yang baik karena sebagian besar frekuensi ucapan berada dalam rentang ini), kami sekarang dapat memproses pustaka Python seperti LibROSA dan SciPy untuk sinyal audio. Kami kemudian dapat membangun input ini dengan membagi kumpulan data menjadi 2, melatih model, dan yang lainnya untuk memvalidasi temuan model.
Pada tahap ini, seseorang dapat menggunakan arsitektur model Conv1d, jaringan saraf convolutional yang bekerja hanya pada satu dimensi. Kami kemudian dapat membangun model, menentukan fungsi kerugiannya, dan menggunakan jaringan saraf untuk menyelamatkan model terbaik dari mengubah ucapan menjadi teks. Menggunakan pembelajaran mendalam dan NLP (Pemrosesan Bahasa Alami), kami dapat menyempurnakan pernyataan menjadi teks untuk aplikasi dan adopsi yang lebih luas.
Aplikasi Pengenalan Ucapan
Seperti yang telah kita pelajari, alat untuk menjalankan inovasi teknologi ini lebih mudah diakses karena ini sebagian besar merupakan inovasi perangkat lunak, dan tidak ada perusahaan yang memilikinya. Aksesibilitas ini telah membuka pintu bagi pengembang sumber daya yang terbatas untuk datang dengan aplikasi mereka dari teknologi ini.

Beberapa bidang di mana pengenalan suara berkembang adalah sebagai berikut:
- Evolusi di mesin pencari: pengenalan suara akan membantu meningkatkan akurasi pencarian dengan mengisi kesenjangan antara komunikasi verbal dan tertulis.
- Dampak pada industri perawatan kesehatan: pengenalan suara menjadi fitur umum di sektor medis dengan membantu penyelesaian pelaporan medis. Ketika VUI menjadi lebih baik dalam memahami jargon medis, mengadopsi teknologi ini akan membebaskan waktu dari pekerjaan administratif untuk dokter.
- Industri jasa: Dalam tren otomatisasi yang meningkat, mungkin saja pelanggan tidak dapat meminta manusia untuk menanggapi permintaan, dan dengan demikian, sistem pengenalan suara dapat mengisi celah ini. Kita akan melihat pertumbuhan pesat fitur ini di bandara, angkutan umum, dll.
- Penyedia layanan: penyedia telekomunikasi mungkin lebih mengandalkan sistem berbasis teks pidato yang dapat mengurangi waktu tunggu dengan membantu menetapkan permintaan penelepon dan mengarahkan mereka ke bantuan yang sesuai.
Baca Juga: Teknologi Pencarian Suara – Fakta Menarik
Kesimpulan
Pidato ke teks adalah teknologi canggih yang akan segera ada di mana-mana. Kegunaannya yang cukup sederhana dalam hubungannya dengan Python (salah satu bahasa pemrograman paling populer di dunia) membuat pembuatan aplikasinya lebih mudah. Saat kami membuat langkah di bidang ini, kami membuka jalan menuju dunia di mana akses ke dunia digital tidak hanya dengan ujung jari tetapi juga kata yang diucapkan.
Jika Anda tertarik untuk mengetahui lebih banyak tentang pemrosesan bahasa alami, lihat PG Eksekutif kami dalam Pembelajaran Mesin dan program AI yang dirancang untuk para profesional yang bekerja dan lebih dari 450 jam pelatihan yang ketat.
Jika Anda penasaran untuk belajar tentang ilmu data, lihat Program PG Eksekutif IIIT-B & upGrad dalam Ilmu Data yang dibuat untuk para profesional yang bekerja dan menawarkan 10+ studi kasus & proyek, lokakarya praktis, bimbingan dengan pakar industri, 1 -on-1 dengan mentor industri, 400+ jam pembelajaran dan bantuan pekerjaan dengan perusahaan-perusahaan top.
Apa itu konversi ucapan ke teks?
Pada hari-hari awal pengenalan suara, seorang transcriptionist duduk dengan headset dan merekam pidato. Prosesnya memakan waktu lama dan menghasilkan transkrip berkualitas rendah. Saat ini, sistem pengenalan suara menggunakan komputer untuk mengubah ucapan menjadi teks. Ini disebut konversi ucapan-ke-teks. Pengenalan ucapan (juga dikenal sebagai konversi ucapan-ke-teks) adalah proses mengubah kata-kata yang diucapkan menjadi data yang dapat dibaca mesin. Tujuannya adalah untuk memungkinkan orang berkomunikasi dengan mesin melalui suara dan untuk memungkinkan mesin berkomunikasi dengan orang dengan menghasilkan ucapan. Perangkat lunak ucapan-ke-teks digunakan untuk melakukan konversi ini.
Apa saja tantangan dalam konversi ucapan ke teks?
Ada banyak tantangan dalam konversi ucapan ke teks. Tantangan utamanya adalah: Akurasi, di mana sistem harus mengucapkan kata-kata yang diucapkan dengan benar untuk mengekstrak maksud pengguna. Kecepatan, sistem harus dapat melakukan hal di atas dengan cukup cepat agar dapat diterima oleh pengguna. Kealamian, sistem harus terdengar sealami mungkin, sehingga pengguna tidak merasa harus berbicara dengan cara yang tidak wajar. Kekokohan, sistem harus mampu menangani sejumlah besar kebisingan latar belakang, ucapan lain, dan efek lain apa pun yang dapat mengganggu proses konversi.
Apa aplikasi dari pemrosesan pidato ke teks?
Alasan mengapa Anda perlu mengubah ucapan menjadi teks adalah karena ini adalah cara yang sangat cepat dan nyaman untuk berkomunikasi. Pemrosesan ucapan ke teks dapat digunakan di banyak aplikasi yang berbeda, misalnya, dapat digunakan di perangkat komunikasi seluler, di mana pengguna dapat menggunakan ucapannya untuk mengirim pesan dan melakukan panggilan alih-alih mengetik di keyboard. Aplikasi lain dari pemrosesan ucapan ke teks adalah kontrol mesin. Ini adalah cara mengendalikan mesin atau mesin industri lainnya dengan berbicara padanya.