Speaker Diarization pada Google Cloud Speech-to-text API — bagian 1

Original Source Here

Speaker Diarization pada Google Cloud Speech-to-Text API — bagian 1

Seperti disebutkan pada tulisan sebelumnya, fitur speaker diarization umumnya terintegrasi dengan aplikasi speech recognition, contohnya Google Cloud Speech-to-Text API (Application Programming Interface). Produk ini sudah mendukung lebih dari 125 bahasa di dunia, termasuk Bahasa Indonesia, Jawa, dan Sunda.

Cloud Speech-to-Text menawarkan lima pilihan model recognition berdasarkan jenis audionya. Model command and search dioptimalkan untuk klip audio pendek, seperti voice command atau voice search. Model phone call dioptimalkan untuk audio yang berasal dari panggilan telepon. Model enhanced phone call memiliki test set error 54% lebih sedikit daripada model phone call. Model enhanced video dioptimalkan untuk audio yang berasal dari video atau audio yang berisi beberapa pembicara (speakers). Model default digunakan untuk mentranskripsi jenis audio yang tidak didukung model-model sebelumnya, misalnya klip audio panjang.

Meskipun begitu, hanya satu bahasa yang sudah mendukung kelima model tersebut, yaitu Bahasa Inggris (versi Amerika Serikat). Untuk Bahasa Indonesia baru disediakan model default dan command and search.

Selain menawarkan beberapa model, Cloud Speech-to-Text juga menawarkan lima fitur yang bisa diaktifkan sesuai kebutuhan pengguna. Fitur automatic punctuation secara otomatis menambahkan titik, koma, dan atau tanda tanya pada transkrip. Fitur speaker diarization memberi label speaker pada transkrip, biasanya digunakan untuk audio yang berisi dua atau lebih speakers. Fitur speech adaptation boost memberi bias pada pengenalan kata atau frasa tertentu, biasanya digunakan untuk audio yang berisi kata atau frasa yang sering diucapkan. Fitur word-level confidence memberi informasi confidence level yang menunjukkan nilai akurasi transkripsi untuk setiap kata. Fitur profanity filter menyaring kata-kata tidak pantas sehingga tidak muncul pada transkrip.

Terdapat tiga bahasa yang sudah mendukung kelima fitur tersebut, yaitu Bahasa Inggris (versi Amerika Serikat), Inggris (versi Singapura), dan Perancis. Fitur speaker diarization sudah tersedia untuk 12 bahasa, yaitu tiga bahasa di atas, Mandarin (versi Cina), Inggris (versi India), Inggris (versi Inggris), Jerman, Italia, Jepang, Portugis (versi Brazil), Rusia, dan Spanyol. Untuk Bahasa Indonesia baru disediakan fitur automatic punctuation, speech adaptation boost, dan profanity filter. Yang menarik adalah hanya satu fitur yang didukung oleh semua bahasa yaitu profanity filter. Sepertinya kemampuan menyaring kata-kata tidak pantas dianggap paling penting dalam proses transkripsi.

Supaya lebih jelas, post berikutnya akan menjelaskan bagaimana cara menggunakan Cloud Speech-to-Text, tentunya dengan mengaktifkan fitur speaker diarization. Sayang sekali Bahasa Indonesia belum mendukung fitur ini, jadi kita akan coba dengan Bahasa Inggris, stay tune!

AI/ML

Trending AI/ML Article Identified & Digested via Granola by Ramsey Elbasheer; a Machine-Driven RSS Bot

%d bloggers like this: