Mengapa Teknologi Speech Recognition Tak Kunjung Sempurna?

Oleh: Ahmad Zaenudin - 12 Januari 2019
Dibaca Normal 3 menit
Teknologi speech recognition menemukan akarnya dari pelbagai penemuan sejak abad ke-18.
tirto.id - “Hallo, HAL. Apakah kamu mendengarkanku, HAL?”

“Afirmatif, Dave. Saya mendengarkanmu.”

“Tolong bukakan pintu pod, HAL.”

“Maaf, Dave. Saya takut tidak bisa melakukan itu untukmu.”

Percakapan di atas terasa alamiah. Masing-masing pihak memahami dan merespon percakapan dengan lugas. Namun, HAL, yang diminta Dave membukakan pintu pod, bukanlah manusia. HAL atau HAL 9000 ialah mesin, mesin pintar yang menemani Dave Bowman dalam perjalanan luar angkasa untuk mencari tahu asal-usul manusia. Keengganan HAL membuka pintu terjadi karena menurutnya akan membahayakan misi mereka.

Percakapan ini tak terjadi di dunia nyata, melainkan dari adegan 2001: A Space Odyssey, film garapan Stanley Kubrick yang rilis pada 1968.

Dalam dunia fiksi, mesin atau robot yang bisa memahami serta merespons percakapan manusia tidak hanya disajikan Kubrick. Dalam saga Star Wars, ada R2D2 dan C3PO yang memiliki kemampuan itu. Di dunia nyata, percakapan antara mesin dan manusia kini makin mudah dijumpai, misalnya pada produk asisten digital seperti Google Assistant, Alexa, hingga Siri.

Kemampuan dasar utama yang memungkinkan HAL, R2D2, hingga C3PO, serta Google Assistant, Alexa, dan Siri mampu memahami dan merespons percakapan disebut speech recognition.


Speech recognition, seperti yang dituturkan oleh Markus Forsberg dalam paper berjudul “Why is Speech Recognition Difficult?” (2003) merupakan suatu teknologi untuk menafsirkan ucapan manusia di komputer. Teknologi ini dikembangkan sebagai bentuk baru komunikasi antara manusia dengan mesin bernama voice user interface (VUI). Katanya, VUI ialah masa depan bagaimana manusia berinteraksi dengan mesin. Ia lebih sederhana, efisien, dan lebih mudah dibandingkan bentuk interaksi manusia-mesin yang kini populer digunakan, graphical user interface (GUI).

Sayangnya, speech recognition sebagai teknologi dasar VUI belum sempurna. Sebagaimana dilansir The Washington Post, Google Assistant, VUI yang tersimpan dalam Google Home, masih sulit memahami dialek dan bahasa selain Inggris. Dalam ujicoba menggunakan 70 perintah suara yang dilakukan manusia pada Google Home, secara keseluruhan Google Assistant memiliki tingkat akurasi hingga 83 persen. Namun, pada akses pada bahasa tertentu nilainya lebih rendah. Akses bahasa Inggris yang dituturkan di Pantai Timur Amerika Serikat, misalnya, memiliki tingkat akurasi 2,5 persen lebih rendah dibandingkan akses bahasa Inggris yang digunakan di wilayah Barat Amerika Serikat.

Sementara itu, tingkat akurasi perintah yang dilakukan menggunakan bahasa Mandarin memiliki tingkat akurasi lebih rendah 2,6 persen. Dengan penutur utama lebih dari 800 juta jiwa, bahasa Mandarin rupanya memiliki tingkat akurasi yang lebih rendah dibandingkan bahasa Inggris. Bahasa-bahasa yang penuturnya lebih sedikit bernasib lebih buruk.

Meski belum sempurna, tulis Richard Lippmann dalam “Speech Recognition by Machine and Humans" (2006), teknologi speech recognition terus mengalami peningkatan kemampuan dengan tingkat kesalahan yang masih bisa ditoleransi.

Lippman juga menyebutkan bahwa beberapa sistem speech recognition yang masih diuji, yakni TI, Alphabet, Resource Management, North America Business News, dan Switchboard, menggunakan speech corpus, suatu database percakapan audio. Dari lebih dari 2.000 kosakata yang diumpankan, sistem Switchboard, misalnya, hanya mengalami 80 hingga 150 kebingungan.


Secara umum, menurut Lippmann, sistem-sistem speech recognition yang ada memiliki tingkat kesalahan yang tak terlalu jauh dibandingkan kemampuan manusia. Manusia, jika diuji dengan speech corpus, memiliki tingkat kesalahan sebesar 0,105 persen. Sementara sistem yang ada rata-rata memiliki tingkat kesalahan sebesar 0,72 persen.

Sayangnya, nilai yang cukup bagus itu baru muncul manakala uji dilakukan dalam kondisi “baik", yakni di ruangan tertutup tanpa kebisingan. Kesalahan sistem speech recognition dalam mengenali suara meningkat antara 20 hingga 40 persen jika kondisi ujicoba di luar kondisi “baik” itu.

Bermula dari Abad ke-18

Merujuk sejarahnya, sebagaimana ditulis B.H. Juang dalam “Automatic Speech Recognition: A Brief History of the Technology Development" (2018), penciptaan teknologi speech recognition dimulai setidaknya sejak paruh kedua abad ke-18. Kala itu, ilmuwan Rusia bernama Christian Kratzenstein mencoba membuat mesin yang mampu meniru suara memanfaatkan tabung resonansi.

Pada 1881, penemu telepon Alexander Graham Bell dan rekannya membuat Dictaphone, alat perekam suara yang menggunakan silinder berputar. Lantas, pada 1930, Homer Dudley, seorang ilmuwan Amerika Serikat, menemukan teknologi peniru suara (speech synthesizer) bernama VODER (Voice Operating Demonstrator).

Infografik Speech Recognition
Infografik Speech Recognition


Sistem yang lebih mirip dengan speech recognition hari ini baru muncul pada 1960-an. Kala itu, ilmuwan dari MIT Lincoln Lab menciptakan sistem yang mampu mengenali 10 suku kata yang diucapkan manusia. Teknologi yang lebih maju muncul pada 1992. Kala itu, AT&T merilis layanan bernama Voice Recognition Call Processing (VRCP), teknologi yang mampu mentranskrip percakapan via jaringan AT&T yang digunakan para pelanggannya.

Di masa modern kini, setidaknya sejak 1997, mesin-mesin speech recognition sanggup mengenali 65 ribu suku kata secara simultan.


Pengembangan teknologi speech recognition yang lebih masif terjadi pada 2002, ketika Lembaga riset militer Amerika Serikat Defense Advanced Research Projects Agency (DARPA) meluncurkan program bernama EARS (Effective, Affordable, and Reusable Speech-to-text).

Secara umum, penciptaan sistem speech recognition dilakukan dalam beberapa tahap. Beberapa tahap tersebut, sebagaimana dipaparkan Li Deng dalam penelitiannya yang bertajuk “Challenges in Adopting Speech Recognition” (2004), adalah mencari ciri khas dari suatu kosa kata ketika diucapkan, memahami artikulasi kosakata, hingga mengurutkan kata dalam skema tertentu.

Markus Forsberg menyatakan tantangan penyempurnaannya terletak pada fakta bahwa speech recognition adalah bahasa tutur (spoken language) alih-alih bahasa tulis (written language). Dalam bahasa yang ditulis hanya tercipta komunikasi satu arah. Bahasa tutur mengandaikan komunikasi dua arah. Walhasil, selain harus mampu memahami kosakata yang diucapkan, mesin juga harus mampu merespons lawan bicara secara langsung.

Keragaman bahasa dunia berikut dialeknya juga menyulitkan. Mesin harus bisa membedakan “the tail of a dog” (ekor anjing) dengan “the tale of the dog" (kisah anjing), yang bunyinya mirip ketika diucapkan.

Baca juga artikel terkait SPEECH RECOGNITION atau tulisan menarik lainnya Ahmad Zaenudin
(tirto.id - Teknologi)


Penulis: Ahmad Zaenudin
Editor: Windu Jusuf