Asisten Digital Tak Dapat Benar-Benar Meniru Komunikasi Manusia

Setelah 2001: A Space Odyssey (1968) tayang, para ahli berlomba-lomba mencoba merealisasikan HAL: komputer yang dapat berbicara dengan sempurna.

Penulis: Ahmad Zaenudin

Terbit 26 Oct 2022 01:00 WIB,

Waktu baca ±3 menit

Siri, asisten digital Apple yang diaktifkan suara, memberi tahu pengguna iPhone untuk bertanya kepadanya dengan menunjukkan teks "Silakan, saya mendengarkan" di layar. (FOTO/iStockphoto)

tirto.id - Tak lama setelah laporan keuangan kuartal 2-2022 keluar pada Juli lalu, Google mengubah fokus perusahaan. Mereka gagal merealisasikan ekspektasi pendapatan. Kegagalan ini, klaim Direktur Utama Google Sundar Pichai, disebabkan "ketidaksesuaian jumlah karyawan yang kami miliki dengan produktivitas kami."

Google lantas menerjemahkan perubahan fokus perusahaan dengan bergerilya memotong biaya operasional di segala lini usaha. Melalui pengerdilan kapasitas "Area 120", mereka menanggalkan proyek Loon, menghentikan pengembangan laptop Pixel, dan yang paling mengejutkan, pemberian vonis mati terhadap Stadia.

Usai merilis generasi ke-7 ponsel Oixel pada awal Oktober ini, sebagaimana dilaporkan Ron Amadeo untuk Ars Technica, Google dikabarkan semakin menggebu dalam usaha mereka memotong biaya operasional.

Mereka berencana menyunat eksistensi Google Assistant untuk hanya tersedia di perangkat keras bikinan Google, tidak untuk gawai buatan pesaing-pesaing Google.

Kabar mengejutkan ini tampaknya akan menjadi kenyataan. Musababnya, sempat melakukan uji coba penempatan iklan, ternyata tidak ada iklan yang muncul dalam asisten digital buatan Google. Layanan ini tak memberikan penghasilan apapun bagi Google.

Padahal, meski terlihat sebagai layanan sederhana, Google Assistant masuk dalam kategori "teknologi adiluhung" yang sangat sukar dibuat maupun dikembangkan. Meski Google Assistant terlihat superior dibandingkan layanan serupa seperti Siri, Alexa, dan Cortana, Google Assistant belum sempurna, yang tentunya butuh biaya operasional tinggi untuk menyempurnakannya.

Stanley Kubrick Sang Pembuka Jalan

Lebih dari setengah abad lalu, melalui tangan dingin Stanley Kubrick lewat film 2001: A Space Odyssey (1968), sebuah komputer bernama HAL lahir.

Komputer ini dirancang untuk dapat berkomunikasi dengan suara tenang dan empatik. Dalam film itu disebut beroperasi untuk pertama kalinya pada 1992 di sebuah laboratorium di Urbana, Illinois, Amerika Serikat.

HAL dapat berbicara dengan sempurna, juga mengerti maksud manusia yang mengajak atau diajak berbincang. Fiksi ilmiah di bidang komputer ini, tutur John Seabrook dalam "Hello, Hal: Will We Ever Get a Computer We Can Really Talk To?" (The New Yorker, Juni 2008), membuat "semua ahli di bidang komputer berfantasi untuk dapat mewujudkan HAL dalam bentuk nyata."

Seabrook menambahkan, film ini juga "memancing Bill Gates, sosok di balik menjamurnya komputer di tengah masyarakat dunia, memprediksi bahwa speech recognition (pengenalan suara atau teknologi di balik HAL) akan menjadi the nex bing thing di dunia komputer masa depan."

Setelah 2001: A Space Odyssey (1968) tayang, para ahli dunia komputer berlomba-lomba mencoba merealisasikan HAL. Pertama-tama, diterjemahkan melalui kemunculan Interactive-Voice-Response System atau IVR.

Sistem berbasis telepon ini, alih-alih mengizinkan masyarakat untuk langsung berbicara dengan petugas layanan konsumen/pelanggan, malah meminta masyarakat mendengarkan suara robot yang telah diset dan seolah-olah dapat berinteraksi secara natural.

Mereka diberi pilihan menekan tombol 1, 2, atau 3, sesuai dengan FAQ (pertanyaan yang sering ditanya) yang telah diurutkan. Namun umumnya IVR menyerah dengan mengarahkan masyarakat untuk dapat berbicara langsung dengan petugas layanan konsumen dengan menekan tombol 4 terlebih dahulu.

Meski demikian, perlahan IVR berkembang. Atas kolaborasi yang dilakukan Ford, Microsoft, dan Nuance, muncul Sync sebagai sistem yang disematkan di mobil. Sistem ini memanfaatkan suara yang dikeluarkan penggunanya, dapat dimanfaatkan untuk mengendalikan iPod atau meminta sistem navigasi mengarahkan ke tujuan.

IVR telah berkembang menjadi voice-command yang kemudian disempurnakan Google melalui penciptaan 411 Service dan Apple lewat Alex. Dua voice-command ini menawarkan teknologi natural-language, atau memungkinkan penggunanya menggunakan bermacam ekspresi kata untuk memerintah.

Dari IVR yang telah berkembang menjadi voice-command itulah, berbarengan dengan dirilisnya iPhone 4S pada 2011, Siri lahir. Lalu disusul oleh Google Assistant, Alexa, dan Cortana sebagai asisten digital.

Jacon Aron dalam "Your iPhone is Listening" (New Scientist, Oktober 2011), menyebut bahwa Siri serta semua asisten digital, secara fundamental--selain memanfaatkan natural-language--dibangun menggunakan teknologi bernama active ontologies.

Teknologi ini "membatasi kueri (kata kunci yang diucap pengguna) ke area tertentu seperti makanan atau cuaca [...] Dan dari kueri yang dibatasi ini, Siri kemudian mengakses ke database informasi yang dimiliki sesuai, atau menembak informasi melalui application programming interface yang kian menjamur di dunia web, dengan kueri yang diberikan guna memberikan jawaban/tanggapan."

Dibarengi dengan pemanfaatan big data serta neural network, active ontologies berkembang dan memungkinkan penggunanya bertanya dengan kueri-kueri yang berbeda.

Infografik Hei Siri

Infografik Hei Siri. tirto.id/Fuad

Dengan memanfaatkan active ontologies, Siri dan semua asisten digital dianggap sebagai teknologi spektakuler karena untuk pertama kalinya keragaman tanya-jawab antara si pengguna dengan si asisten digital dapat dilakukan secara hampir sempurna.

Sayangnya, active ontologies pada pondasi terdasarnya hanya merupakan "win-win solution" yang dihadirkan Apple/Google/Microsoft/Amazon. Musababnya, ketika Siri atau Google Assistant ditanya pengguna di luar kueri yang termaktub dalam active ontologies, asisten digital nge-blank atau tak bisa menjawab.

Juga, dibandingkan HAL dalam 2001: A Space Odyssey (1968), Siri/Google Assistant/Alexa/Cortana tak dapat berinteraksi sempurna ketika mengajak atau diajak pengguna berbincang.

Mengapa lebih dari setengah abad setelah HAL muncul film karya Stanley Kubrick, Siri/Google Assistant/Alexa/Cortana tak dapat berinteraksi sempurna dengan penggunanya (manusia)?

Jawabannya sederhana. Kekuatan manusia berkomunikasi dengan sesamanya sukar ditiru oleh komputer/robot. Ya, secara mekanis, komputer/robot saat ini memang telah berhasil meniru bagaimana manusia menghasilkan suara dan mendengar.

Sejak akhir abad ke-18, ilmuwan asal Hungaria bernama Wolfgang von Kempelan berhasil membangun mesin yang dapat berbicara dengan meniru saluran vokal manusia. Mesin ini menghasilkan suara atas embusan napas yang merongrong dari diafragma paru-paru untuk menggetarkan membran kecil bernama pita suara.

Meskipun teknis bagaimana manusia mendengarkan suara sukar ditiru karena melibatkan pemrosesan sinyal guna mengubah gelombang udara menjadi impuls listrik, komputer/robot berhasil pula mengimitasi kemampuan ini dua abad silam.

Namun, keberhasilan meniru bagaimana manusia mengeluarkan suara dan mendengarkan suara tak cukup. Sebab, pertama, manusia berbicara dengan ragam bahasa, dan karenanya memiliki ciri/aksen suara berbeda.

Sehebat apapun kemampuan komputer mengimitasi kemampuan manusia mendengar, telinga manusia sangat sensitif, dapat membedakan, misalnya, perbedaan kopi panas atau dingin hanya dengan mendengarkan suara yang dihasilkan ketika kopi dituangkan.

Kedua, sebagaimana dipaparkan Matthew Hutson dalam "Can Computers Learn Common Sense?" (The New Yorker, April 2022), komputer atau robot tak memiliki common sense.

Sebagai contoh, ketika seorang manusia Indonesia mengeluh pada temannya tentang permasalahan yang tak bisa diselesaikannya padahal si teman telah memperingatkannya, si teman dapat menjawab perbincangan tersebut hanya dengan "kan!". Sementara komputer atau robot, tentu tak mengerti maksud "kan" ini.

Baca juga artikel terkait SIRI atau tulisan lainnya dari Ahmad Zaenudin

tirto.id - Teknologi

Penulis: Ahmad Zaenudin
Editor: Irfan Teguh Pribadi