tirto.id - "Kematian mp3 diumumkan dalam ruang konferensi di Erlangen, Jerman, pada musim semi 1995," tulis Stephen Witt dalam buku How Music Got Free (2015).
Untuk terakhir kalinya, dalam pertemuan tersebut, sekelompok pakar audio melecehkan teknologi itu untuk menyanjung saingan abadinya, mp2.
Sang penemu mp3, Karlheinz Brandenburg, sadar nasib ciptaannya memang telah berakhir karena kalah bersaing dengan mp2. Ketiadaan perusahaan audio yang mau menggunakan mp3 dalam pelbagai perangkat yang mereka diproduksi membuatnya tak memiliki uang untuk mempertahankan kelangsungan hidup mp3.
Namun di balik pengakuan kekalahan ini, Brandenburg percaya bahwa mp3--bukan kelanjutan mp2 (hanya penamaan)--menyajikan kualitas audio digital yang jauh lebih baik dibandingkan mp2.
Diciptakan sebagai buah dari disertasinya untuk memperoleh gelar PhD dari Friedrich-Alexander University dengan bantuan maestro ilmu audio Jerman bernama Dieter Seitzer, Brandenburg membangun mp3 melalui disiplin bertajuk "psychoacoustics (psikoakustika)", sains di balik bagaimana manusia mendengarkan suara.
Lewat ilmu tersebut, diketahui bahwa telinga manusia tidak berfungsi seperti mikrofon. Sebaliknya, telinga merupakan organ adaptif yang telah ditentukan "invisible hand". Pertama, fungsinya untuk mendengar dan menafsirkan bahasa dari suara yang diterima. Kedua, mengaktifkan sistem peringatan dini secara otomatis apabila suara yang diterima terlalu kencang.
Artinya, dalam menginterpretasi suara, terdapat ragam detail audio yang tak diproses telinga.
Sebagai contoh, siapapun dapat membedakan dua suara simultan yang dipisahkan oleh setengah nada atau lebih. Tetapi, lewat pengetahuan ini, dengan mendekatkan kedua suara tersebut dalam tala atau tinggi nada (pitch), pendengar dapat dikelabui untuk percaya hanya mendengarkan satu suara.
Sebelum Brandenburg mengembangkan mp3, dunia audio digital hampir sepenuhnya didistribusikan via CD. Barang ini mengemas hasil konversi sinyal analog dari audio menjadi sinyal digital yang terangkum dalam bentuk bit atau digit binari.
Masalahnya, dalam CD sinyal digital dari sedetik suara stereo, misalnya, membutuhkan porsi penyimpanan lebih dari 1,4 juta bit. Brandenburg, didorong kemunculan dunia baru bernama internet, ingin mengerdilkannya menjadi hanya 128.000 bit.
Terlebih, kecepatan koneksi menjadi kendala besar apabila audio digital yang termuat dalam CD ingin diunggah ke dunia baru itu. Maka, berlandaskan pengetahuannya tentang psikoakustika serta didukung konsep dunia teknologi bernama "data compression," mp3 dikembangkan.
Hebatnya, bukan hanya mengecilnya ukuran bilah (file), kualitas audio pun terjaga.
Secara mendasar, keberhasilan mp3 mengerdilkan porsi penyimpanan dengan tetap mempertahankan kualitas terjadi melalui dua langkah.
Pertama, dalam mp3 terdapat algoritma berupa bilah dari sinyal audio analog yang telah dikonversi menjadi digital dikodekan atau di-incode dalam bentuk lebih ringkas. Ini dengan mengeliminasi ragam detail yang dianggap tak penting atau dianggap dapat dimanipulasi. Hasilnya, kebutuhan bit menjadi mengecil.
Kedua, proses sebaliknya terjadi. Pengkodean itu diurai atau di-decode, memerintahkan algoritma menata ulang audio mirip seperti aslinya (sinyal analog).
Dalam kompresi ini, terdapat ragam detail audio (dari sinyal analog) yang hilang alias kerja mp3 dapat dianggap sebagai "lossy" karena bilah yang dihasilkan tak sesuai/persis dengan aslinya.
Namun, lewat algoritma mp3 yang telah dibumbui psikoakustika, ragam detail yang telah dimusnahkan itu dibuat seakan-akan tetap ada, dengan memanipulasi sinyal audio yang dianggap penting (yang telah dikodekan).
Hasilnya, kualitas audio mp3 tak berbeda jauh dengan CD--format yang dianggap "lossless" karena berhasil mempertahankan ragam detail sinyal analog yang dikonversi menjadi sinyal digital.
Dalam menganalogikan audio sebagai teks/tulisan/buku, CD mengutip atau meng-copy paste tulisan, sementara mp3 melakukan parafrasa teks. CD menyodorkan konversi digital buku persis seperti aslinya, sementara mp3 memberikan esensi/inti dari buku yang telah dikonversi ke bentuk digital, buah dari kompromi berupa kompresi yang dilakukan.
Kerja brilian Brandenburg ini senada dengan bagaimana ChatGPT, kecerdasan buatan bikinan OpenAI, bekerja.
Beragam Kecerdasan Buatan
Wenxiang Jiao, peneliti kecerdasan buatan pada Tencent AI Lab, dalam studinya berjudul "Is ChatGPT a Good Translator?" (arXiv, Januari 2023), menyebut bahwa ChatGPT merupakan kecerdasan buatan berbentuk obrolan (chat) yang menjawab pertanyaan--juga mengakui kesalahan, menentang premis yang salah, dan menolak permintaan yang tidak pantas--sesuai alur obrolan dengan penggunanya.
Kecerdasan buatan ini dibangun lewat GPT3 atau "model weights" alias bilah raksasa hasil dari mengunduh konten dari seluruh pangkalan data, seperti Wikipedia, Github, pelbagai jejaring sosial, gambar/foto di jagat maya, dll.
Selanjutnya dipetakan ulang via algoritma ciptaan Google bernama Transformer ("T" dalam "ChatGPT" ataupun "GPT3") untuk meminimalkan kebutuhan media penyimpanan.
ChatGPT dikategorikan sebagai Generative AI atau kecerdasan buatan yang dapat menghasilkan konten baru, yang berbeda dengan pelbagai kecerdasan buatan sebelumnya, yang operasinya lewat skema if-else.
Dalam skema ini, kecerdasan buatan hanya memberikan jawaban jika pertanyaan yang diberikan sesuai dengan struktur if-else dalam pangkalan data yang dimiliki.
Sebagai contoh, jika ditanya "apa itu garis khatulistiwa?" kecerdasan buatan akan mencari kata "garis khatulistiwa" sebagai pokok dari pertanyaan dengan bumbu "if" berbentuk kata "merupakan" atau "adalah". Setelah itu memberikan jawaban berupa, "garis khatulistiwa merupakan/adalah ..."
Maka, jika bumbu "if" tak tersedia, kecerdasan buatan tak bisa memberikan jawaban. Sebaliknya, Generative AI tak membutuhkan "if".
Seperti psikoakustika dalam algoritma mp3, Generative AI dapat menghindari if-else, memahami makna pertanyaan dengan lebih baik untuk memberikan jawaban atau tak saklek dalam memahami pertanyaan dan bilah data sebagai sumber jawaban yang dimiliki.
Terlebih, dalam kasus ChatGPT, penanggalan if-else dapat dilakukan karena kecerdasan ini dilatih dengan sistem Reinforcement Learning for Human Feedback.
Selain GPT3, Transformer, dan Reinforcement Learning for Human Feedback, kepopuleran ChatGPT saat ini didukung atas keputusan OpenAI mengembangkan pelbagai kecerdasan buatan yang memiliki kemampuan berlainan.
Sebelum menciptakan ChatGPT, OpenAI terlebih dulu mengembangkan DALL-E (gambar/foto), Jukebox (audio), Whisper (percakapan/dialog), dan GPT3 (teks). Ini sejalan dengan pendapat Rich Sutton, ilmuwan komputer di balik DeepMind.
Dalam esainya bertajuk "The Bitter Lesson" (2019) Sutton menyebut bahwa "lebih baik memiliki program yang lebih sederhana yang tahu cara belajar, berjalan di komputer yang cepat, dan menugaskannya untuk memecahkan masalah yang rumit untuk dirinya sendiri."
Ini artinya lebih baik membangun kecerdasan buatan secara beragam dan berbeda-beda kemampuannya lebih dulu alih-alih mengembangkan satu kecerdasan buatan utuh yang dapat melakukan segalanya.
Dalam mengembangkan ragam kecerdasan buatan, tak seperti lima pesaingnya di dunia Generative AI, yakni Google (Google Research), DeepMind, Meta AI (Facebook), Runway, dan Nvidia, OpenAI memilih menerapkan konsep sumber terbuka (open source) bagi semua kecerdasan buatan yang dibuat. Ini membuat masyarakat dunia dapat membantu perkembangannya.
Konsep ini memang tak hanya dilakukan OpenAI. DeepMind, misalnya, merilis kode-sumber mereka bernama AlphaZero. Namun, berbeda dengan DeepMind, OpenAI rela membuka "model weights" sebagai otak utama dari setiap kecerdasan buatan yang dikembangkan. Hasilnya, ragam kecerdasan buatan bikinan OpenAI lebih cepat berkembang yang akhirnya melahirkan ChatGPT.
Belum Optimal
Kerja ChatGPT yang mirip mp3, yakni dengan pemetaan ulang ragam konten yang diunduh dari jagat maya untuk disajikan dengan memparafrasa ulang versi originalnya sebagai jawaban, tentu masih menghasilkan cela tersendiri.
Saat ChatGPT diminta untuk menjelaskan "what is Crowdfunding?", seperti dituturkan Karsten Wenzlaff dalam "Smarter than Humans?" (WiSo-HH Working Paper Series, No. 75 2022), AI terlalu menyederhanakan dan memilih sumber-sumber populer dalam memberikan jawaban.
ChatGPT menjawabnya: "Crowfunding is method of raising money for a project or venture by soliciting small contributions from a large number of people, typically via internet."
Wenzlaff menduga jawaban tersebut adalah parafrasa dari konten-konten SEO yang bertebaran di internet.
Padahal, menurut Wenzlaff, rujukan terbaik untuk menjawab pertanyaan tertuju pada jurnal tahun 2012 yang ditulis Lambert Schwienbacher berjudul "Tapping the Right Crowd" (dianggap terbaik karena jurnal ini disitasi lebih dari 3.600 kali oleh para peneliti).
Schwienbacher menyebut "Crowfunding involves on open call, mostly throught the Internet, for the provision of financial resource either in the form of donation or in exchange for the future product or some form of reward to support initiatives for specific purpose."
Dalam menjawab pertanyaan, ChatGPT tak memberikan sumber (berupa tautan) dari mana parafrasa berasal, juga tak memberikan pilihan jawaban lain sebagai alternatif bagi pengguna dalam menentukan kelayakan jawaban.
Wenzlaff menambahkan, setelah menguji ChatGPT dengan ragam pertanyaan, ChatGPT dianggapnya lebih baik dibandingkan kecerdasan buatan serupa (Google Assistant, Siri, Alexa).
Namun, terkadang ChatGPT memberikan jawaban parafrasa yang mengada-ada. Dan karena tak mengaitkan sumber tautan, pengguna dapat terjebak dalam keterangan yang salah.
Fakta ini diamini Yiqiu Shen dalam "ChatGPT and Other Large Language Models Are Double-edge Swords" (Radiology, 2022), Roberto Gozalo-Brizuela dalam "ChatGPT is Not All You Need" (arXiv, Januari 2023), dan Biyang Guo dalam "How Close is ChatGPT to Human Experts?" (arXiv, Januari 2023).
Mereka mengungkap bahwa dalam ragam pertanyaan berbentuk permintaan saran, ChatGPT mengada-ada jawaban. Kemungkinan buah dari ketidaktransparan ChatGPT memetakan ulang konten-konten SEO.
Maka, menurut para peneliti ChatGPT itu, untuk saat ini (sembari menunggu ChatGPT berkembang lebih baik), mesin pencari arus utama seperti Google dan Bing, misalnya, lebih layak digunakan dan diandalkan.
Sebab, selayaknya CD, mereka memberikan kutipan plus tautan dari mana kutipan tersebut berasal sebagai jawaban dari kueri atau pertanyaan yang diberikan penggunanya.
Namun, Bing keburu bernafsu dengan ChatGPT dan Google merespons kehadiran ChatGPT dengan merilis Bard.
Editor: Irfan Teguh Pribadi