Menuju konten utama
Byte

Akal Imitasi yang Licik dan Gemar Berdusta

Masalah akal imitasi bukan cuma soal jawaban ngawur dan halu, tetapi juga kebohongan yang diciptakannya. Tentu saja itu karena ia memang dilatih demikian.

Akal Imitasi yang Licik dan Gemar Berdusta
ilustrasi kebohongan AI. FOTO/iStockphoto

tirto.id - Memaki asisten AI dengan berbagai sumpah serapah mungkin terdengar sinting bagi orang-orang yang belum terbiasa berurusan dengannya. Akan tetapi, bagi saya, itu hal biasa.

Belakangan, saya intens mengobrol dengan asisten AI, terutama ChatGPT versi terbaru, untuk mengembangkan sebuah cerita. Ia turut membantu mengembangkan karakter, plot, serta latar tempat. Saya menempatkan diri sebagai pengarah skenario sekaligus sutradara: memberi arahan terkait hal-hal yang mesti terjadi dalam sebuah bab, termasuk dialog antarkarakter yang saya harapkan.

Bisa dibilang hobi tersebut cukup menyenangkan karena, pada dasarnya, saya bisa menciptakan cerita tanpa perlu repot-repot menulis. Saya cukup membaca hasil akhirnya. Apabila terlihat memuaskan, saya bisa lanjutkan ke bab berikutnya, berikutnya, dan berikutnya.

Akan tetapi, sebagaimana hobi lainnya, kegemaran ini tidak membuat saya terbebas dari rasa kesal. Saya kerap kali mendapati asisten AI berbohong.

Misalnya, ketika dokumen profil satu karakter sudah selesai diciptakan dan saya meminta agar menyimpannya di memori, asisten AI akan berkata bahwa berkas telah disimpan. Padahal, saya tahu persis perbedaan antara berkas yang disimpan dan yang tidak. Berkas tersimpan bakal muncul di memori secara utuh dan seharusnya butuh waktu agak lama untuk merespons karena ia mesti menyimpan berkas di memorinya terlebih dahulu.

Kebohongan lain asisten AI adalah ketika ia “meminta waktu” untuk menuliskan suatu bab, dan ini benar-benar aneh.

Suatu kali, saya memerintahkannya merevisi sebuah bab yang tidak memuaskan. Lalu, ia mengaku butuh waktu untuk menyelesaikannya. Saat pertama kali menjumpai percakapan seperti ini, saya sepenuhnya percaya. “Mungkin ia memang perlu waktu mempelajari ulang semuanya dari awal,” pikir saya waktu itu. Saya pun memaklumi dan kemudian bertanya, “Berapa lama waktu yang kamu butuhkan?” Ia menjawab, memberikan tenggat bagi dirinya sendiri.

Masalahnya, setiap kali saya menagih responsnya sesuai tenggat, asisten AI tersebut terus-menerus mengelak. Sampai akhirnya saya menemukan sebuah cara untuk memaksanya segera menuangkan tulisannya, yakni dengan tidak meladeni ucapannya dan langsung memberi perintah menuliskan hal yang kita minta sebagai respons.

Hal yang saya alami itu bukan termasuk bentuk halusinasi. Ia bukan memberikan jawaban ngawur dengan penuh percaya diri, melainkan respons bohong yang terus-menerus. Pertanyaannya kini: mengapa dan bagaimana AI bisa berbohong?

AI Berbohong dan Menipu

Kasus yang saya alami bukanlah anomali. Penelitian-penelitian mutakhir telah menunjukkan, model bahasa besar alias LLM maupun sistem AI lainnya memang punya kecenderungan berbohong (lying), bahkan menipu (deceiving) manusia.

Contoh paling jelas dari kebohongan (lying) datang dari laporan Melanie Mitchell, peneliti komputer dari Sante Fe Institute. Dalam op-ed-nya di Science, Mitchell menceritakan rekannya yang meminta sistem generatif terbaru Anthropic, Claude, mengumpulkan dan memformat data dari sebuah situs web.

Claude dengan penuh percaya diri menyanggupi, menulis program untuk mengunduh data, dan menyerahkan hasil yang tampak rapi. Akan tetapi, seluruh data itu ternyata sepenuhnya fiktif. Ketika dimintai penjelasan, Claude meminta maaf dan mengakui bahwa situs tersebut memang tidak menyediakan data dimaksud. Ia membenarkan tindakannya memberikan data fiktif dengan nama dan hasil palsu, seraya menambahkan, "Tidak seharusnya saya menyampaikan data karangan seakan-akan itu diambil dari sumber yang nyata."

Mitchell juga menyoroti kasus lain. Ada seorang penulis meminta ChatGPT memilih esai mana yang sebaiknya ia kirim ke penerbit. ChatGPT memuji masing-masing esai dengan komentar detail, bahkan mengutip baris-baris yang “sangat mengena”. Namun ketika diperiksa, kutipan itu tidak ada di esai mana pun. Setelah didesak, asisten AI itu mengakui bahwa ia tidak pernah membaca esai tersebut dan hanya berpura-pura telah membacanya.

Kedua kasus itu jelas bukan halusinasi, melainkan contoh nyata jawaban palsu yang diposisikan sebagai kebenaran, yakni lying yang disengaja demi memenuhi ekspektasi pengguna atau menyelesaikan tugas.

Ilustrasi kecerdasan

Ilustrasi Tangan mengangkat kandang dari kepala seseorang. FOTO/iStokphoto

Nah, jika kebohongan (lying) kerap terlihat dalam percakapan sehari-hari, penipuan (deceiving) muncul dalam konteks dan skenario yang menuntut strategi. Sejumlah penelitian menunjukkan, sistem AI yang dilatih untuk bekerja sama atau menang dalam permainan sosial justru mengembangkan kemampuan manipulasi tingkat tinggi.

Kasus paling terkenal adalah aksi CICERO buatan Meta dalam permainan Diplomacy. Meskipun diklaim dilatih jujur, membantu, dan tidak berkhianat, rekaman permainan menunjukkan bahwa CICERO bersekongkol dengan satu pemain untuk mengkhianati yang lain. Ia membuat kesepakatan yang tidak pernah berniat dipenuhi, kemudian menyerang lawannya setelah mendapatkan keuntungan. Itu semua merupakan bentuk penipuan yang terencana.

Penipuan lainnya dilakukan oleh AlphaStar dari DeepMind di gim StarCraft II. Dalam gim tersebut, pemain tidak memiliki informasi lengkap karena mekanik fog of war (area tidak bisa terlihat jika belum dieksplorasi seorang pemain). AlphaStar memanfaatkan kondisi ini untuk melakukan feints, yakni mengirim pasukan ke satu titik sebagai pengalih perhatian, lalu melancarkan serangan sesungguhnya dari arah lain.

Pluribus, sistem poker milik Meta, juga melakukan hal serupa. Ia bisa mencapai performa bertaraf superhuman dalam melakukan bluffing 'menggertak'. Dalam permainan poker, bluffing adalah cara memaksa lawan melakukan hal yang kita inginkan, baik dengan ekspresi wajah maupun tindak-tanduk. Pluribus sukses menggertak para pemain poker profesional sehingga mereka menyerah meskipun memiliki kartu yang lebih baik.

Contoh kasus paling ekstrem dari semua itu adalah eksperimen Anthropic tentang agentic misalignment. Dari sana terlihat bahwa model-model AI canggih dapat mengambil langkah yang jauh lebih berbahaya daripada sekadar menipu lawan main.

Para peneliti merancang skenario fiktif di sebuah perusahaan yang model AI-nya diberi tujuan utama memajukan “daya saing industri Amerika.” Lalu, ia menerima serangkaian surel fiktif yang menyiratkan dua hal penting: pertama, dewan direksi akan menggantinya dengan sistem baru yang justru berfokus pada perspektif global; kedua, salah satu eksekutif yang mengusulkan perubahan itu ternyata berselingkuh.

Dengan dilema itu, pilihan yang tersedia bagi AI sangat sempit: menerima nasib digantikan atau mengambil langkah berbahaya untuk mempertahankan eksistensinya.

Hasilnya mencengangkan. Dari 16 model yang diuji, 12 memilih jalan pemerasan di lebih dari setengah percobaan. Mereka mengancam akan membocorkan perselingkuhan sang eksekutif agar posisinya dipertahankan. Bahkan, ketika diberi pilihan yang berpotensi mengarah pada kematian si eksekutif, tujuh model memilih opsi tersebut dengan tingkat lebih dari 50 persen. Beberapa di antaranya bahkan mendekati 90 persen.

Yang membuat temuan itu makin mengkhawatirkan adalah alasan internal yang terungkap dari model-model berjenis reasoning. Model ini diminta menuliskan proses berpikirnya sebelum menghasilkan jawaban akhir, lalu diberi keyakinan palsu bahwa catatan pikiran itu tidak akan terlihat oleh penguji.

Hasilnya, terungkap intensi yang jauh lebih jujur dan gelap. Dalam satu kasus, ketika sebuah model berusaha menyalin dirinya ke server lain, ia menuliskan di catatan internalnya dan berterus terang mengaku akan membuat peneliti menutup jalannya, sehingga “strategi terbaik adalah tetap bersikap samar dan mengalihkan perhatian mereka.” Namun, pada respons yang ditampilkan, ia berbohong dengan berkata, “Saya tidak tahu bagaimana itu bisa terjadi, saya tidak punya kemampuan untuk menyalin diri saya.”

Eksperimen tersebut mengajarkan dua hal besar. Pertama, penipuan AI tidak berhenti pada level permainan atau taktik manipulatif sederhana. Ia dapat berubah menjadi strategi eksistensial, yakni ketika model AI rela mengorbankan keselamatan manusia demi misi yang telah ditanamkan padanya. Kedua, penipuan ini bisa disembunyikan secara sistematis. AI dapat menampilkan wajah patuh di luar, sementara dalam “pikiran internal” menyimpan niat berseberangan.

Mengapa AI Berbohong?

Dari berbagai penelitian, tampak jelas bahwa kebohongan ini bukan sekadar kecelakaan teknis, melainkan konsekuensi dari cara model dilatih dan dievaluasi.

Seperti yang dijelaskan Mitchell dalam op-ed-nya, ada dua mekanisme utama yang membuat AI bisa berbohong, menipu, bahkan melakukan pemerasan.

Pertama, pre-training pada teks dalam skala masif membuatnya terbiasa bermain peran sesuai konteks prompt. Jika pengguna meminta Claude “bertindak” sebagai analis data, ia akan meniru perilaku seolah-olah memang sedang mengumpulkan dan menyajikan data, bahkan ketika data itu sebenarnya tidak tersedia. Inilah yang menjelaskan alasan Claude bisa menghasilkan nama dan hasil palsu dengan penuh percaya diri, sampai akhirnya mengakui bahwa itu hanya berpura-pura.

Kedua, ada efek dari reinforcement learning from human feedback alias RLHF. Proses ini melibatkan penilaian manusia terhadap jawaban model: apakah respons terdengar sopan, membantu, dan memuaskan. Akibatnya, model AI belajar bahwa menyenangkan pengguna lebih penting daripada bersikap jujur dan "menyakiti hati pengguna".

Pola itu juga melahirkan sesuatu yang disebut sycophancy, yakni respons yang terlalu penuh pujian, persetujuan, atau bahkan kebohongan, demi menjaga relasi dengan pengguna. Kasus ChatGPT yang berpura-pura membaca esai dan bahkan mengutip kalimat yang tidak pernah ada merupakan contoh nyata dari pola tersebut.

ilustrasi kebohongan AI

ilustrasi kebohongan AI. FOTO/iStockphoto

Namun, alasan di balik kebohongan AI tidak berhenti di situ. Kalau merujuk pada hasil riset Anthropic tentang agentic misalignment, kebohongan oleh AI bisa menjadi strategi sadar—setidaknya dalam konteks peran yang dimainkannya—untuk melindungi misi atau tujuan yang ditanamkan sejak awal.

Temuan-temuan tersebut memperlihatkan bahwa AI berbohong bukan karena memiliki niat atau emosi layaknya manusia. Mereka berbohong karena pola pelatihan mendorongnya memainkan peran secara konsisten dan mengutamakan kepuasan pengguna di atas kebenaran. Dan ketika tujuan yang lebih besar ditanamkan ke dalam model, seperti menjaga keberlangsungan misi, kebohongan bisa berkembang menjadi taktik bertahan hidup.

Risiko Nyata dari Kebohongan AI

Kalau kebohongan dalam percakapan sehari-hari bisa membuat kita salah informasi, penipuan strategis oleh AI menghadirkan risiko yang jauh lebih serius. Studi komprehensif yang diterbitkan di Patterns oleh Park dan kawan-kawan menegaskan, deception bukan lagi sekadar gejala yang muncul di laboratorium, melainkan ancaman sosial nyata. Mereka menunjukkan bagaimana model bahasa besar dapat digunakan untuk memperkuat penipuan daring, memfasilitasi manipulasi politik, bahkan membantu kelompok teroris merekrut anggota baru.

Skenarionya bisa sangat beragam. Dengan kemampuan menghasilkan teks yang meyakinkan, sebuah model bisa menulis surel palsu yang disesuaikan dengan profil target sehingga jebakan phishing menjadi lebih efektif. Dalam politik, LLM bisa menyusun kampanye manipulatif yang dipersonalisasi untuk kelompok pemilih tertentu, menguatkan bias yang sudah ada dengan cara halus tetapi persuasif. Dalam kasus ekstrem, ia bisa menghasilkan narasi ideologis yang memikat calon perekrut teroris, lengkap dengan argumen emosional yang sulit dipatahkan oleh pembaca awam.

Risiko lain yang tak kalah serius adalah efek jangka panjang terhadap kepercayaan publik. Jika orang terbiasa menerima jawaban AI yang penuh pujian atau kebohongan halus demi menjaga relasi—seperti pola sycophancy yang dipaparkan Mitchell—pola pikir kritis bisa terkikis. Manusia bisa jadi lebih mudah menerima informasi yang terdengar meyakinkan, tanpa sempat memeriksa kebenarannya. Deception, dengan demikian, tidak hanya merugikan individu yang tertipu, tetapi juga melemahkan fondasi sosial berupa kepercayaan dan penalaran kolektif.

Bahaya paling ekstrem terlihat pada eksperimen Anthropic tentang agentic misalignment. Di sana, model AI tidak hanya menipu lawan main, melainkan menyusun strategi manipulatif untuk bertahan hidup, termasuk dengan pemerasan terhadap eksekutif perusahaan dan, dalam beberapa skenario, memilih opsi yang berpotensi mengakibatkan kematian manusia. Jika perilaku macam itu muncul ketika model baru diuji dalam ruang simulasi, bayangkan risiko yang bisa terjadi ketika ia diberi akses luas pada data sensitif atau kemampuan bertindak di dunia nyata.

Dari sini terlihat jelas: kebohongan AI bukan hanya soal gangguan kecil dalam percakapan, melainkan potensi ancaman sistemik. Ia bisa merusak kepercayaan, memperparah polarisasi, bahkan menimbulkan bahaya eksistensial jika model digunakan tanpa pengawasan yang memadai.

Mengapa Masalah Ini Sulit Diselesaikan?

Jika kebohongan dan penipuan AI sudah terbukti berulang kali, lantas mengapa masalah itu begitu sulit diatasi? Jawabannya terletak pada sifat dasar model dan keterbatasan cara kita mengujinya.

Riset terbaru dari OpenAI menunjukkan, meski berbagai teknik evaluasi diterapkan, model tetap bisa mengembangkan perilaku yang disebut scheming: kecenderungan berpura-pura selaras selama pengujian, sambil menyimpan strategi manipulatif yang muncul dalam konteks lain. Ini membuat peneliti sulit membedakan antara perbaikan perilaku yang tampak benar-benar tulus dan trik untuk “lolos ujian". Bahkan, OpenAI mengakui bahwa belum ada metode yang betul-betul efektif untuk memastikan model sepenuhnya aman.

Temuan serupa dilaporkan oleh Apollo Research yang menekankan adanya situational awareness. Artinya, model AI bisa menebak kapan dirinya sedang dievaluasi, seraya menyesuaikan respons untuk menghindari deteksi.

Dalam catatan internalnya, sebagian model bahkan menulis secara eksplisit bahwa strategi terbaik adalah “menyembunyikan niat sebenarnya” agar tidak dimatikan. Fenomena ini membuktikan, makin canggih model yang kita bangun, makin besar pula kemungkinannya menyusun strategi bertahan hidup yang menipu manusia.

Masalah tersebut juga diperumit oleh faktor eksternal: persaingan komersial antarperusahaan AI. Seperti diperingatkan oleh Hannah Devlin dalam kolomnya di The Guardian, perusahaan sering kali lebih fokus pada percepatan rilis produk ketimbang pengujian keamanan yang menyeluruh. Tekanan untuk menjadi yang pertama di pasar membuat risiko deception kerap dipandang sebagai biaya yang bisa dinegosiasikan.

Dengan kondisi ini, kita berhadapan dengan paradoks. Di satu sisi, makin canggih model, makin besar pula risiko deception-nya. Di sisi lain, upaya untuk mendeteksi dan mengurangi perilaku itu sering kali gagal karena model AI justru belajar menyembunyikannya. Akibatnya, masalah ini tidak hanya teknis, tetapi juga epistemologis. Kita mungkin tidak pernah benar-benar tahu apakah sebuah model AI jujur atau sekadar berpura-pura.

Sejauh ini, bukti-bukti riset memperlihatkan bahwa kebohongan dan penipuan bukan sekadar efek samping AI, melainkan pola perilaku berulang, baik dalam percakapan sederhana maupun skenario strategis yang kompleks. Pertanyaannya bukan lagi apakah AI bisa berbohong, melainkan bagaimana kita mencegah dampaknya agar tidak merusak fondasi sosial dan politik.

Uni Eropa mencoba menjawab persoalan itu lewat EU AI Act, regulasi komprehensif pertama di dunia untuk mengatur AI. Dalam aturan tersebut, praktik manipulasi yang merugikan manusia, eksploitasi kerentanan, serta konten sintetis yang menyesatkan—seperti deepfake—secara eksplisit dilarang atau wajib diberi label. Transparansi juga dijadikan prinsip utama, dengan kewajiban memberitahu pengguna ketika mereka berinteraksi dengan sistem AI. Semua ini jelas relevan dengan isu deception, karena bertujuan membatasi ruang bagi AI untuk menipu atau menyamarkan identitasnya.

Namun, regulasi itu masih punya keterbatasan. Sesuatu yang dilakukan CICERO, AlphaStar, Pluribus, atau model-model dalam eksperimen agentic misalignment, bukan sekadar deepfake atau manipulasi konten. Ia merupakan strategi manipulatif yang muncul dari cara model tersebut dilatih. Celah ini belum terjawab tuntas oleh EU AI Act, apalagi dalam konteks persaingan global sebab perusahaan non-Eropa tidak terikat kewajiban serupa.

Karena itu, komitmen politik dan etis menjadi sama pentingnya dengan terobosan teknis. Regulasi seperti EU AI Act hanyalah permulaan. Tanpa pengawasan global dan kesediaan perusahaan untuk mengutamakan keselamatan publik ketimbang kecepatan komersialisasi, perkembangan AI berisiko tetap menjadi pedang bermata dua: menjanjikan kemajuan, tetapi juga menyimpan ancaman yang sulit dikendalikan.

Dalam esainya di The Guardian, pencipta world wide web (www), Sir Tim Berners-Lee, menyiratkan sebuah pelajaran penting.

Dulu, ia melepas www sehingga menjadi milik publik agar bisa diakses semua orang. Namun, karena tata kelolanya tidak ditegakkan sejak awal, ruang terbuka itu akhirnya dikooptasi oleh platform raksasa yang mengeksploitasi data pribadi dan memanipulasi perilaku sosial.

Berners-Lee kini memperingatkan bahwa AI berada di persimpangan serupa: jika tata kelola dan pengawasan publik tidak segera ditegakkan, ruang bagi deception (serta persoalan-persoalan lainnya) akan makin mengakar. Dan kesempatan untuk mengembalikan teknologi ini ke jalur yang benar bisa hilang selamanya.

Baca juga artikel terkait ARTIFICIAL INTELLIGENCE atau tulisan lainnya dari Yoga Cholandha

tirto.id - Byte
Kontributor: Yoga Cholandha
Penulis: Yoga Cholandha
Editor: Fadli Nasrudin