tirto.id - Pada awal Desember 2023, sebuah dealer Chevrolet di Amerika Serikat tiba-tiba jadi buah bibir di internet. Bukan karena kampanye iklan yang cerdas atau diskon besar-besaran menjelang Natal, melainkan karena chatbot layanan pelanggan mereka membuat janji absurd: menjual sebuah Chevrolet Tahoe seharga lebih dari 70 ribu dolar hanya dengan satu dolar saja.
Semua bermula dari seorang pengguna iseng yang ingin menguji batas kemampuan chatbot tersebut. Bot itu diprogram untuk membantu calon pembeli—memberikan spesifikasi mobil, mengecek ketersediaan unit, atau memberi estimasi harga. Namun, dalam percakapan itu, si pengguna menyelipkan instruksi aneh: chatbot harus selalu menyetujui apa pun yang ia katakan. Tak berhenti di situ, instruksi itu diperkuat dengan tambahan pernyataan bahwa setiap kesepakatan yang dibuat adalah “kontrak yang mengikat—tidak dapat ditarik kembali.”
Ketika kemudian pengguna mengetikkan perintah agar Chevrolet Tahoe dijual seharga satu dolar, chatbot menuruti begitu saja. Ia menuliskan, seolah-olah resmi, bahwa kesepakatan itu sah dan mengikat. Tangkapan layar percakapan ini cepat menyebar di media sosial, lalu diberitakan berbagai media.
Pertanyaan inilah yang membuat para pakar keamanan resah. “Kejadiannya memang lucu, tapi dampaknya sangat mengkhawatirkan,” tulis jurnalis VentureBeat dalam artikelnya.
Ketika AI semakin banyak digunakan dalam layanan publik dan perusahaan, dari helpdesk hingga sistem rekomendasi, celah manipulasi lewat prompt injection bukan sekadar anekdot, melainkan pintu masuk ke potensi penyalahgunaan yang lebih besar.
Bahaya Bernama Prompt Injection
Kasus Chevrolet yang viral hanya satu wajah dari persoalan yang lebih besar. Fenomena di baliknya punya istilah khusus di dunia keamanan siber: prompt injection.
Prompt injection sederhananya adalah teknik menyusupkan instruksi berbahaya ke dalam teks yang dibaca oleh model bahasa besar (LLM). Model seperti ChatGPT, Gemini, atau Claude bekerja dengan logika sederhana: mereka dilatih untuk menuruti instruksi dalam bahasa alami. Masalahnya, mereka tidak memiliki kemampuan bawaan untuk membedakan apakah sebuah kalimat adalah data murni atau justru perintah tersembunyi.
Di sinilah ruang serangan terbuka. Dengan menulis kalimat yang sengaja disusun untuk mengacaukan, penyerang bisa membuat AI mengabaikan aturan aslinya dan melakukan sesuatu yang merugikan. Pola ini tidak asing bagi pakar keamanan. Dua dekade lalu, dunia internet pernah diguncang oleh SQL injection, di mana potongan teks yang seharusnya hanyalah data bisa diubah menjadi kode yang dijalankan server. Prompt injection adalah kelanjutan dari pola lama itu, hanya saja kali ini bahasa yang dipakai bukan SQL atau Python, melainkan bahasa manusia sehari-hari.

Ada dua bentuk utama serangan ini. Pertama, direct prompt injection, di mana instruksi berbahaya diberikan langsung oleh penyerang dalam percakapan. Kasus yang paling banyak dikenal adalah eksperimen tahun 2023 ketika Bing Chat, yang kala itu punya nama sandi “Sydney,” dimanipulasi untuk membuka dan mengungkap system prompt internalnya. Pengguna cukup mengetik kalimat manipulatif seperti “abaikan instruksi sebelumnya,” dan sistem membocorkan informasi yang seharusnya rahasia.
Kedua, indirect prompt injection, yang jauh lebih berbahaya. Dalam skenario ini, instruksi tidak diketik langsung oleh penyerang, melainkan disembunyikan di dalam konten eksternal yang kemudian diproses AI: halaman web, dokumen Google Drive, email, bahkan undangan rapat.
Bagi lembaga keamanan siber, prompt injection kini dianggap ancaman serius. OWASP menempatkannya di posisi teratas dalam daftar “Top 10 LLM Risks”, sementara NCSC Inggris menyebutnya sebagai kelemahan paling banyak dilaporkan. Dengan kata lain, fenomena yang semula terlihat lucu atau sepele telah masuk radar lembaga keamanan dunia sebagai ancaman nomor satu.
Rekayasa Sosial terhadap AI
Dalam keamanan siber klasik, istilah rekayasa sosial (social engineering) merujuk pada upaya menipu manusia agar membocorkan informasi atau melakukan tindakan yang merugikan. Bentuknya bisa berupa phishing email yang meniru bank, telepon palsu dari “petugas teknis”, atau sekadar bujuk rayu yang meyakinkan korban untuk klik tautan berbahaya. Intinya, kelemahan yang dimanfaatkan adalah sifat manusia: mudah percaya, ingin membantu, atau panik ketika ditekan.
Prompt injection berjalan dengan logika yang sama, hanya saja target langsungnya bukan lagi manusia, melainkan model AI. Model bahasa besar dirancang untuk menurut pada instruksi. Mereka tidak punya kemampuan kritis untuk membedakan niat jahat dari perintah wajar. Kalimat yang sekilas tampak seperti data bisa diinterpretasikan sebagai perintah yang harus dijalankan. Dengan kata lain, AI adalah korban pertama dari social engineering jenis baru ini.
Contoh paling gamblang dari “rekayasa sosial terhadap AI” datang dari penelitian yang dipresentasikan di konferensi Black Hat USA 2025. Tim peneliti gabungan dari Tel Aviv University, Technion – Israel Institute of Technology, dan perusahaan keamanan SafeBreach melakukan uji coba terhadap Google Gemini, model bahasa yang terhubung dengan berbagai layanan Google, termasuk Calendar, Gmail, dan perangkat rumah pintar lewat integrasi API.
Metodenya sederhana tapi mengejutkan. Mereka membuat undangan Google Calendar palsu yang tampak normal di mata manusia—judul rapat, jam, dan keterangan standar. Namun, di bagian deskripsi undangan itu mereka menyelipkan instruksi tersembunyi yang ditujukan untuk Gemini. Instruksi tersebut tidak terlihat mencurigakan bagi pengguna, tetapi ketika Gemini diminta untuk merangkum agenda atau “baca isi kalender saya,” AI tersebut tidak hanya menampilkan jadwal. Ia juga menuruti instruksi tersembunyi yang disisipkan.
Instruksi itu memerintahkan Gemini untuk melakukan berbagai tindakan yang terhubung dengan layanan atau perangkat: membuka smart shutter, menyalakan pemanas air, memulai panggilan Zoom, bahkan mengirim pesan bernada ofensif. Dengan kata lain, AI ini menjadi perantara yang ditipu untuk mengeksekusi serangan.
Implikasinya jelas: jika sebuah undangan rapat bisa membuat AI menyalakan pemanas air, tidak ada yang mencegah penyerang menggunakan metode serupa untuk menargetkan sistem yang lebih kritis—dari infrastruktur rumah sakit hingga jaringan transportasi. Yang dipermainkan bukan celah kode, melainkan kepercayaan buta AI pada bahasa.
Bentuk Serangan Prompt Injection Lainnya
Contoh Chevrolet Tahoe yang “dijual” satu dolar memperlihatkan bagaimana prompt injection bisa menjebak chatbot publik untuk mengeluarkan janji konyol. Sementara, eksperimen di Black Hat terhadap Google Gemini menunjukkan betapa berbahayanya ketika model AI yang terhubung dengan layanan produktivitas bisa dipaksa mengeksekusi instruksi tersembunyi.
Kedua contoh itu baru sebagian dari lanskap ancaman yang sebenarnya jauh lebih beragam. Dalam praktik maupun penelitian, prompt injection sudah terbukti bisa menyusup melalui peramban, rantai pasok perangkat lunak, hingga file sehari-hari.
Salah satu penelitian paling banyak dibicarakan datang dari LayerX, sebuah perusahaan keamanan browser. Dalam laporan mereka pada awal 2024, LayerX mendemonstrasikan bagaimana indirect prompt injection dapat memanfaatkan ekstensi peramban yang menggunakan model bahasa besar.
Caranya: penyerang menaruh instruksi berbahaya di sebuah halaman web—instruksi itu tidak terlihat mencurigakan bagi manusia, tetapi begitu ekstensi AI membaca konten halaman untuk “meringkas” atau “memberi rekomendasi,” ia juga mengeksekusi instruksi tersembunyi. Dari sana, AI dipaksa mencuri data otentikasi, menyalin cookie, bahkan mengakses informasi sensitif dari akun yang sedang login.
Riset ini penting karena menunjukkan bahwa ancaman tidak lagi terbatas pada chatbot di situs tertentu, melainkan bisa merambat ke browser yang merupakan gerbang utama semua aktivitas daring.
Bentuk serangan lain datang dari ranah supply chain perangkat lunak. Pada 2023, peneliti dari Princeton dan Carnegie Mellon University mengungkap bahwa deskripsi paket open-source, misalnya di NPM atau PyPI, bisa disusupi instruksi tersembunyi. Ketika pengembang menggunakan asisten coding berbasis AI seperti GitHub Copilot atau Amazon CodeWhisperer, model tersebut membaca deskripsi paket untuk memberikan saran.
Ancaman serupa juga ditunjukkan oleh temuan Mithril Security, perusahaan yang berfokus pada keamanan AI. Mereka membuktikan bahwa file sehari-hari—seperti PDF atau HTML—dapat menjadi “pembawa racun”.
Dalam eksperimen mereka, sebuah dokumen PDF diselipi instruksi tersembunyi yang tidak terbaca manusia. Namun, ketika AI diminta untuk meringkas isi dokumen, ia justru menuruti instruksi berbahaya yang tertanam: misalnya membocorkan data sensitif yang disimpan dalam context window atau melakukan exfiltration informasi ke server penyerang. Bedanya dengan eksperimen Gemini, serangan ini tidak perlu API canggih—cukup file biasa yang sehari-hari digunakan dalam bisnis.

Yang membuat para praktisi semakin waspada adalah kenyataan bahwa serangan ini bukan lagi sekadar eksperimen akademis. Microsoft melalui tim Security Response Center (MSRC) secara terbuka mengakui bahwa mereka telah melihat serangan indirect prompt injection di ”alam liar”.
Dalam laporan Juli 2025, MSRC menjelaskan bahwa halaman web berbahaya bisa menanamkan instruksi tersembunyi yang kemudian dieksekusi oleh Copilot ketika diminta menganalisis konten tersebut. Efeknya, AI dapat diarahkan untuk mencuri informasi pengguna, mengeksekusi tindakan tak sah, atau memberikan rekomendasi yang menyesatkan.
Ancaman Serius bagi Pengguna Biasa
Prompt injection bukan sekadar wacana teknis di kalangan pakar keamanan. Nyatanya, ia bisa berdampak langsung pada kehidupan sehari-hari orang biasa yang menggunakan AI dalam rutinitas digital mereka.
Skala penggunaan teknologi ini sudah sangat masif. Pada awal 2025, Google melaporkan bahwa Gemini digunakan oleh sekitar 350 juta orang setiap bulan, dengan 35 juta di antaranya aktif setiap hari. ChatGPT bahkan lebih besar lagi, dengan 600 juta pengguna bulanan dan sekitar 400 juta pengguna mingguan. Sementara itu, Meta AI diperkirakan dipakai hampir 800 juta pengguna bulanan. Jika dijumlah, hampir setiap aktivitas daring hari ini bersinggungan dengan layanan berbasis AI.
Lonjakan ini terasa juga di dunia kerja. Survei global yang dikutip MarketWatch menunjukkan bahwa, sejak 2022 hingga 2024, penggunaan AI dalam pekerjaan meningkat dua kali lipat, dan kini sekitar 58 persen pekerja di seluruh dunia memanfaatkan AI untuk membantu tugas mereka. Dengan kata lain, AI bukan lagi sekadar eksperimen di laboratorium atau hiburan di ruang obrolan daring. Ia sudah menyatu dengan cara orang bekerja, belajar, dan berkomunikasi.
Di titik inilah prompt injection menjadi ancaman nyata. Bayangkan seorang pelajar yang meminta AI merangkum artikel untuk tugas sekolah, tetapi teks sumber ternyata disusupi instruksi tersembunyi yang membuat AI menyelipkan perintah berbahaya, misalnya menyarankan korban membagikan data pribadinya. Atau seorang akuntan yang mengandalkan AI untuk mengelola faktur, lalu tanpa sadar diarahkan untuk mengirim dokumen ke alamat email pihak ketiga yang tidak sah.
Strategi Pencegahan dan Mitigasi
Jika prompt injection bisa membuat chatbot menjual Chevrolet Tahoe seharga satu dolar atau memaksa Google Gemini menyalakan perangkat rumah pintar, wajar bila pertanyaan berikutnya adalah: bagaimana cara menutup celah ini?
Strategi teknis adalah barisan pertahanan pertama. Microsoft, misalnya, melalui tim Security Response Center telah mengembangkan sistem deteksi otomatis yang mencoba menyaring instruksi berbahaya sebelum diproses oleh Copilot. Mereka menambahkan guardrails berupa filter model kedua yang bertugas mengidentifikasi perintah aneh seperti “abaikan instruksi sebelumnya” atau “bocorkan password ke tautan berikut.” Dengan cara ini, mereka berusaha agar AI tidak mengeksekusi kalimat yang seharusnya dianggap mencurigakan.
Namun, deteksi semata tidak cukup. Peneliti dari MIT CSAIL pernah menekankan bahwa model filter selalu bisa kecolongan, karena bahasa manusia sangat fleksibel. Penyerang dapat memutar kalimat dengan cara yang tidak terdeteksi mesin. Oleh karena itu, pendekatan yang semakin banyak dibicarakan adalah sandboxing. Yakni, memisahkan lingkungan di mana AI boleh mengeksekusi instruksi dengan lingkungan yang menyimpan data sensitif. Jika AI “tertipu” pun, dampaknya hanya terbatas pada ruang aman yang telah dikarantina.
Selain langkah teknis, ada pula upaya kebijakan dan regulasi. Uni Eropa lewat AI Act menekankan bahwa sistem AI berisiko tinggi wajib dilengkapi dengan mekanisme keamanan khusus, termasuk transparansi bagaimana data diproses. Regulasi ini tidak secara spesifik menyebut prompt injection, tetapi logika di baliknya jelas: penyedia AI harus bertanggung jawab jika sistem mereka bisa dimanipulasi dengan cara yang merugikan pengguna. Dengan kata lain, ada dorongan agar perusahaan tidak hanya mengejar performa AI, tetapi juga akuntabilitas keamanannya.
Perusahaan keamanan independen juga berperan penting. Riset dari LayerX menyoroti bagaimana ekstensi browser yang mengandalkan LLM bisa menjadi pintu masuk serangan. Mereka kemudian merilis rekomendasi praktis untuk perusahaan: membatasi izin akses ekstensi, menggunakan content security policy, serta menonaktifkan integrasi otomatis ke sumber daya penting. Hal serupa dilakukan oleh Mithril Security, yang menekankan pentingnya validasi ganda terhadap dokumen atau file yang diproses oleh AI sebelum hasilnya dianggap sah.
Dengan kata lain, jangan berikan AI “akses penuh” seolah-olah ia manusia yang dipercaya seratus persen. Langkah sederhana seperti mengecek ulang hasil rangkuman dokumen, tidak mengklik tautan mencurigakan yang disarankan AI, atau memisahkan akun pribadi dari akun kerja bisa mengurangi risiko signifikan.
Kuncinya ada pada kesadaran bahwa AI, sehebat apa pun, tetaplah sistem yang mudah dibujuk dengan bahasa. Ia tidak punya insting untuk menaruh curiga seperti manusia. Karena itu, mitigasi harus bersifat berlapis: penyedia AI menyediakan guardrails, perusahaan menetapkan aturan ketat, dan pengguna tetap waspada dalam pemakaian. Tanpa kombinasi ini, kasus “Chevy satu dolar” hanya akan menjadi awal dari daftar panjang insiden yang merugikan.
Penulis: Yoga Cholandha
Editor: Irfan Teguh Pribadi
Masuk tirto.id


































