Menuju konten utama
Byte

Melatih AI Minim Risiko Privasi dengan Federated Learning

Pelatihan model AI kerap kali bersifat terpusat sehingga berisiko bagi privasi pengguna. Di tengah problem itu, skema federated learning menawarkan solusi.

Melatih AI Minim Risiko Privasi dengan Federated Learning
Ilustrasi Pelatihan Model Ai. foto/istockphoto

tirto.id - Kontroversi akal imitasi alias AI tak pernah berhenti. Sejak merebak pesat pada periode 2022-2023, teknologi ini benar-benar membelah umat manusia menjadi dua: mereka yang berpihak karena merasa terbantu serta mereka yang menganggap AI sebagai ancaman serius.

Hingga kini, masih sulit menilai AI sebenarnya lebih kaya manfaat atau mudarat. Namun, satu hal yang pasti, pengembangannya menyisakan banyak ruang untuk dikritik, mulai dari besarnya kebutuhan energi, kekayaan intelektual yang diserobot begitu saja, sampai privasi yang nyatanya cuma jadi pepesan kosong.

Saya sempat terlibat dalam sebuah proyek anotasi untuk keperluan pengembangan AI milik konglomerasi media sosial terbesar di dunia. Dalam proyek tersebut, para anotator harus menandai banyak data untuk akhirnya bisa digunakan untuk melatih AI. Data yang digunakan, tak lain, adalah unggahan media sosial, mulai dari sekadar teks sampai foto.

Salah satu anotasi yang dilakukan saat itu adalah menandai data-data kategori PII (Personal Identifiable Information), yakni data-data yang bisa mengarah langsung pada individu. Tujuan akhirnya adalah membuat AI mampu membedakan data yang termasuk PII dan yang bukan. Dengan begitu, ia bisa menolak memproses prompt atau perintah yang berkaitan dengan data-data sensitif tersebut.

Sebenarnya, aturan kerjanya sangatlah ketat, termasuk soal kerahasiaan data-data yang diproses. Akan tetapi, fakta bahwa anotator bisa mengakses data privasi itu saja sebenarnya sudah jadi tanda bahaya. Memang, ada prosedur preventif dan mitigatif. Akan tetapi, apa yang bisa mencegah anotator nakal diam-diam mencatat penemuan mereka lalu menyalahgunakannya?

Itu hanya bagian kecil dari masalah privasi dalam pengembangan AI, yakni sistem sentralistik.

Pengembangan AI modern selama ini bertumpu pada asumsi bahwa makin banyak data yang dikumpulkan dan dipusatkan, makin baik performa model yang dihasilkan. Asumsi itu kemudian terwujud dalam praktik pengumpulan data berskala besar, pemusatan dataset lintas institusi dan negara, serta ketergantungan pada infrastruktur komputasi terpusat, untuk melatih model AI.

Data-data itu pun berasal dari berbagai sektor, mulai dari kesehatan, keuangan, hingga layanan publik. Ketika data dikumpulkan dan disimpan secara terpusat, risiko penyalahgunaan, kebocoran, dan serangan siber, secara otomatis meningkat. Begitu pula dengan dampaknya.

Kekhawatiran tersebut telah berdampak langsung pada implementasi AI di dunia nyata. National Health Service di Inggris pernah menangguhkan sebuah inisiatif AI karena kekhawatiran terkait pengelolaan data pasien. Di Kanada, muncul kekhawatiran mengenai penyimpanan data sensitif sektor publik, termasuk data kesehatan dan imigrasi, di layanan cloud yang berada di luar negeri. Ini mengindikasikan, kepercayaan terhadap sistem AI sebenarnya sangat rapuh, terutama ketika tata kelola datanya mulai dipertanyakan.

Melatih AI dengan Pendekatan Federated Learning

Di tengah kritik tersebut, muncul upaya mengubah cara AI belajar dari data, tanpa harus mengandalkan pemusatan dataset dalam skala besar. Salah satu pendekatan yang mulai banyak dibahas adalah federated learning, metode pelatihan AI yang dirancang agar data tidak perlu dipindahkan dari tempat asalnya, entah itu platform atau gawai.

Alih-alih mengumpulkan data ke satu server pusat, federated learning mengirimkan model ke lokasi data untuk dilatih secara lokal oleh end user alias kita-kita ini. Yang dikirimkan ke pusat adalah hasil pelatihannya, sementara data pengguna tetap tersimpan di lokasi asli. Rachmad Andri Atmoko dari Universitas Brawijaya menyebut pendekatan ini layaknya "guru yang datang ke rumah".

Dalam makalah yang menjadi rujukan utama federated learning, para peneliti Google menjelaskan, data paling relevan untuk melatih banyak model pembelajaran mesin, seperti model bahasa dan pengenalan gambar, justru berada di perangkat pengguna. Data-data itu bersifat sangat pribadi dan jumlahnya jauh lebih besar dibandingkan ukuran modelnya. Dalam kondisi tersebut, memindahkan data ke pusat tidak hanya berisiko secara privasi, tetapi juga inefisien secara teknis karena keterbatasan bandwidth dan biaya komunikasi.

Salah satu contoh konkretnya dapat dilihat pada pengembangan model prediksi teks. Untuk meningkatkan akurasi prediksi kata berikutnya, model perlu belajar dari pola pengetikan pengguna sehari-hari, mulai dari pilihan kata, urutan frasa, hingga konteks bahasa informal atau slang.

Data semacam itu tidak tersedia dalam korpus teks publik dan tidak dapat digantikan oleh dataset alternatif seperti Wikipedia. Karena itulah Google melatih model langsung di perangkat pengguna melalui federated learning, lalu menggabungkan hasil pembaruan modelnya tanpa pernah mengunggah isi ketikan pengguna ke server pusat.

Hasilnya, menurut laporan Google, model prediksi teks yang dilatih menggunakan federated learning mampu mencapai performa lebih baik dibandingkan model yang dilatih terpusat menggunakan data pengganti dari korpus publik, baik secara akurasi maupun relevansi.

Dari sisi teknis, federated learning juga dirancang untuk bekerja dalam kondisi yang selama ini dianggap bermasalah bagi pelatihan AI konvensional. Bahwasanya, data pada tiap perangkat tidak seragam, jumlah data antar-pengguna tidak seimbang, dan tidak semua perangkat selalu terhubung ke jaringan. Solusinya adalah mekanisme bernama federated averaging.

Ilustrasi kecerdasan

Ilustrasi Kecerdasan Buatan Isometrik, Pengetahuan Keahlian Kecerdasan belajar. FOTO/iStokphoto

Setelah semua hasil belajar AI dikumpulkan (melalui skema federated learning), barulah federated averaging diterapkan.

Pembaruan model dari tiap perangkat tidak diperlakukan secara identik, melainkan digabungkan dengan bobot yang mencerminkan seberapa besar dan representatif data yang digunakan pada perangkat tersebut. Dengan begitu, federated learning dapat tetap menghasilkan model global stabil dan terus membaik meskipun sebagian besar pengguna hanya berkontribusi sedikit.

Pendekatan itu pun kemudian menarik perhatian dari dunia medis yang punya aturan sangat ketat terkait data serta kerahasiaan pasien. Dalam mengembangkan model AI medis, data yang dibutuhkan tak cuma sangat besar, tetapi juga dilindungi dengan sangat ketat. Alhasil, banyak proyek AI medis yang kemudian terhambat.

Federated learning mengubah situasi tersebut, memungkinkan pelatihan model secara kolaboratif tanpa memindahkan data pasien. Setiap rumah sakit melatih model menggunakan data lokal, lalu hanya mengirimkan pembaruan parameter untuk digabungkan.

Pendekatan itu telah diuji secara nyata dalam konteks medis berbeda-beda, dengan fokus yang jelas pada persoalan fragmentasi data dan kerahasiaan pasien. Dalam kajian yang dipublikasikan di npj Digital Medicine, federated learning digunakan untuk melatih model AI lintas rumah sakit untuk tugas-tugas spesifik, seperti analisis citra dan prediksi klinis, tanpa memindahkan data pasien dari institusi asalnya. Studi tersebut menunjukkan, federated learning mampu menghasilkan performa sebanding dengan pelatihan terpusat.

Temuan itu kemudian ditempatkan dalam konteks lebih luas oleh tinjauan komprehensif di Heliyon, yang mengulas berbagai implementasi federated learning di sektor kesehatan dan mencatat pola serupa. Federated learning secara konsisten memungkinkan kolaborasi lintas institusi sekaligus mengurangi kebutuhan akses terhadap data mentah pasien, dibandingkan pendekatan pelatihan AI yang terpusat.

Bisakah Jadi Solusi Keamanan Data Pengguna?

Kabar baiknya, federated learning mulai diterima di berbagai sektor dan industri. Berdasarkan pemetaan AIMultiple, salah satu contoh paling menonjol muncul di sektor keuangan, khususnya deteksi penipuan.

Pola dalam kasus penipuan sering kali tersebar lintas bank dan wilayah, sehingga sulit dideteksi jika setiap institusi hanya mengandalkan datanya sendiri. Dengan federated learning, masing-masing bank dapat melatih model pada data transaksi internal, lalu menggabungkan pembaruannya untuk membangun pemahaman kolektif tentang pola penipuan lebih luas, tanpa harus saling membuka data nasabah.

Dengan konsep sama, federated learning telah digunakan untuk pemeliharaan prediktif pada sistem industri dan IoT Siemens, pengembangan kendaraan otonom melalui pembelajaran lintas armada oleh NVIDIA, serta sistem rekomendasi dan personalisasi pada perangkat pengguna Google. Teknologi robotik pun kini tengah dikembangkan lewat pendekatan serupa.

Ilustrasi kecerdasan

Ilustrasi Kesehatan otak manusia. FOTO/iStokphoto

Sayangnya, meski menawarkan jalan keluar menjanjikan, federated learning bukannya tanpa cela. Fakta bahwa data tidak pernah dipindahkan ke pusat tidak otomatis menghilangkan seluruh risiko.

Pembaruan model tetap dapat dimanfaatkan untuk mengekstraksi informasi sensitif. Selain itu, federated learning lebih rentan terhadap serangan manipulasi model; aktor jahat dapat menyuntikkan pembaruan berbahaya untuk memengaruhi model global. tanpa harus mengakses data mentah.

Karena itu, federated learning pada praktiknya hampir selalu perlu dikombinasikan dengan mekanisme perlindungan tambahan. Secure multiparty computation digunakan agar server pusat hanya melihat hasil agregasi kolektif, bukan kontribusi individual dari satu perangkat atau institusi. Differential privacyditerapkan dengan menambahkan gangguan statistik terkontrol pada pembaruan model, sehingga kontribusi satu individu makin sulit dilacak. Ada pula teknik kriptografi, misalnya homomorphic encryption, yang memungkinkan data terenkripsi diproses tanpa proses dekripsi.

Selain perkara teknis, tantangan lain terletak pada tata kelola. Federated learning menuntut kesepakatan jelas soal siapa mengoordinasikan pelatihan, bagaimana model diperbarui, siapa bertanggung jawab atas kegagalan, serta bagaimana kepatuhan terhadap regulasi lintas yurisdiksi dijaga. Tanpa kerangka hukum dan standar operasional solid, pendekatan ini berisiko tetap mereplikasi ketimpangan kekuasaan yang selama ini melekat pada sistem AI terpusat.

Oleh karena itu, setidaknya untuk saat ini, federated learning belum bisa disikapi sebagai solusi instan atas seluruh problem AI modern. Ia lebih pas dipandang sebagai pergeseran paradigma, dari pengumpulan data ugal-ugalan menuju pembelajaran lebih terdistribusi, terarah, dan berhati-hati. Di atas kertas, ya, ini memang lebih menjanjikan. Namun, masih banyak yang mesti dikerjakan sebelum federated learning menjadi norma bagi pengembangan AI di seluruh dunia.

Baca juga artikel terkait KEAMANAN DIGITAL atau tulisan lainnya dari Yoga Cholandha

tirto.id - Byte
Kontributor: Yoga Cholandha
Penulis: Yoga Cholandha
Editor: Fadli Nasrudin