Yang Terjadi saat Algoritma Dilibatkan dalam Prediksi Ujian Sekolah

Prediksi nilai ujian nasional setara SMA di Inggris menggantikan ujian sebenarnya yang dibatalkan. Hasilnya kacau dan bias.

Penulis: Sekar Kinasih

Terbit 8 Sep 2020 01:00 WIB,

Diperbarui 9 Aug 2024 01:40 WIB

Waktu baca ±6 menit

Ilustrasi Ujian Masuk Perguruan tinggi. FOTO/Istockphoto

tirto.id - Pertengahan Agustus silam, pelajar Inggris berbondong-bondong turun ke jalanan London untuk memprotes prediksi nilai A-level yang dikeluarkan oleh Office for Qualifications and Exam Regulation (Ofqual) atau badan pemerintah untuk kualifikasi pendidikan dan ujian. Sejumlah pemerintah Eropa terpaksa membatalkan berbagai ujian akhir sekolah pada musim panas tahun ini karena pandemi Covid-19.

Di Perancis, pertama kalinya sejak 1808 Napoleon Bonaparte meregulasikan ujian baccalaureat, penilaian digantikan dengan rata-rata nilai ulangan dan hasil pekerjaan rumah. Pemerintah Belanda juga menghapuskan ujian nasional dan mendorong sekolah-sekolah agar menyelenggarakan ujian mandiri secara daring. Sementara di Inggris, pemerintah menugaskan Ofqual membuat standardisasi nilai untuk memprediksi hasil berbagai ujian sekolah yang dibatalkan.

Menilai Hasil Ujian yang Tak Pernah Diujikan

Dari sekian jenis ujian akhir sekolah di Inggris Raya, A-level atau Advanced Level merupakan salah satu pilihan kualifikasi pra-universitas yang menentukan masa depan calon mahasiswa di Inggris, Wales, dan Irlandia Utara (di Skotlandia, kualifikasi setara A-level disebut dengan Scottish Highers). Ujian A-level umumnya dipersiapkan oleh siswa di rentang usia 16-18 tahun di sekolah tingkat atas atau college. Selama dua tahun, seorang siswa bisa mempelajari 3-4 mata pelajaran untuk ujian A-level yang disesuaikan dengan minat jurusan di universitas idaman.

Hasil ujian A-level kelak dijadikan pertimbangan oleh pihak kampus untuk menerima atau menolak mereka. Sebelum menentukan pilihan untuk belajar A-level, mayoritas pelajar di Inggris Raya mengikuti tes untuk General Certificate of Secondary Education (GCSE) sebagai pencapaian akhir dari program kurikulum nasional sampai usia 16 tahun. GCSE bisa dibilang setara dengan ijazah SMA di Indonesia.

Musim panas tahun ini, ujian A-level dan GCSE dibatalkan. Untuk memperkirakan hasil ujian yang dibatalkan tersebut, Ofqual mengarahkan para guru di setiap sekolah agar membuat prediksi nilai—Centre Assessment Grade(CAG)—yang merepresentasikan nilai siswa seandainya proses mengajar-belajar tetap berlangsung dan ujian A-level atau GCSE jadi dilaksanakan. Guru juga diminta untuk memberikan ranking kepada murid di setiap mata pelajaran.

Setelah semua nilai prediksi guru terkumpul, Ofqual menyadari bahwa nilai-nilai tersebut mengalami inflasi atau cenderung tinggi, karena kebanyakan guru memprediksi nilai pada kondisi siswa yang paling prima. Maka dari itu, usaha standardisasi pun dilakukan. Sebagaimana tertulis di lembar executive summary (PDF) Ofqual, “tanpa standardisasi, kemungkinan siswa akan diuntungkan atau dirugikan secara tidak adil, tergantung pada sekolah atau college dan pendekatan yang mereka gunakan”.

Ofqual menggunakan model algoritma kompleks bernama Direct-centre Performance. Secara sederhana, melalui perhitungan ini, nilai prediksi guru (CAG) dan ranking siswa oleh guru dimoderasi menggunakan beberapa komponen historis lainnya. Untuk menentukan prediksi nilai A-level pelajar angkatan 2020 pada suatu sekolah, misalnya, diperlukan riwayat perolehan nilai A-level angkatan murid selama tiga tahun sebelumnya.

Pencapaian nilai GCSE di masa lalu oleh angkatan-angkatan lama dan angkatan 2020 pun turut menjadi pertimbangan. Namun, setelah menganalisis rumus dari Ofqual, koresponden bidang teknologi The Guardian Alex Hern mendapati bobot riwayat pencapaian nilai A-level di sekolah lebih dominan, sehingga nilai-nilai yang diperoleh para siswa terdahulu menjadi determinan besar untuk memprediksi nilai siswa angkatan 2020. Artinya, tegas Hern, prediksi nilai A-level untuk siswa angkatan 2020 ditentukan oleh kemampuan murid-murid angkatan lama yang mungkin tidak pernah mereka kenal.

Di sisi lain, Ofqual mengaku sudah melakukan studi kesetaraan untuk memahami dampak yang mungkin muncul pada kelompok sosio-ekonomi dan demografi berbeda. Mereka menyatakan bahwa hasil analisis “tidak menunjukkan bukti bahwa proses penilaian tahun ini mengandung bias”. Nyatanya, pengumuman prediksi nilai ujian A-level disambut dengan hujan kritik dan protes massa.

Berdasarkan laporan interim (PDF) Ofqual setebal 317 halaman, tercatat 39,1% atau sedikitnya 280.000-an dari 718.276 peserta yang seharusnya mengikuti ujian A-level di Inggris, mendapatkan nilai di bawah prediksi guru (CAG). Dilansir dari Guardian, laporan tersebut menunjukkan bahwa siswa dari latar belakang kurang mampu menjadi kelompok yang terdampak paling parah dari proses standardisasi Ofqual, sedangkan pelajar dari institusi independen atau swasta justru diuntungkan. Selain itu, data menunjukkan bahwa siswa di sekolah swasta yang memperoleh nilai-nilai tertinggi presentasenya dua kali lipat lebih besar (4,7%) daripada siswa di sekolah negeri (2,3%).

Menanggapi hasil prediksi dari Ofqual, Menteri Pendidikan Bayangan dari Partai Buruh, Kate Green berkomentar, “Suatu ketidakadilan besar bagi siswa ketika mereka menerima angka nilai yang dikerdilkan hanya karena kode pos mereka”. Green menambahkan bahwa pendekatan pemerintah untuk ujian sekolah selama ini memang semrawut.

Sementara itu, Larissa Kennedy, ketua National Union of Students UK, menilai algoritma Ofqual sebagai sistem moderasi yang bias kelasdan rasis. Bahkan, Rebecca Hilsenrath, pejabat eksekutif Equality and Human Rights Commission (EHRC), sampai turun tangan meminta kejelasan Ofqual terkait dampak algoritmanya sebagai model standardisasi serta langkah-langkahnya untuk menghapus bias dan mengindahkan prinsip persamaan.

Secara sederhana, direktur Institute for Fiscal Studies Paul Johnson menyampaikan sedikitnya dua alasan mengapa prediksi nilai oleh algoritma Ofqual dianggap tidak adil. Pertama, proses standardisasi Ofqual cenderung menguntungkan angkatan siswa berjumlah kecil, yang statistiknya lebih banyak ditemukan di institusi swasta. Jika di suatu sekolah hanya ada 5 siswa yang melakukan ujian A-level untuk satu mata pelajaran tertentu, hasil prediksi nilai final akan jatuh sepenuhnya kepada prediksi guru (CAG) yang relatif tinggi. Nilai CAG juga masih diperhitungkan apabila siswa berjumlah 5 sampai 15. Akan tetapi, nilai CAG tidak akan menjadi pertimbangan pada angkatan berjumlah lebih dari 15 siswa dalam satu subyek ujian.

Alasan kedua, algoritma Ofqual hampir tidak mungkin memprediksikan nilai A-level tinggi bagi seorang siswa dari sekolah dengan riwayat performa A-level rendah, terlepas individu tersebut pernah punya nilai GCSE cemerlang.

Setelah mendapatkan berbagai tekanan, pemerintah Inggris akhirnya membatalkan hasil prediksi Ofqual untuk A-level serta ujian lainnya. Siswa kini diizinkan menggunakan CAG atau nilai prediksi guru masing-masing untuk mendaftar ke universitas. Langkah serupa sebelumnya sudah diambil oleh pemerintah Skotlandia yang sama-sama tersandung masalah moderasi nilai.

Penggunaan nilai prediksi guru pun bukan berarti tanpa kekurangan. Seperti dikhawatirkan Ofqual sebelumnya, guru mempunyai standar berbeda-beda, ada yang cenderung bermurah hati ataupun lebih ketat dalam memberikan penilaian.

Algoritma dan Konteks Penggunaannya

Kericuhan yang ditimbulkan Ofqual semakin meramaikan diskusi tentang etika penggunaan algoritma dalam kehidupan manusia.

Algoritma, dalam arti paling sederhana menurut sejarawan Yuval Noah Harari di buku Homo Deus (2015), adalah “serangkaian langkah metodologis untuk melakukan perhitungan, menyelesaikan masalah, dan mencapai keputusan”. Pemanfaatan algoritma sangatlah luas. Salah satu yang pernah disoroti Harari dalam studinya adalah penggunaan algoritma oleh korporat dan perusahaan teknologi untuk menciptakan kecerdasan buatan yang bisa memahami minat dan karakter individu sebagai target pasar mereka.

Kolumnis The Observer, Kenan Malik mengajak publik untuk meresapi kembali bahwa esensi dari algoritma adalah langkah-langkah kerja yang sengaja diciptakan untuk memenuhi tujuan tertentu. Malik menegaskan bahwa yang sebenarnya merugikan pelajar Inggris adalah pertimbangan politis, bukan perhitungan algoritma Ofqual.

Akhir-akhir ini, demikian yang diamati Malik, semakin banyak politisi dan pemangku kebijakan menggunakan pendekatan teknokratik untuk bersikap adil, sehingga mereka “mengadopsi pretensi bahwa ilmu pengetahuan atau statistik bisa menentukan keadilan secara objektif”. Padahal, Malik menjelaskan, hasil perhitungan algoritma tergantung pada apa yang kita minta darinya, serta data apa yang kita berikan kepadanya.

Infografik Memprediksi Ujian Sekolah dengan Algoritma

Infografik Memprediksi Ujian Sekolah dengan Algoritma. tirto.id/Quita

Awalnya, pemerintah ingin menekan inflasi nilai, yang dari tahun ke tahun mengalami kenaikan supaya mereka bisa mendapatkan prediksi nilai berstandar nasional. Standardisasi pun menjadi tujuan algoritma Ofqual. Tolak ukur standardisasi adalah perbandingan, sehingga pencapaian akademik oleh angkatan siswa lama menjadi faktor penting dalam kalkulasi Ofqual.

Perlu dipahami pula bahwa pencapaian akademik siswa tidak terlepas dari sumber daya yang menopangnya, sehingga data yang digunakan Ofqual tentunya bervariasi dari sekolah kaya sampai sekolah bersumber daya rendah. Malik sempat mengutip pernyataan penulis Timandra Harkness bahwa sejatinya algoritma adalah “mesin prasangka”: algoritma disokong oleh data yang tidak terbebas dari prasangka dan bias di dunia nyata. Tak mustahil jika prediksi oleh algoritma pun turut mereproduksi unsur-unsur tersebut.

Oleh karena itu, wajar apabila prediksi algoritma Ofqual cenderung menguntungkan pelajar dari institusi pendidikan mahal dan merugikan anak-anak dari sekolah dengan sumber daya terbatas (siswa medioker di sekolah unggulan nilainya terkatrol, sedangkan siswa berprestasi di sekolah yang biasa-biasa saja nilainya merosot). Seandainya tujuan algoritma Ofqual adalah untuk menghargai siswa yang punya riwayat akademik individu lebih baik daripada pencapaian angkatan sebelumnya, bisa jadi prediksi nilai akhir tidak akan sekontroversial ini.

Algoritma Ofqual pun menjadi bagian dari kenyataan sistem pendidikan yang, menurut Malik, “sedari dulu menghalangi ambisi para siswa dari kelompok kelas pekerja dan mempermudah jalan untuk kaum yang lebih diistimewakan”.

Sementara itu, paparan Matt Burgress di majalah Wired menjabarkan sejumlah pelajaran yang bisa ditarik dari kegaduhan algoritma Ofqual. Salah satunya adalah menguatnya kesadaran bahwa tak seorang pun ingin jalan hidupnya diputuskan oleh data historis sekelompok pihak yang tak bisa mereka kontrol. Artinya, seorang individu tetap ingin keputusan hidupnya bersifat personal dan didasari sepenuhnya atas riwayat pencapaian pribadi.

Selain itu, transparansi dan pembahasan detail tentang tujuan-tujuan dari penggunaan algoritma tertentu harus lebih digencarkan agar ke depannya publik dapat mempercayai sistem algoritma, yang sebenarnya bertujuan untuk mempermudah berbagai urusan di masyarakat.

Payung hukum terhadap pihak-pihak yang dirugikan oleh prediksi algoritma pun turut menjadi perhatian. Dikutip dari Wired, sesuai dengan General Data Protection Regulation Uni Eropa dan UK Data Protection Act 2018, perlindungan ekstra diberikan kepada orang-orang yang keputusan hidupnya ditentukan seutuhnya oleh sistem otomasi agar mereka terhindar dari berbagai bentuk diskriminasi.

Ofqual, didukung oleh Information Commissioner’s Office, mengelak bahwa perhitungan algoritma mereka sepenuhnya bergantung pada otomasi. Namun, pengajar ilmu komputer di Universitas Oxford, Reuben Binns, tidak sependapat. Binns menyampaikan kepada Wired bahwa algoritma Ofqual sebenarnya sudah memberikan putusan langsung tentang ketersediaan nilai-nilai untuk lantas dialokasikan kepada siswa berjumlah tertentu.

Perdebatan tentang otomasi algoritma bukanlah hal baru di Inggris. Sebelum kasus Ofqual terjadi, tepatnya pada minggu pertama Agustus, BBC melaporkan pemerintah Inggris Raya memutuskan berhenti menggunakan algoritma “Streaming Tool” untuk menentukan lolos tidaknya aplikasi visa bagi calon pendatang asing. Keputusan tersebut merupakan respons Departemen Dalam Negeri terhadap tuntutan dari Foxglove, organisasi hukum teknologi, serta Joint Council for the Welfare of Immigrants (JCWI) yang menilai bahwa algoritma visa telah berdampak pada diskriminasi rasial.

Algoritma berbasis sistem lampu lalu lintas digunakan sejak 2015 untuk menilai aplikasi visa ke Inggris Raya. Sinyal warna merah, kuning, dan hijau akan dihasilkan untuk memberikan rating risiko pendaftar visa, yang kelak berperan menentukan hasil visa. Dilansir dari laman JCWI, algoritma tersebut dengan sengaja mendiskriminasikan pendaftar dengan kewarganegaraan tertentu, sehingga orang yang kewarganegaraannya masuk dalam dalam daftar “suspect” otomatis akan menerima skor risiko tinggi dan kelak cenderung dipersulit atau bahkan ditolak aplikasi visanya.

Berkaca pada polemik yang terjadi di Inggris, dapat dipahami bahwa data historis adalah kunci dari suatu algoritma agar dapat memberikan hasil yang valid dan bisa dipertanggungjawabkan. Data historis tidak pernah berbohong, namun tidak bisa menyuarakan keadilan apalagi menetapkan standar moralitas benar atau salah. Oleh karena itu, pemilihan data dan tujuan penggunaan algoritma pun menjadi komponen penting yang harus lebih diperhatikan lagi oleh para pemangku kebijakan dan pakar statistik serta teknologi, terutama ketika algoritma digunakan pada konteks sosial dan politik yang menyangkut hajat hidup orang banyak.

=========

Sekar Kinasih menyelesaikan studi Kajian Asia-Pasifik di Australian National University dan Sastra Jepang di Universitas Gadjah Mada. Mempelajari kebudayaan, gender, dan politik dari perspektif sejarah.

Baca juga artikel terkait UJIAN atau tulisan lainnya dari Sekar Kinasih

tirto.id - Pendidikan

Penulis: Sekar Kinasih
Editor: Windu Jusuf