tirto.id - Google baru saja merilis fitur untuk menerjemahkan bahasa isyarat secara real time ketika melakukan video call yang bisa mengetahui kapan seseorang mulai dengan bahasa isyarat dan kapan mereka selesai.
Seperti dikutip dari Google Ai, mengaktifkan deteksi bahasa isyarat ke video call cukup menantang, karena aplikasi ini perlu melakukan klasifikasi menggunakan umpan video volume tinggi sebagai masukan, yang membuat tugas menjadi berat secara komputasi.
Dalam “Deteksi Bahasa Isyarat Real-Time menggunakan Estimasi Pose Manusia”, mesin dipresentasikan di SLRTP2020 dan didemonstrasikan di ECCV2020.
Google menyajikan model deteksi bahasa isyarat secara real time dan mendemonstrasikan bagaimana hal itu dapat digunakan untuk menyediakan mekanisme sistem konferensi video untuk mengidentifikasi orang tersebut menggunakan bahasa isyarat sebagai pembicara aktif.
Dilansir dari TechCrunch, sistem tersebut dimungkinkan dengan latensi yang sangat kecil. Latensi berpengaruh besar untuk mendeteksi bahasa isyarat agar video tidak tertunda atau kualitasnya terdegradasi. Sehingga, Google membuat sistem yang ringan dan dapat diandalkan.
Cara Menggunakan Bahasa Isyarat di Video Call Google
Mesin dengan sistem pendeteksi bahasa isyarat ini pertama-pertama akan menjalankan video melalui model yang disebut PoseNet, yang memperkirakan posisi tubuh dan anggota badan di setiap bingkai.
Informasi visual yang disederhanakan ini melalui gambar metode garis dikirim ke model yang dilatih tentang data pose dari video orang yang menggunakan Bahasa Isyarat Jerman, dan membandingkan gambar langsung dengan tampilan garis yang berasal dari gerakan-gerakan tertentu.
Proses sederhana ini sudah menghasilkan akurasi 80 persen dalam memprediksi apakah seseorang bisa memahami atau tidak, dan dengan beberapa pengoptimalan tambahan, pendeteksi bahasa isyarat ini bisa mendapatkan akurasi hingga 91,5 persen.
Jika sistem ini dibandingkan dengan sistem deteksi "ucapan aktif" pada sebagian besar video call, maka mesin ini dapat mengetahui apakah seseorang berbicara atau batuk.
Sistem akan bekerja cerdas tanpa harus menambahkan sinyal "seseorang sedang menggunakan bahasa isyarat" ke panggilan yang ada, dan sistem ini melakukan sedikit trik pintar.
Sistem menggunakan sumber audio virtual untuk menghasilkan nada 20 kHz, yang berada di luar jangkauan pendengaran manusia, tetapi diperhatikan oleh sistem audio komputer.
Sinyal ini dihasilkan setiap kali orang tersebut melakukan bahasa isyarat, membuat algoritme deteksi ucapan berpikir bahwa mereka sedang berbicara dengan suara keras atau tidak.
Saat ini ini sistem baru tersebut dikembangkan masih dalam tahap demo.
Editor: Agung DH