Microsoft Ciptakan Tool AI yang Bisa Buat Video “Manusia Berbicara” dari Foto

Karissa Anindya Ramadhani . April 23, 2024

microsoft vasa-1

Teknologi.id - Para peneliti kecerdasan buatan Microsoft di kawasan Asia Pasifik, Microsoft Research Asia pada hari Selasa lalu mengumumkan VASA-1, sebuah model AI yang mampu menghasilkan deepfake. 


VASA-1 atau Visual Affective Skills Animator ini dapat mengubah gambar ataupun foto seseorang, memadukannya dengan file audio, dan menghasilkan wajah seseorang yang dapat berbicara seperti aslinya.


Dalam siaran pers dan artikel paper yang dibagikan, Microsoft Research Asia mendemonstrasikan bagaimana VASA-1 menggunakan data yang terbatas untuk menciptakan "wajah berbicara yang digerakkan oleh audio yang nyata". 


Sesaat setelah menerima gambar atau foto, VASA-1 akan menilai gambar tersebut dengan klip audio yang tersedia dalam sistem. Pengguna dapat menentukan emosi, arah tatapan, dan gerakan kepala yang mereka inginkan untuk ditampilkan dalam video. 


Baca juga: Investasi Microsoft di RI Tembus Rp 14 Triliun, Apple Kalah? Ini Ujar Menkominfo!


Setelah selesai, video yang dihasilkan akan memperlihatkan "manusia" yang sangat realistis. Ia mengatakan apa pun yang ada dalam klip audio yang disediakan, lengkap dengan pandangan ke kanan dan kiri hingga kegagapan yang tidak disengaja khas manusia. 


Hasil video dari mode pemrosesan offline VASA-1 berukuran 512 x 512 dengan 45 frame per detik (fps) yang turun menjadi 40fps saat mode streaming online, dengan latensi hanya 170 milidetik. 


Dilansir dari Extreme Tech, VASA-1 dilatih oleh para peneliti dengan dataset VoxCeleb2 yang dibuat pada 2018 oleh tiga peneliti dari Universitas Oxford. Dataset tersebut berisi "lebih dari 1 juta ucapan dari 6.112 selebritas", menurut situs web VoxCeleb2, yang diekstrak dari video unggahan di YouTube. 


Timbulkan Dampak Positif dan Negatif


Pengembangan VASA-1 adalah bukti kemajuan pesat teknologi dalam AI generatif. Sebelumnya, AI hanya terbatas untuk menghasilkan gambar dari perintah teks. Namun, dengan munculnya teknologi seperti Sora dan VASA-1 dari Microsoft, AI telah berkembang dan mampu menghasilkan video dari gambar yang sama sekali tidak bergerak. 


Dalam tulisannya, tim Microsoft berharap VASA-1 dapat berguna dalam meningkatkan kesetaraan pendidikan, aksesibilitas bagi individu dengan masalah dalam komunikasi, dan menawarkan pendampingan atau dukungan terapeutik bagi mereka yang membutuhkan.


Namun, Microsoft sadar bahwa perkembangan ini juga dapat menjadi ancaman di mana kemampuan VASA-1 untuk membuat video deepfake dapat disalahgunakan untuk penipuan dan hal-hal lainnya. 


Untuk itu, Microsoft menekankan bahwa VASA-1 saat ini hanyalah demonstrasi penelitian tanpa ada rencana untuk perilisan produk, Application Programming Interface (API), detail implementasi tambahan, atau pun penawaran. Hal ini menyoroti komitmen perusahaan untuk pengembangan teknologi AI yang bertanggung jawab.


Baca Berita dan Artikel yang lain di Google News.



(kar)



Share :