Deepfake Kini Mampu Mengedit Ucapan Seseorang

Teknologi.id – Dalam contoh terbaru teknologi Deepfake, peneliti memamerkan AI dengan Deep Learning. Yang memungkinkan pengguna mengedit transkrip video, seperti menambah, menghapus, atau mengubah kata-kata yang keluar langsung dari mulut seseorang.

AI Deepfake ini dibuat oleh para peneliti dari Stanford University, Princeton University, The Max Planck Institute for Informatics, dan Adobe Research. Mereka memamerkan bahwa dengan software yang telah mereka kembangkan, kini siapapun dapat mengedit apa yang orang akan katakan dalam video.

Seperti yang terdapat dalam video dibawah, kita dapat melihat beberapa contoh pengucapan yang telah diedit. Seperti kalimat “I love the smell of napalm in the morning”  diedit menjadi “I love the smell of french toast in the morning.” 

Fitur ini sampai saat ini hanyalah bentuk dari penelitian dan tidak tersedia untuk software versi publik. Tetapi mungkin ini tidak akan selamanya, sampai layanan yang sama dipublikasikan. Adobe, misalnya, telah berbagi rincian tentang prototipe perangkat lunak bernama VoCo. Yang memungkinkan pengguna mengedit rekaman pembicaraan semudah mengedit transkrip. Dan prototipe VoCo pun digunakan dalam penelitian ini.

Untuk membuat video fakes ini, para ilmuwan menggabungkan sejumlah teknik. Pertama, mereka memindai video target untuk mengisolasi fonem yang diucapkan oleh subjek. Deepfake kemudian mencocokkan fonem-fonem ini dengan ekspresi wajah yang menyertai setiap suara. Akhirnya, mereka membuat model 3D dari bagian bawah wajah subjek menggunakan sampel dari video target.

Baca juga: AI yang Mampu Membuat Foto Menjadi Hidup

Ketika seseorang mengedit transkrip teks dari video, software menggabungkan semua data yang dikumpulkan untuk membuat rekaman baru yang cocok dengan input teks. Setelahnya, rekaman ini kemudian ditempelkan ke video sumber untuk membuat hasil akhir.

Dalam sebuah tes yang dilakukan oleh para peneliti, di mana video-video palsu itu diperlihatkan kepada 138 sukarelawan. Dan sekitar 60% peserta menganggap bahwa 2 dari 3 video adalah hasil rekaman. Meskipun sebenarnya hanya ada 1 video yang direkam secara langsung.

Namun seperti biasa, perlu diingat bahwa teknologi ini memiliki keterbatasan dalam kemampuannya. Algoritma ini hanya bekerja pada video close-up yang berfokus pada bagian kepala dan wajah saja. Dan memerlukan sampel video yang lumayan lama diatas 40 menit demi menghasilkan kualitas video fakes terbaik.

Para peneliti juga mencatat bahwa mereka belum dapat mengubah suasana hati atau nada suara pembicara. Jadi, teknologi ini tidaklah sempurna, namun keterbatasan semacam ini pasti akan selalu muncul dalam penelitian tahap awal. Dan dengan penelitian ini, masyarakat luas akan segera harus menerima kenyataan bahwa: kedatangan sebuah software dapat memungkinkan siapa pun mengedit apa yang orang katakan dalam video tanpa memerlukan pelatihan khusus.

Potensi bahaya dari teknologi ini sangat mengkhawatirkan, dan para peneliti di bidang ini sering kali dikritik karena telah gagal mempertimbangkan potensi penyalahgunaan dari hasil pekerjaan mereka. Para ilmuwan yang terlibat dalam proyek khusus ini mengatakan mereka telah mempertimbangkan masalah ini.

Sumber: The Verge

(FM)

Leave a Comment

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *