Meta Luncurkan Alat Penerjemah Bahasa Terbarunya: SeamlessM4T

Nadhira Adesta Ramadhanti . August 23, 2023


Teknologi.id – Meta melanjutkan upaya pembuatan dan pengembangan alat penerjemahan universal dengan meluncurkan model terbaru yang diberi nama SeamlessM4T.


Nama ini memiliki kepanjangan Massively Multilingual and Multimodal Machine. Sesuai nama tersebut, model ini bersifat multimodal, yaitu mencakup penerjemahan secara luas dari teks-ke-teks, teks-ke-suara, suara-ke-teks, hingga suara-ke-suara. Model ini juga dirancang untuk menguasai beragam bahasa, di mana sudah terfasilitasi 100 bahasa dalam bentuk teks dan 35 bahasa dalam bentuk suara.


Peluncuran SeamlessM4T secara publik dinaungi lisensi Creative Commons CC BY-NC 4.0, yang mana memberi akses bagi para peneliti untuk menggunakan dan turut mengembangkan performa model ini. Bersamaan dengan itu, Meta juga meluncurkan SeamlessAlign, yaitu kumpulan data penerjemahan multimodal terbesar saat ini yang menampung hingga 270.000 jam penyelarasan suara dan teks.


Meta menjuluki model SeamlessM4T sebagai sebuah terobosan signifikan dalam dunia penerjemahan. Pendapat tersebut didasari keadaan saat ini, di mana sistem penerjemahan yang ada hanya mencakup sebagian kecil dari bahasa-bahasa dunia. Selain itu, model penerjemahan lain cenderung memisahkan sistem-sistem penerjemahan, sedangkan SeamlessM4T menyiasati seluruh sistem dan fungsi penerjemahan dalam satu model secara terpadu.

Baca Juga: Meta Kembangkan Chatbot Unik Bertenaga Artificial Intelligence

Penerjemahan bahasa sangat penting bagi Meta, dimulai dari dalam perusahaan itu sendiri di mana mereka mempekerjakan ribuan pegawai yang berbicara dalam beragam bahasa. Kerap kali dan mau tak mau, bahasa-bahasa yang tidak digunakan secara luas harus ikut mengandalkan sistem yang sudah ada, di mana sistem ini tidak bekerja dengan cukup baik selain untuk bahasa yang digunakan luas. Inilah mengapa Meta meningkatkan moderasi pengumpulan data bahasa-bahasa kecil tersebut.


Sebelumnya pada tahun 2022, Meta meluncurkan No Language Left Behind (NLLB), sebuah model penerjemahan teks-ke-teks yang memfasilitasi 200 bahasa dan telah terintegrasi dengan Wikipedia. Beberapa bulan kemudian, Meta meluncurkan demo dari Universal Speech Translator, yaitu penerjemah suara-ke-suara yang diuji dengan bahasa Hokkien, sebuah bahasa umum Tiongkok yang tidak dipergunakan secara luas dalam bentuk tulisan. Dari sanalah Meta mengembangkan SpeechMatrix, kumpulan data suara-ke-suara berskala luas. Hingga kemudian pada awal tahun ini, diluncurkan pula Massively Multilingual Speech, sebuah teknologi pengenalan suara, identifikasi bahasa, dan sintesis suara melampaui 1100 bahasa. Dari semua proyek inilah SeamlessM4T memanfaatkan dan mengintegrasikan sistem-sistem yang sudah ada, sehingga memungkinkan pengalaman penerjemahan multibahasa dan multimodal jadi semakin canggih.

Mendukung Code-Switching

Tingkat kecanggihan ini pula yang digadang-gadang bisa memungkinkan SeamlessM4T untuk mendukung penerjemahan code-switching. Apabila dalam kehidupan sehari-hari kalian kerap menemukan seseorang bicara campur-campur antara bahasa Indonesia dan Inggris, itulah yang disebut code-switching. Acap kali code-switching bahkan terjadi antara lebih dari dua bahasa dalam satu waktu bersamaan.


Meta sendiri memberi demonstrasi code-switching dalam sebuah video antara bahasa Hindi, Telugu, dan Inggris. SeamlessM4T secara otomatis akan mengidentifikasi bahasa yang berbeda dalam satu kali ujaran lisan sebelum kemudian menerjemahkannya.


Meta juga membangun sistem SeamlessM4T yang bertanggung jawab dengan kemampuan mengidentifikasi kata-kata bersifat toksik dan sensitif. Meta mendefinisikan kata-kata ini sebagai yang bersifat mengujarkan kebencian, kekerasan, mengandung elemen kata-kata kotor, dan pelecehan.


Mengutip dari AI Blog Meta, mereka memperluas pengklasifikasian toksisitas bahasa baik pada input maupun output ucapan yang diproses dalam data pelatihan. Kemudian, mereka akan menyaring toksisitas yang tidak seimbang dalam data tersebut. Selain itu, para peneliti juga mencoba untuk menyisihkan data-data yang mengandung kata-kata kasar agar mampu mendeteksinya ketika digunakan.


Tak ketinggalan, Meta juga mengembangkan sistem pengenalan bias gender dalam bahasa. Hal ini penting dikembangkan karena banyak bahasa yang menggolongkan kosakata dan tata bahasanya menurut jenis kelamin. Model SeamlessM4T dirancang agar bisa memilah kalimat yang mengandung kata dengan penggolongan jenis kelamin agar menghasilkan terjemahan yang lebih akurat. Fitur ini dikembangkan dari dataset lisan Multilingual HolisticBias yang sudah mereka desain sebelumnya.


Meta menyebutkan, model ini masihlah sebuah tahap dari upaya mereka untuk terus mengembangkan penerjemahan dengan kecerdasan buatan. Di masa mendatang, mereka masih akan terus mengeksplorasi model penerjemahan agar dapat menjangkau lebih banyak bahasa, sehingga pada akhirnya membawa kita semua lebih dekat pada dunia di mana semua orang dapat saling memahami.

Baca Berita dan Artikel yang lain di Google News.


(nar)


author0
teknologi id bookmark icon

Tinggalkan Komentar

0 Komentar