AI Berhasil Lampaui Manusia dalam Teknologi Pengenalan Suara

Indah Mutia Ayudita . October 21, 2020

Foto: Karlsruhe Institute of Technology

Teknologi.id - Untuk pertama kalinya, para peneliti dari Karlsruhe Institute of Technology (KIT) berhasil mengembangkan sistem komputer yang mengungguli manusia dalam mengenali bahasa yang diucapkan secara spontan dengan latensi minimum. Penelitian ini dipublikasikan di arXiv.org.

"Saat orang berbicara, ada yang obrolan yang terhenti, gagap, muncul keragu-raguan, dan kata-kata seperti 'er' atau 'hmmm,' tertawa dan batuk," kata Alex Waibel, Profesor Informatika di KIT. "Seringkali juga orang mengucapkan kata-kata yang tidak jelas," tambahnya.

Hal ini bisa membuat orang sulit untuk memahami percakapan, atau ketika harus mengambil catatan dari percakapan yang berlangsung. "Dan sejauh ini, AI lebih sulit memahaminya," ujar Waibel.

Baca juga: Filter Anime Snapchat Mulai Populer

Para peneliti dari KIT dan staf KITES, sebuah perusahaan baru dari KIT, berhasil memprogram sistem komputer yang menjalankan tugas ini lebih baik daripada manusia dan lebih cepat daripada sistem lain.

Waibel sebelumnya mengembangkan penerjemah otomatis yang secara langsung bisa menerjemahkan materi kuliah universitas dari Bahasa Jerman atau Bahasa Inggris ke bahasa yang digunakan oleh mahasiswa asing.

Sistem Penerjemah Kuliah ini telah digunakan di ruang kuliah KIT sejak 2012. "Pengenalan ucapan spontan adalah komponen terpenting dari sistem ini," jelas Waibel. "Kesalahan dan keterlambatan dalam pengenalan suara membuat terjemahan tidak bisa dipahami."

Baca juga: Tesla Segera Buka Pabrik Barunya di Indonesia

"Pada percakapan biasa, tingkat kesalahan manusia berada dinilai 5,5%. Sistem kami berhasil mencapai 5,0%." Selain presisi, kecepatan sistem untuk menghasilkan output juga sama pentingnya sehingga mahasiswa dapat mengikuti perkuliahan secara langsung.

"Para peneliti kami berhasil mengurangi latensi ini menjadi satu detik. Ini adalah latensi terkecil yang pernah dicapai oleh sistem pengenalan suara dengan kualitas ini hingga saat ini," kata Waibel.

Tingkat kesalahan dan latensi diukur menggunakan standar pengujian "switchboard-benchmark" yang diakui secara internasional. Tolok ukur ini banyak digunakan oleh peneliti AI internasional untuk membuat mesin yang mendekati manusia dalam mengenali ucapan spontan dalam kondisi yang sebanding, atau bahkan mengungguli mereka.

Menurut Waibel, pengenalan suara yang cepat dan akurat merupakan langkah penting untuk pemrosesan lebih lanjut. Hal ini bisa membuka jalan untuk penelitian mengenai dialog, terjemahan, dan modul AI lainnya untuk menyediakan interaksi berbasis suara yang lebih baik dengan mesin.

(im)

author0
teknologi id bookmark icon

Tinggalkan Komentar

0 Komentar