Teknologi.id - OpenAI baru saja merilis Whisper API, versi terhosting dari model konversi ucapan ke teks Whisper yang bersifat open source. Whisper dibandrol dengan harga $0,006 per menit dan diklaim oleh OpenAI mampu melakukan transkripsi yang tangguh dalam beberapa bahasa serta terjemahan dari bahasa tersebut ke bahasa Inggris.
Sistem ini mampu mengenali berbagai format file dan dilatih dengan 680.000 jam data multibahasa dan "multitugas" yang dikumpulkan dari web, sehingga mampu mengenali aksen unik, kebisingan latar belakang, dan jargon teknis dengan lebih baik.
Banyak organisasi telah mengembangkan sistem serupa, tetapi Whisper memiliki keunggulan dalam hal pelatihan data dan akurasi transkripsi.
Baca juga: Elon Musk Bongkar Alasannya Tinggalkan OpenAI, Perusahaan Pembuat ChatGPT
Dalam sebuah panggilan video dengan TechCrunch kemarin, Brockman mengatakan bahwa merilis sebuah model tidak cukup untuk mendorong pengembangan seluruh ekosistem pengembang. Oleh karena itu, OpenAI merilis Whisper API yang merupakan model besar yang sama dengan model open source, tetapi telah dioptimalkan secara ekstrim agar lebih cepat dan nyaman.
Namun, masih banyak halangan dalam adopsi teknologi transkripsi suara oleh perusahaan, seperti akurasi, masalah pengenalan aksen atau dialek, dan biaya, menurut survei Statista tahun 2020.
Keterbatasan Whisper
Whisper memiliki keterbatasan, terutama dalam hal prediksi kata berikutnya. Meskipun dilatih dengan data yang besar, Whisper dapat memasukkan kata-kata yang sebenarnya tidak diucapkan dalam transkripsinya karena mencoba memprediksi kata berikutnya dalam audio dan mentranskripsikan rekaman audio itu sendiri.
Selain itu, Whisper tidak berkinerja sama baiknya di semua bahasa dan memiliki tingkat kesalahan yang lebih tinggi untuk pembicara bahasa yang kurang banyak diwakili dalam data pelatihan.
Sayangnya, hal ini bukanlah hal baru dalam dunia pengenalan suara. Studi Stanford tahun 2020 menemukan bahwa sistem dari Amazon, Apple, Google, IBM, dan Microsoft memiliki bias dan membuat jauh lebih sedikit kesalahan (sekitar 19%) dengan pengguna yang kulitnya putih dibandingkan dengan pengguna yang kulitnya hitam.
Baca juga: Cara Memperbaiki "ChatGPT is at Capacity Right Now" di Windows
OpenAI melihat bahwa kemampuan transkripsi dari Whisper dapat digunakan untuk meningkatkan aplikasi, layanan, produk, dan alat yang sudah ada. Sebagai contoh, aplikasi pembelajaran bahasa yang ditenagai AI, Speak, saat ini menggunakan Whisper API untuk memperkuat teman bicara virtual dalam aplikasinya.
Apabila OpenAI mampu memperluas pasar konversi ucapan ke teks secara signifikan, ini bisa sangat menguntungkan perusahaan yang didukung oleh Microsoft tersebut. Menurut laporan, pada tahun 2026, segmen ini bisa bernilai $5,4 miliar, naik dari $2,2 miliar pada tahun 2021.
Brockman menyatakan, "Kami berambisi untuk menjadi kecerdasan universal yang dapat dengan sangat fleksibel mengambil data apa pun yang Anda miliki - tugas apa pun yang ingin Anda selesaikan - dan menjadi pengganda daya pada perhatian tersebut."
(dwk)