
Foto: ChatGPT
Teknologi.id – Perusahaan pengembang kecerdasan buatan, OpenAI, secara resmi meluncurkan tiga model AI berbasis audio terbaru mereka. Peluncuran ini difokuskan untuk memperkuat dan memperluas kapabilitas layanan AI suara yang kini makin banyak diadopsi oleh berbagai sektor industri maupun pengguna akhir. Ketiga model baru tersebut meliputi GPT-Realtime-2, GPT-Realtime-Translate, dan GPT-Realtime-Whisper. Masing-masing model membawa fungsi teknis spesifik yang dirancang untuk memproses interaksi suara secara langsung atau real-time.
Kemampuan Terjemahan Suara Dua Arah
Salah satu model yang mendapat sorotan utama dalam peluncuran ini adalah GPT-Realtime-Translate. Model AI ini dirancang khusus untuk menyediakan layanan terjemahan percakapan secara langsung dengan sistem dua arah. OpenAI membekali model ini dengan dukungan pemrosesan lebih dari 70 bahasa untuk input (masukan suara) dan 13 bahasa untuk output (keluaran suara).
Dengan spesifikasi tersebut, dua orang yang memiliki latar belakang bahasa berbeda dapat berkomunikasi secara lisan menggunakan bahasa ibu mereka masing-masing. Sistem AI akan bertugas menerjemahkan ucapan tersebut seketika kepada lawan bicara. Pihak OpenAI menyatakan bahwa teknologi ini mampu mengimbangi kecepatan berbicara pengguna secara natural. Model tetap dapat menangkap konteks meskipun pengguna berbicara dengan tempo cepat, sering berpindah topik obrolan, atau menggunakan istilah-istilah regional tertentu.
Kemampuan ini membuat GPT-Realtime-Translate dinilai sangat relevan untuk diterapkan pada layanan pelanggan global, sektor pendidikan lintas negara, acara konferensi internasional, media, hingga platform pembuat konten. Dalam sebuah pengujian independen, startup AI asal India, BolnaAI, melaporkan bahwa model ini memiliki Tingkat Kesalahan Kata (Word Error Rate/WER) 12,5 persen lebih rendah dibandingkan model kompetitor lain yang mereka uji, terutama saat memproses bahasa seperti Hindi, Tamil, dan Telugu.
Baca juga: ChatGPT Bikin Lowongan Kerja Turun 13%, Skill Ini Kini Paling Dicari
Transkripsi Kilat dengan Latensi Rendah
Model kedua yang diperkenalkan adalah GPT-Realtime-Whisper. Ini merupakan model AI berjenis speech-to-text yang berfokus pada penyalinan ucapan menjadi teks dengan tingkat latensi atau jeda waktu yang sangat rendah. OpenAI merancang teknologi ini agar teks transkripsi dapat muncul di layar hampir bersamaan dengan saat seseorang sedang berbicara.
Kecepatan dan akurasi transkripsi ini menjadikannya alat yang sangat fungsional untuk menyediakan takarir (caption) secara langsung pada rapat kerja, kelas pembelajaran jarak jauh, atau siaran langsung di internet. Lebih jauh lagi, model ini ditujukan untuk mempermudah otomatisasi tugas-tugas administratif. Beberapa skenario penggunaan komersial yang disarankan meliputi pembuatan ringkasan rapat otomatis, pencatatan bagi agen layanan pelanggan, dokumentasi rekam medis oleh tenaga kesehatan, hingga mendukung infrastruktur agen AI berbasis suara.
Mesin Utama dengan Peningkatan Kapasitas Konteks

Foto: OpenAI
Kemampuan terjemahan dan transkripsi kilat pada kedua model di atas pada dasarnya ditopang oleh mesin utamanya, yakni GPT-Realtime-2. Ini adalah model suara generasi terbaru dari OpenAI yang diklaim memiliki kemampuan penalaran tingkat tinggi yang setara dengan model teks GPT-5. Perusahaan merancang GPT-Realtime-2 untuk mampu menangani percakapan lisan yang kompleks dan menjalankan berbagai perintah secara bersamaan tanpa membuat interaksi terdengar kaku.
Salah satu peningkatan teknis yang paling signifikan adalah perluasan context window (jendela konteks). OpenAI meningkatkan kapasitas memori jangka pendek model ini dari 32.000 (32K) menjadi 128.000 (128K) token. Peningkatan kapasitas ini memungkinkan sistem AI untuk mengingat riwayat percakapan yang jauh lebih panjang, sehingga tidak kehilangan konteks meski diajak berdiskusi dalam durasi lama.
Selain itu, GPT-Realtime-2 juga telah mendukung fitur parallel tool calls. Fitur ini memungkinkan AI untuk tetap berbicara dengan pengguna sembari menjalankan tugas lain di latar belakang secara bersamaan. Berdasarkan pengujian internal perusahaan pada benchmark Big Bench Audio, GPT-Realtime-2 berhasil meraih skor akurasi sebesar 96,6 persen. Angka ini melesat jauh dari pendahulunya, GPT-Realtime-1.5, yang berada di skor 81,4 persen.
Baca juga: OpenAI Rilis ChatGPT for Clinicians, AI Canggih untuk Bantu Dokter dan Tenaga Medis
Sistem Keamanan dan Harga Layanan API
Mengingat sifat model AI ini yang mengandalkan pemrosesan suara murni, OpenAI menyadari adanya potensi penyalahgunaan teknologi untuk tindak penipuan digital (scam) berbasis suara atau spam. Untuk memitigasi risiko tersebut, pengembang telah menanamkan berbagai sistem pengaman langsung ke dalam arsitektur model. Sistem Realtime API dikonfigurasi agar dapat mendeteksi dan menghentikan percakapan secara otomatis apabila terdeteksi adanya pelanggaran terhadap pedoman konten berbahaya perusahaan.
Saat ini, ketiga model audio tersebut sudah tersedia dan dapat diakses oleh para pengembang aplikasi melalui layanan penghubung aplikasi Realtime API milik OpenAI. Untuk skema tarif komersialnya, OpenAI menetapkan harga sebagai berikut:
GPT-Realtime-2: Dibanderol seharga 32 dolar AS untuk setiap 1 juta token audio input, dan 64 dolar AS untuk setiap 1 juta token audio output.
GPT-Realtime-Translate: Dipatok dengan tarif berbasis durasi pemakaian, yakni sebesar 0,034 dolar AS per menit.
GPT-Realtime-Whisper: Ditawarkan dengan tarif yang lebih terjangkau, yakni 0,017 dolar AS per menit.
Peluncuran ketiga model ini menandai langkah strategis OpenAI untuk terus mendominasi pasar infrastruktur kecerdasan buatan, khususnya pada segmen pemrosesan audio yang sedang berkembang pesat di kalangan pengembang perangkat lunak global.
Baca berita dan artikel lainnya di Google News
(WN/ZA)

Tinggalkan Komentar