Mantan Mahasiswa Stanford Membuat Aplikasi Pengubah Aksen Bahasa

Fikriah Nurjannah . December 20, 2021

Foto: edition.cnn.com

Teknologi.id – Shawn Zhang, Maxim Serebryakov, dan Andrés Pérez Soderi merupakan founder dari Aplikasi Sanas. Mereka bertemu ketika mereka mahasiswa di Stanford. Ketiganya membangun aplikasi Sanas berdasarkan pengalaman temannya dan menyadari sebuah masalah besar datang dari hal tersebut.

Pengalaman tersebut yakni ketika temannya harus keluar dari pekerjaannya, padahal menurut rekan kampusnya ia fasih berbahasa Inggris dan Spanyol, sangat ramah dan ahli dalam rekayasa sistem. Namun, mengapa dia tidak bisa bertahan pada pekerjaannya di call center? Menurut keterangannya aksen yang dimilikinya, membuat banyak pelanggan sulit memahaminya; beberapa bahkan melontarkan hinaan karena caranya berbicara.

Berdasarkan hal inilah Shawn, Maxim, dan Andrés, mendirikan startup, Sanas, untuk mengatasinya. Saat ini, perusahaan mereka, sedang menguji perangkat lunak (software) artificial intelligence-powered yang bertujuan untuk menghilangkan miskomunikasi dengan cara mengubah aksen seseorang secara real time.

Seorang pekerja call center di Filipina, misalnya, dapat berbicara secara normal melalui mikrofon dan akhirnya terdengar lebih seperti seseorang dari Kansas kepada seorang pelanggan. Menurut founder Sanas, penerapan pada call center hanyalah permulaan. Situs web perusahaan memuji rencananya sebagai "Speech, Reimagined." Mereka berharap aplikasi yang mereka kembangkan pada akhirnya dapat digunakan oleh berbagai industri dan individu. Para founder juga menyampaikan bahwa aplikasi tersebut juga dapat membantu dokter lebih memahami pasien atau membantu cucu lebih memahami kakek-nenek mereka.

“Kami memiliki visi yang sangat besar untuk Sanas,” kata CEO Maxim Serebryakov. Selain itu, bagi Serebryakov dan rekan pendirinya, proyek ini bersifat pribadi.

Baca Juga: Ini Alat Pembayaran Properti di Metaverse dan Cara Pakainya

Suara Orang-orang Tidak Dapat Terdengar Sebanyak Aksen yang Mereka Miliki

Trio yang mendirikan Sanas bertemu di Universitas Stanford, tetapi mereka semua berasal dari negara yang berbeda. Serebryakov, yang saat ini menjabat sebagai CEO, berasal dari Rusia. Andrés Pérez Soderi, yang saat ini menjabat sebagai direktur keuangan, berasal dari Venezuela dan Shawn Zhang, yang saat ini menjabat sebagai chief technology officer, berasal dari China.

Mereka bukan lagi mahasiswa Stanford. Serebryakov dan Perez telah lulus, dan Zhang keluar untuk fokus mendirikan Sanas. Mereka meluncurkan perusahaan tahun lalu, dan memberinya nama yang dapat dengan mudah diucapkan dalam berbagai bahasa.
"untuk menyoroti misi global kami dan membawa orang-orang agar dapat lebih dekat," kata Pérez.

Selama bertahun-tahun, ketiganya mengatakan bahwa mereka telah menghadapi pengalaman mengenai bagaimana aksen dapat menghalangi suatu hal dalam kehidupan.

"Kami semua berasal dari latar belakang internasional. Kami telah melihat secara langsung bagaimana orang memperlakukan Anda secara berbeda hanya karena cara Anda berbicara," kata Serebryakov. "Hal itu terkadang sangat menyakitkan hati"

Zhang mengatakan ibunya, yang datang ke Amerika Serikat lebih dari 20 tahun yang lalu dari China, masih menyuruhnya berbicara dengan kasir ketika mereka pergi berbelanja bersama karena dia malu.

"Itulah salah satu alasan saya bergabung dengan Max dan Andrés dalam membangun perusahaan ini, mencoba membantu orang-orang yang merasa suaranya tidak didengar sebanyak aksen yang dimiliki oleh mereka," katanya.

Serebryakov mengatakan dia melihat bagaimana orang tuanya diperlakukan di hotel ketika mereka datang mengunjunginya di Amerika Serikat. Bagaimana seseorang membuat asumsi ketika mereka mendengar aksen yang dimiliki oleh orang tuanya. "Mereka berbicara sedikit lebih keras. Mereka mengubah perilaku mereka," katanya.

Pérez mengatakan bahwa setelah dirinya bersekolah Inggris (British School), pada awalnya dia berjuang untuk memahami aksen Amerika ketika dia tiba di Amerika Serikat. Selain itu, pengalaman lain yang dialaminya, yakni ketika ayahnya mencoba menggunakan Amazon Alexa yang diberikan keluarganya untuk Natal.

"Kami segera mengetahui, ketika Alexa menyalakan lampu di tempat-tempat yang acak di rumah dan menjadikannya berwarna merah muda. Alexa sama sekali tidak mengerti aksen ayah saya," kata Pérez.

Tangan Robot Ini Dapat Mencekram Seperti Tokek

Pengujian Teknologi di Call Center

Hal itu menciptakan pasar yang berkembang untuk aplikasi yang membantu pengguna melatih pengucapan bahasa Inggris mereka. Tapi Sanas menggunakan Al untuk mengambil pendekatan yang berbeda. Dasar pemikiran yang digunakan dalam aplikasi ini yaitu, alih-alih belajar mengucapkan kata-kata secara berbeda, teknologi dapat melakukannya untuk Anda. Tidak ada lagi kebutuhan yang mahal atau memakan waktu untuk pelatihan pengurangan aksen, serta pemahaman yang didapatkan hampir secara instan.

Serebryakov mengatakan bahwa dia mengetahui aksen dan identitas seseorang dapat terkait erat, dan dia menekankan bahwa perusahaan tidak mencoba untuk menghapus aksen, atau menyiratkan bahwa satu cara berbicara lebih baik daripada yang lain.

"Kami mengizinkan orang untuk tidak harus mengubah cara mereka berbicara, untuk memegang suatu posisi, atau untuk memegang suatu pekerjaan. Identitas dan aksen sangat penting. Mereka saling terkait," katanya. "Anda tidak pernah menginginkan seseorang untuk mengubah aksen mereka hanya untuk memuaskan orang lain."

Baca Juga: Tokopedia dan GoPay Rilis QRIS untuk Transaksi, ini Cara Pakainya

Saat ini algoritma Sanas dapat mengonversi bahasa Inggris ke dan dari aksen Amerika, Australia, Inggris, Filipina, India, dan Spanyol, dan tim berencana untuk menambahkan lebih banyak lagi. Mereka dapat menambahkan aksen baru ke sistem dengan melatih jaringan saraf dengan rekaman audio dari aktor profesional dan data lainnya. Hal itu merupakan sebuah proses yang memakan waktu beberapa minggu.
Tim Sanas memainkan dua demonstrasi untuk CNN. Satu, seorang pria dengan aksen India terdengar membaca serangkaian kalimat sastra. Kemudian frasa yang sama diubah menjadi aksen Amerika:

Contoh lain menampilkan frasa yang mungkin lebih umum dalam pengaturan call center, seperti "jika Anda memberi saya nama lengkap dan nomor order Anda, kami dapat melanjutkan dan mulai membuat koreksi untuk Anda."

Hasil beraksen Amerika terdengar agak artifisial dan kaku, seperti suara asisten virtual seperti Siri dan Alexa, tetapi Pérez mengatakan tim sedang berupaya meningkatkan teknologi.

"Aksennya berubah, tapi intonasinya tetap terjaga," katanya. "Kami terus bekerja untuk membuat hasilnya sealami dan semenarik mungkin." Umpan balik awal dari call center yang telah mencoba teknologi tersebut menghasilkan umpan balik yang positif, kata Perez.
Mereka mengatakan rencana mereka untuk perusahaan memperoleh $5,5 juta dalam pendanaan awal dari investor awal tahun ini.

Bagaimana Para Pendiri Sanas Melihat Masa Depan

Hal itu memungkinkan Sanas untuk mengembangkan stafnya. Sebagian besar karyawan perusahaan yang berbasis di Palo Alto, California, berasal dari latar belakang internasional. Hal tersebut bukanlah suatu kebetulan, kata Serebryakov.

"Apa yang kami bangun telah beresonasi dengan begitu banyak orang, bahkan orang-orang yang kami pekerjakan. Hal itu. sangat menarik untuk dilihat," katanya

Sementara perusahaan berkembang, mungkin masih perlu beberapa saat, sebelum Sanas muncul di app store atau muncul di ponsel Anda. Tim mengatakan mereka bekerja dengan perusahaan outsourcing call center yang lebih besar untuk saat ini dan memilih peluncuran yang lebih lambat untuk pengguna individu sehingga mereka dapat menyempurnakan teknologi dan memastikan keamanan.

Mereka berharap Sanas pada akhirnya bisa digunakan oleh siapa saja yang membutuhkan di bidang lain juga. Perez membayangkan Sanas memainkan peran penting, membantu orang-orang berkomunikasi dengan dokter mereka.

"Setiap detik yang hilang, entah karena kesalahpahaman, karena waktu yang habis, atau pesan yang salah, memiliki potensi yang sangat, sangat berdampak," katanya.

"Kami benar-benar ingin memastikan bahwa tidak ada yang hilang dalam terjemahan." Suatu hari nanti, katanya, itu juga bisa membantu orang belajar bahasa, meningkatkan dubbing suara di film dan membantu smart speaker di rumah dan voice assistants di mobil memahami aksen yang berbeda. Dan tidak hanya dalam bahasa Inggris, tim Sanas juga berharap dapat menambahkan bahasa lain ke dalam algoritme.

Ketiga co-founder masih mengerjakan detailnya. Tapi bagaimana teknologi ini bisa membuat komunikasi lebih baik di masa depan, kata mereka, adalah satu hal yang mudah dimengerti.

(fnj)

author0
teknologi id bookmark icon

Tinggalkan Komentar

0 Komentar