DeepL telah terkenal dengan terjemahan teks online yang diklaimnya lebih bernuansa dan tepat dibandingkan layanan seperti Google – sebuah promosi yang telah melambungkan startup Jerman ini dengan valuasi $2 miliar dan lebih dari 100.000 pelanggan yang membayar.
Kini, seiring meningkatnya popularitas layanan AI, DeepL menambahkan mode lain ke platform: audio. Pengguna kini dapat menggunakan DeepL Voice untuk mendengarkan seseorang berbicara dalam satu bahasa dan secara otomatis menerjemahkannya ke bahasa lain, secara real time.
IKLAN
GULIR UNTUK MELANJUTKAN KONTEN
Bahasa Inggris, Jerman, Jepang, Korea, Swedia, Belanda, Prancis, Turki, Polandia, Portugis, Rusia, Spanyol, dan Italia adalah bahasa-bahasa yang saat ini dapat “didengar” oleh DeepL. Subtitle tersedia untuk 33 bahasa yang saat ini didukung oleh DeepL Translator.
DeepL Voice saat ini tidak lagi menyediakan hasilnya sebagai file audio atau video itu sendiri: Layanan ini ditujukan untuk percakapan langsung dan konferensi video waktu nyata, dan hadir dalam bentuk teks, bukan audio.
Yang pertama, Anda dapat mengatur terjemahan Anda agar muncul sebagai “cermin” di ponsel cerdas Anda — idenya adalah Anda meletakkan ponsel di antara Anda di meja rapat sehingga masing-masing pihak dapat melihat kata-kata yang diterjemahkan — atau sebagai transkripsi yang Anda bagikan berdampingan dengan seseorang. Layanan konferensi video melihat terjemahannya muncul sebagai subtitle.
Hal ini dapat berubah seiring berjalannya waktu, Jarek Kutylowski, pendiri dan CEO perusahaan (gambar di atas), mengisyaratkan dalam sebuah wawancara. Ini adalah produk suara pertama DeepL, tapi kemungkinan besar ini bukan yang terakhir. “(Suara) itu yang penerjemahannya akan dilakukan tahun depan,” imbuhnya.
Ada bukti lain yang mendukung pernyataan ini. Google – salah satu pesaing terbesar DeepL – juga mulai memasukkan subtitle real-time ke dalam layanan konferensi video Meet-nya. Dan, ada banyak startup AI yang membangun layanan terjemahan suara, seperti spesialis suara AI ElevenLabs (ElevenLabs Dubbing), dan Panjaya, yang membuat terjemahan menggunakan suara dan video “deepfake” yang cocok dengan audionya.
Yang terakhir ini menggunakan API ElevenLabs, dan menurut Kutylowski, ElevenLabs sendiri menggunakan teknologi dari DeepL untuk mendukung layanan terjemahannya.
Output audio bukan satu-satunya fitur yang belum diluncurkan.
Saat ini juga belum ada API untuk produk suara. Bisnis inti DeepL difokuskan pada B2B dan Kutylowski mengatakan perusahaan bekerja dengan mitra dan pelanggan secara langsung.
Opsi integrasi juga tidak banyak: Satu-satunya layanan panggilan video yang mendukung subtitle DeepL saat ini adalah Teams, yang “mencakup sebagian besar pelanggan kami,” kata Kutylowski. Tidak ada kabar kapan atau apakah Zoom atau Google Meet akan menyertakan DeepL Voice.
Produk ini akan terasa lama sekali bagi pengguna DeepL, terutama karena kami telah dibanjiri dengan begitu banyak layanan suara AI lainnya yang ditujukan untuk penerjemahan. Kutylowski mengatakan ini adalah permintaan No. 1 dari pelanggan sejak 2017, tahun peluncuran DeepL.
Salah satu alasan penantian ini adalah karena DeepL telah mengambil pendekatan yang cukup disengaja dalam membangun produknya. Tidak seperti banyak aplikasi AI lain yang mengandalkan dan mengadaptasi model bahasa besar (LLM) perusahaan lain, tujuan DeepL adalah membangun layanannya dari awal. Pada bulan Juli, perusahaan ini merilis LLM baru yang dioptimalkan untuk terjemahan yang menurutnya mengungguli GPT-4, dan LLM dari Google dan Microsoft, terutama karena tujuan utamanya adalah penerjemahan. Perusahaan juga terus meningkatkan kualitas hasil tulisan dan glosariumnya.
Demikian pula, salah satu nilai jual unik DeepL Voice adalah ia akan bekerja dalam waktu nyata, yang penting karena banyak layanan “terjemahan AI” di pasar sebenarnya bekerja dalam penundaan, sehingga lebih sulit atau tidak mungkin digunakan dalam situasi langsung. yang merupakan kasus penggunaan yang ditangani DeepL.
Kutylowski mengisyaratkan bahwa ini adalah alasan lain mengapa produk pemrosesan ucapan baru fokus pada terjemahan berbasis teks: Terjemahan dapat dihitung dan diproduksi dengan sangat cepat, sementara pemrosesan dan arsitektur AI masih memiliki jalan panjang sebelum dapat menghasilkan audio dan terjemahan. video secepatnya.
Konferensi dan rapat video kemungkinan besar merupakan contoh penggunaan DeepL Voice, namun Kutylowski mencatat bahwa hal besar lainnya yang dinanti-nantikan oleh perusahaan adalah industri jasa, di mana pekerja garis depan, misalnya, di restoran dapat menggunakan layanan ini untuk membantu berkomunikasi dengan pelanggan dengan lebih mudah.
Ini mungkin berguna, tetapi ini juga menyoroti salah satu kelemahan layanan ini. Di dunia di mana kita semua tiba-tiba menjadi lebih sadar akan perlindungan data dan prihatin tentang bagaimana layanan dan platform baru mengambil alih informasi pribadi atau hak milik, masih harus dilihat seberapa besar keinginan masyarakat agar suara mereka didengar dan digunakan dengan cara ini.
Kutylowski menekankan bahwa meskipun suara akan dikirim ke servernya untuk diterjemahkan (pemrosesan tidak dilakukan pada perangkat), tidak ada satupun suara yang disimpan oleh sistemnya, atau digunakan untuk melatih LLM-nya. Pada akhirnya, DeepL akan bekerja sama dengan pelanggannya untuk memastikan bahwa mereka tidak melanggar GDPR atau peraturan perlindungan data lainnya.
NewsRoom.id