Teknologi

Gemini 3.1 Flash TTS Dapat Membuat Suara Natural Dan Bisa Bicara 70 Bahasa

Published

2 bulan yang lalu

16 April 2026

Jakarta, Bindo.id – Model AI text-to-speech (TTS) terbarunya yakni Gemini 3.1 Flash TTS telah diluncurkan Google pada Rabu (15/4/2026).

Model AI tersebut diklaim dapat menghadirkan suara lebih natural serta ekspresif. Model ini menjadi bagian dari pengembangan keluarga Gemini 3.1 serta dirancang untuk menciptakan suara AI yang terdengar lebih mirip manusia.

Keunggulan utamanya salah satunya dukungan lebih dari 70 bahasa, dan kemampuan untuk menangani percakapan dengan lebih dari satu pembicara (multi-speaker).

Fitur menarik di Gemini 3.1 Flash TTS salah satunya Audio Tags. Dengan fitur ini pengguna bisa mengatur cara AI berbicara dengan lebih fleksibel.

Melalui perintah teks sederhana, pengguna dapat menentukan bagaimana suara AI terdengar. Misalnya untuk mengatur kecepatan bicara, gaya penyampaian, maupun emosi dalam satu kalimat.

Pengguna dapat memberikan instruksi seperti meminta AI berbicara dengan nada “antusias”, “senang”, maupun “serius dan informatif”.

Berbagai pilihan gaya suara maupun aksen telah tersedia di Google.

Pengguna dapat menyesuaikan suara sesuai dengan kebutuhan, mulai dari gaya santai seperti podcast, narasi audiobook, bahkan gaya formal seperti pembawa berita. Aksen yang tersedia juga beragam, misalnya Inggris dan Amerika.

Dengan fitur itu, suara yang dihasilkan dapat disesuaikan dengan berbagai kebutuhan, seperti narasi santai maupun dialog formal.

Bisa Bahasa Indonesia dan terdapat watermark AI

Seperti disebutkan sebelumnya, Gemini 3.1 Flash TTS terdapat dukungan lebih dari 70 bahasa, termasuk berbagai macam variasi regional.

AI ini bisa mengucapkan dengan lancar Bahasa seperti Indonesia, Jepang, Jerman, maupun Hindi.

Pada pengujian oleh Artificial Analysis, model ini tercatat skor Elo 1.211 serta dianggap unggul dalam rasio kualitas dan biaya.

Gemini 3.1 Flash TTS disebut bisa melewati kualitas model ElevenLabs v3 dan ada sedikit di bawah Inworld 1.5 Max.

Untuk pemakaian, Google menyediakan versi gratis dari model ini. Akan tetapi, data dari pengguna gratis akan dipakai untuk pengembangan produk.

Sedangkan untuk versi berbayar, tarif yang dikenakan yakni 1 dollar AS per juta token untuk input teks serta 20 dollar AS per juta token untuk output audio.

Di Google juga tersedia mode batch yang menawarkan biaya yang lebih murah, masing-masing 0,5 dollar AS dan 10 dollar AS.

Saat ini Gemini 3.1 Flash TTS tersedia di tahap pratinjau lewat API Gemini, Vertex AI untuk pengguna perusahaan, dan Google Vids untuk pengguna Workspace.

Pengguna umum juga dapat merasakan fitur ini secara gratis lewat Google AI Studio. Untuk memastikan transparansi, audio yang dihasilkan model ini akan diberikan watermark digital memakai teknologi SynthID milik Google.

Adanya watermark ini sebagai tanda konten tersebut dibuat dari kecerdasan buatan.

Tanda ini tertanam langsung di file suara, namun tak dapat didengar oleh manusia. Namun, sistem komputer tetap dapat mengenalinya sebagai konten buatan AI, bukan dari suara asli manusia.

Dilihat: 4

Ikuti berita terkini dari BINDO di
YouTube, dan Dailymotion