Google lanza Gemini 3.1 Flash TTS: IA de voz con 200 etiquetas y soporte multilingüe

Google revoluciona la síntesis de voz con el lanzamiento de Gemini 3.1 Flash TTS

La inteligencia artificial da un salto significativo en la generación de audio con el debut de Gemini 3.1 Flash TTS, el nuevo modelo de Google diseñado para convertir texto en voz con un control sin precedentes sobre la entonación y la expresión emocional. Disponible en versión preliminar, esta herramienta se integra en el ecosistema Gemini y ya es accesible a través de su API, así como en plataformas como Google AI Studio, Vertex AI y Google Vids para usuarios de Workspace.

Más de 200 etiquetas para personalizar la voz

Una de las innovaciones clave de este modelo es la inclusión de más de 200 etiquetas de audio, que pueden insertarse directamente en el texto de entrada. Estas etiquetas permiten ajustar aspectos como:

Emoción: determinación, curiosidad o entusiasmo
Estilo de entrega: susurros, risas o énfasis
Ritmo y acento
Intensidad y matices de la voz

Google describe este sistema como un enfoque "autorial", donde los desarrolladores pueden dirigir la interpretación de la voz de manera similar a un guion, logrando una personalización avanzada para narraciones, asistentes virtuales o contenido audiovisual.

—

Banner ancho de Pickt — app de listas de compras colaborativas para Telegram

Soporte multilingüe y diálogos naturales

Gemini 3.1 Flash TTS amplía su alcance al admitir más de 70 idiomas, incluyendo hindi, japonés y alemán, lo que lo convierte en una herramienta adaptable a mercados globales. Además, incorpora una función nativa para manejar diálogos con múltiples interlocutores, permitiendo generar conversaciones completas sin necesidad de múltiples llamadas a la API. Esta característica es ideal para:

Producción de podcasts
Guiones dramatizados
Interfaces conversacionales
Asistentes de voz más dinámicos

El objetivo es mantener un flujo conversacional continuo, evitando interrupciones o inconsistencias en la entonación.

Rendimiento y posicionamiento en el mercado

En evaluaciones técnicas, el modelo ha obtenido una puntuación Elo de 1,211 en el clasificador de texto a voz de Artificial Analysis. En el Speech Arena Leaderboard, se ubicó en segundo lugar, superando a competidores como Eleven v3 de ElevenLabs. Estos resultados lo posicionan como una de las opciones más avanzadas en el mercado de síntesis de voz.

Marca de agua para identificar contenido generado con IA

Google integra SynthID, su tecnología de marca de agua, en el modelo. Esta herramienta inserta una señal imperceptible en el audio generado, permitiendo identificar contenido creado con inteligencia artificial y contribuyendo a la prevención de desinformación. Según la compañía, esta marca de agua no afecta la calidad del audio, manteniendo la fidelidad del resultado final.

Acceso y capacidades técnicas

Gemini 3.1 Flash TTS está disponible para desarrolladores mediante la API de Gemini bajo el identificador gemini-3.1-flash-tts-preview. Entre sus especificaciones destacan:

8,192 tokens de entrada
16,384 tokens de salida

El lanzamiento se produce semanas después de la llegada de Gemini 3.1 Flash Live, reforzando la estrategia de Google para expandir sus capacidades en interfaces basadas en voz. Con este avance, la compañía consolida su presencia en herramientas de IA orientadas a audio, ofreciendo control creativo, integración y soporte multilingüe en un solo modelo.