Nemo Video

Gemini 3.1 Flash TTS vs ElevenLabs pra vídeos curtos

tools-apps/blogs/567b4543-e9c8-4c4b-9889-4f2ac2e13c20.PNG

Oi gente, sou a Mariana. Na terça à noite eu tinha quatro abas abertas. O mesmo roteiro — um hook de 45 segundos estilo UGC pra uma cliente de skincare. Uma aba rodando ElevenLabs no plano Creator. Outra rodando o Gemini 3.1 Flash TTS no Google AI Studio. Mais duas com ferramentas antigas de TTS que não vou nem citar porque já perderam antes do cronômetro começar.

À meia-noite eu tinha uma planilha, 38 clipes gerados e uma conclusão que eu não esperava.

Se você produz 5+ vídeos curtos por dia e tá tentando decidir qual dessas duas ferramentas vai de fato usar — vou te economizar as três horas que acabei de queimar. A resposta não é "qual soa melhor." As duas soam bem agora. A resposta depende de exatamente três coisas: se você precisa clonar uma voz, se você produz em vários idiomas e quanto áudio você gera por mês.

Aqui vai o breakdown completo.


Gemini 3.1 Flash TTS vs ElevenLabs: visão geral

Aspecto

Gemini 3.1 Flash TTS

ElevenLabs

Lançamento / Status

Preview, 15 de abril de 2026

Produção, maduro (desde 2022)

Qualidade de voz (Elo)

1.206 no Artificial Analysis TTS Leaderboard (2º geral)

Historicamente #1; ainda forte em naturalidade em inglês

Vozes disponíveis

30 pré-definidas

Biblioteca grande + voice design

Clonagem de voz

Não

Sim — instantânea (Starter+) e profissional (Creator+)

Idiomas

70+

29+

Controle

200+ tags de áudio + prompts em linguagem natural

Voice design, sliders de estabilidade/similaridade, emoção via modelo

Preço (entrada)

U$1 por milhão de tokens de texto

Baseado em créditos (U$0,10–U$0,50 por minuto dependendo do plano)

Preço (saída)

U$20 por milhão de tokens de áudio

Incluído nos créditos

Plano grátis

Sim, com limite de taxa

10k créditos/mês, sem direitos comerciais

Marca d'água

SynthID (sempre ativo)

Nenhuma

Posicionamento em uma frase: O Gemini 3.1 Flash TTS é um motor de performance guiado por prompt. Você o dirige como um ator de voz. O mais barato em volume. Sem clonagem.

tools-apps/blogs/ca772c6b-26ff-4b8d-8813-761d16de8558.PNG

O ElevenLabs é uma plataforma de voz. Você escolhe as vozes deles ou traz a sua própria. O mais caro em volume. Imbatível pra clonagem e naturalidade em inglês.

Agora vou te mostrar onde cada um desmorona — e onde cada um salva o dia.


Qualidade e naturalidade de voz

Vou ser direta aqui. As duas soam bem. Qualquer pessoa que te diz que uma é "muito mais natural" não colocou as duas lado a lado nas últimas duas semanas.

tools-apps/blogs/4a2fd7f3-562f-4e06-9891-bb88a030a7fb.PNG

Os números: o Gemini 3.1 Flash TTS marca 1.206 Elo no Artificial Analysis TTS Leaderboard (milhares de votos humanos cegos em A/B). O ElevenLabs ficou no topo ou perto do topo pela maior parte dos últimos dois anos e ainda lidera em naturalidade bruta em inglês pra narrações mais longas.

Onde cada um soa mais natural — e onde escorrega:

O Gemini se sai melhor em:

  • Entrega curta e direta. Hooks de 15 segundos pro TikTok com urgência ou tom divertido. As 200+ tags de áudio ([excited], [whisper], [sigh]) produzem micro-expressões bem críveis

  • Conteúdo em outros idiomas. Japonês, Hindi, Português soaram visivelmente mais fluentes

  • Diálogo com múltiplos falantes numa única geração. Você escreve uma conversa de vai-e-vem e recebe um arquivo só com duas vozes distintas já mixadas

O Gemini escorrega em:

  • Conteúdo longo. A documentação oficial menciona drift na saída em clipes mais longos — e eu vi isso: perto do minuto 3, o timbre da voz mudou levemente

  • Transições emocionais muito específicas no meio da frase quando você exagera nas tags

O ElevenLabs se sai melhor em:

  • Narração longa em inglês. Voiceovers acima de 2 minutos mantêm a identidade de voz coerente

  • Vozes de marca específicas. Se a sua marca tem uma voz clonada, o ElevenLabs é o único dos dois que suporta isso

  • Casos específicos de pronúncia em inglês — jargão técnico, nomes de marcas, abreviações

O ElevenLabs escorrega em:

  • Direcionamento inline específico. Você não consegue dar direção cirúrgica no meio de uma frase como as tags do Gemini permitem

A visão honesta: pra um hook de TikTok com menos de 30 segundos, eu teria dificuldade de te dizer qual clipe veio de qual ferramenta sem ver o rótulo. Pra uma narração de 3 minutos pro YouTube, o ElevenLabs ainda soa como humano de verdade e o Gemini soa como uma IA muito boa. Essa diferença tá fechando rápido.


Controlabilidade e expressão

Aqui é onde as duas ferramentas divergem filosoficamente.

A abordagem de tags de áudio do Gemini

tools-apps/blogs/fedf234a-c28c-4a36-acd0-e9ba24974b1c.png

O Google construiu o Gemini 3.1 Flash TTS em torno de 200+ tags de áudio — diretivas entre colchetes que você joga direto no roteiro. Coisas como [warm], [impatient], [pause 2s], [whisper], [excited], [calm authority]. Você também escreve um prompt de estilo antes do roteiro que estabelece a identidade do falante e a cena.

O modelo mental é o de dirigir um ator. Você não tá escolhendo uma vibe num dropdown — você tá anotando a performance no nível da frase.

Exemplo de estrutura de prompt que funcionou bem nos meus testes:

Style: A calm, confident product reviewer, early 30s, speaking to camera in a kitchen setting.Script:[warm] Okay, I tried this for a week. [pause 1s][slight skepticism] Here's what I actually think.[enthusiastic] The battery life — [emphasis] genuinely surprised me.

Quando as tags são esparsas e alinhadas com o significado do roteiro, isso produz performances que parecem que uma pessoa fez escolhas específicas de entrega. Quando você exagera, parece um audiobook ruim. Menos é mais.

Os controles de voice design e emoção do ElevenLabs

A filosofia do ElevenLabs é mais próxima de "escolhe a voz certa, depois ajusta." Você seleciona da biblioteca de vozes existente, cria uma nova voz do zero usando sliders demográficos e de tom, ou clona uma voz real (a sua, a de um ator de voz, a de um personagem de referência).

Os principais controles são:

  • Stability — quão consistente é a entrega de geração em geração. Menor = mais expressivo mas mais variável

  • Similarity — quão próximo da voz de referência a saída fica

  • Style exaggeration — amplifica os trejeitos naturais da voz

Você não tem diretivas inline como o Gemini. Se você quer que uma frase específica pareça urgente, você ou reescreve o texto pra ser mais urgente, ou gera alguns takes e escolhe o melhor.

Qual é mais fácil pra criadores sem background de engenharia de áudio? Na moral, o Gemini. As tags são intuitivas. Os sliders do ElevenLabs levam tempo pra dominar, mas quando você tem uma voz ajustada, você pode rodar ela em 100 roteiros sem nenhuma alteração.


Cobertura de idiomas e sotaques

Gemini

70+ idiomas com controle nativo de sotaque. Testei espanhol (mexicano vs castelhano), português (brasileiro) e japonês. Os três produziram saída que eu mandaria pra um amigo nativo fazer uma checagem de sanidade e genuinamente esperaria passar.

O controle de sotaque funciona via linguagem natural no prompt de estilo — "fale com sotaque inglês de Newcastle" ou "sotaque californiano Valley" realmente muda a saída. Não de forma caricata, de forma real. Troquei um roteiro de "Brixton" pra "Newcastle" e a vogal mudou visivelmente. Isso é o tipo de detalhe que antes exigia contratar um ator de voz.

Code-mixing — alternar entre inglês e outro idioma no meio da frase — também funcionou melhor do que eu esperava. Útil pra mercados como a Índia, onde criadores naturalmente misturam Hindi e inglês numa única frase.

ElevenLabs

29+ idiomas no modelo Multilingual v2, com inglês, espanhol, alemão, francês e português bem polidos. Menos idiomas totais que o Gemini, mas o que suportam é extremamente refinado. Se o seu conteúdo é inglês-primeiro com espanhol ou francês ocasional, o ElevenLabs ainda é minha preferência.

Onde o ElevenLabs se estica menos é em idiomas de menor recurso. Se você cria conteúdo pra públicos tailandeses, vietnamitas ou romenos, a cobertura do Gemini é mais ampla e a qualidade é mais próxima da paridade do que eu esperava.

Resumo de idiomas:

  • 1-3 idiomas ocidentais principais → qualquer um funciona, ElevenLabs tem leve vantagem de polimento

  • 5+ idiomas ou os de menor recurso → Gemini


Clonagem de voz — onde elas mais diferem

Essa é a parte que não tem como contornar.

O que o Gemini 3.1 Flash TTS oferece (e não oferece)

Sem clonagem de voz. Ponto final.

A documentação do próprio Google Cloud confirma que o modelo funciona apenas com 30 vozes pré-definidas curadas. Você escolhe entre nomes como Kore, Leda, Zephyr, Puck — cada uma com um caráter distinto — e molda a entrega via prompts. Você não pode fazer upload de uma amostra de voz e ter o modelo produzir áudio nessa voz.

Isso não é um bug. É uma posição de segurança deliberada. O modelo também marca cada geração com SynthID, imperceptível mas detectável como gerado por IA. O Google está sendo cauteloso com clonagem por razões de deepfake. Razoável. Mas se você precisa de clonagem, essa ferramenta não é pra você.

Clonagem de voz instantânea e profissional do ElevenLabs

O ElevenLabs tem dois níveis de clonagem, e eles são o motivo pelo qual muitos criadores usam essa plataforma.

tools-apps/blogs/c80e1e4f-639c-453f-8fdb-92a64264a24d.png

Instant Voice Cloning — disponível no plano Starter (U$6/mês) e acima. Você faz upload de 1-5 minutos de áudio limpo e recebe um clone de voz utilizável em minutos. Bom o suficiente pra conteúdo de redes sociais, narração básica, uso pessoal.

tools-apps/blogs/c6e53557-3bd5-49c4-b9d5-0791f89fee2d.png

Professional Voice Cloning (PVC) — plano Creator (U$22/mês) e acima. Requer 30+ minutos de áudio de alta qualidade. A saída é dramaticamente melhor — isso é o que marcas usam pra vozes de porta-vozes clonadas, vozes de narrador que precisam ficar estáveis em conteúdo longo.

Se você é um criador de talking-head que quer escalar sua própria voz em mais conteúdo do que consegue gravar — ElevenLabs. Se você é uma pequena agência rodando uma voz de marca pra cliente — ElevenLabs. Se você é um criador de UGC que quer testar 30 variações de roteiro com sua própria voz antes de filmar de verdade — ElevenLabs.

Esse não é o trabalho do Gemini. Não tenta fazer o Gemini fazer esse trabalho.


Custo real pra criadores de short-form

Vou traduzir os dois modelos de preço pra mesma coisa: reais por voiceover de 60 segundos.

Gemini 3.1 Flash TTS — preço por token

O Gemini cobra U$1 por milhão de tokens de texto de entrada e U$20 por milhão de tokens de áudio de saída no nível pago. Tem também um plano grátis com limites de taxa.

Pra uma checagem de realidade: um voiceover de 60 segundos de um roteiro de ~150 palavras gera aproximadamente 35.000-50.000 tokens de áudio mais uns 200 tokens de entrada. Isso dá em torno de U$0,70-U$1,00 por minuto de áudio de saída nas taxas do nível pago.

O plano grátis cobre muita experimentação antes de você ver qualquer cobrança. Pra uma criadora testando a ferramenta, você provavelmente não vai pagar nada nas primeiras semanas. Isso importa.

ElevenLabs — planos de assinatura

O ElevenLabs precifica em caracteres, mas já que a gente pensa em minutos, aqui vai a tradução (assumindo ~1.000 caracteres por minuto de fala):

tools-apps/blogs/4b689787-fbfa-4170-90fa-0084c55223a4.png

Plano

Custo Mensal

Áudio Incluído

U$/min efetivo

Grátis

U$0

~10 min (sem uso comercial)

N/A

Starter

U$5

30 min, clonagem instantânea, direitos comerciais

U$0,17/min

Creator

U$22 (ou U$11 no primeiro mês)

100 min, clonagem profissional

U$0,22/min

Pro

U$99

500 min

U$0,20/min

Scale

U$330

2.000 min

U$0,165/min

Coisa importante pra notar: seu custo efetivo depende de quanto do plano você usa. Se você tá no Creator e só gera 40 minutos por mês, você tá pagando U$0,55/min, não U$0,22. A economia dos planos te recompensa por usar o que você paga.

Custo por mês — 50 vídeos de 60 segundos cada:

  • Gemini: ~U$35-50/mês (plano grátis ajuda)

  • ElevenLabs Creator: U$22/mês (cabe bem e inclui clonagem)

Pra 30-100 minutos/mês e clonagem, o ElevenLabs Creator é frequentemente mais barato. O Gemini ganha dramaticamente apenas em volume muito alto (500+ minutos) quando você não precisa de clonagem.


Qual usar em cada situação

  • YouTube faceless com voiceovers em lote → ElevenLabs Pro

  • Anúncios short-form e roteiros UGC → Gemini

  • Conteúdo multilíngue pra públicos globais → Gemini

  • Criadores de talking-head usando a própria voz → ElevenLabs


Conclusão — um framework pra decidir

Vou te dar a decisão que eu daria pra uma criadora amiga me mandando mensagem às 23h tentando escolher entre as duas. Sem enrolação de "depende, cada caso é um caso."

Escolhe o Gemini 3.1 Flash TTS se:

  • A maior parte da sua saída é short-form (menos de 60 segundos)

  • Você produz em vários idiomas, especialmente fora dos cinco principais

  • Você quer direcionamento emocional inline por roteiro

  • Você não precisa de clonagem de voz

  • Você gera 100+ minutos de áudio/mês e não precisa de clonagem

Escolhe o ElevenLabs se:

  • Você precisa de clonagem de voz (a sua, de um cliente, de um personagem)

  • Narração longa é seu formato principal

  • Seu conteúdo é inglês-primeiro e precisa de polimento broadcast

  • Você gera 30-100 minutos/mês e quer preço previsível

  • Você quer uma voz consistente em centenas de peças

Usa os dois se a sua operação abrange formatos e idiomas — o custo combinado ainda é muito menor do que um ator de voz freelancer.

Uma coisa que não vou fingir é que essa escolha fica estática. O Gemini 3.1 Flash TTS tem três semanas de vida enquanto escrevo isso. Clonagem de voz pode chegar. A diferença de idiomas vai fechar. O ElevenLabs vai responder com alguma coisa. Confere de novo em três meses. Minha amostra é pequena. Vale testar você mesma antes de se comprometer com um plano anual de qualquer lado.

Mas agora, hoje, pra vídeo short-form: roda os dois com um roteiro real de cliente. Cronometra. Escuta de volta. A resposta vai ser óbvia dentro de uma hora. Esse é o teste que realmente importa.


Perguntas frequentes

Qual tem melhor qualidade de voz em 2026? Pra inglês longo, o ElevenLabs tem leve vantagem em naturalidade. Pra short-form e clipes expressivos, o Gemini 3.1 Flash TTS está na paridade ou melhor.

Consigo clonar minha própria voz no Gemini 3.1 Flash TTS? Não. O Gemini 3.1 Flash TTS suporta apenas 30 vozes pré-definidas. Se clonagem de voz é um requisito, usa o ElevenLabs — o plano Creator inclui clonagem profissional de voz, e o Starter inclui clonagem instantânea.

Posso usar os dois juntos? Sim, e muitos criadores fazem isso. ElevenLabs pra sua voz clonada em conteúdo de talking-head, Gemini pra variantes multilíngues e leituras de anúncios short-form. Não tem nenhum motivo técnico pra escolher só um.


Leituras Recomendadas

Como Usar o Gemini 3.1 Flash TTS pra Fazer Locução de Vídeo

O melhor gerador de roteiros com IA pra criar conteúdo mais rápido

Geradores de Avatar com IA e Templates de Cena para E-Commerce