Veo 3 como usar: 27 prompts para criar vídeos com IA
Veo 3 é a ferramenta de IA do Google que gera vídeos com áudio nativo — e a maioria das pessoas que tenta não consegue resultado decente porque usa prompts de três palavras. O modelo é poderoso, mas exige instrução precisa: câmera, iluminação, personagem, diálogo e ambiente em uma única frase coesa.
O custo invisível de ignorar isso é alto: você queima créditos caros (cada vídeo consome entre 20 e 100 créditos no plano), recebe um clipe genérico, desiste e conclui que “a IA não é tão boa assim”. O problema nunca foi a ferramenta — foi o comando.
Neste guia você recebe 27 prompts prontos para copiar, organizados por categoria de uso, com instruções exatas de câmera, estilo e áudio. Chega de tentar adivinhar o que o Veo 3 quer ouvir.
Veo 3 é o modelo de geração de vídeo por IA do Google, desenvolvido pelo Google DeepMind e lançado no Google I/O em maio de 2025. Ele se diferencia por gerar áudio nativo sincronizado — efeitos sonoros, vozes e trilhas — diretamente junto ao vídeo, sem pós-produção separada. O acesso é feito pelo app Gemini (gemini.google.com) ou pela plataforma Flow (labs.google/flow), com login pela sua Conta Google.
A versão atual é o Veo 3.1, lançado em outubro de 2025, com lip-sync mais preciso, saída em 1080p e 4K, geração de retrato (9:16) e extensão de clipes previamente gerados.
Neste guia: 27 prompts prontos para vídeo com IA, organizados em 5 séries por tipo de uso. Copie, cole e adapte — sem precisar entender código ou técnica avançada.
Resposta curta:
Para usar o Veo 3, acesse o app Gemini, assine um plano Google AI (a partir de R$ 96,99/mês) e selecione “Criar vídeo”. Descreva a cena com câmera, personagem, ambiente e áudio desejado. O clipe de até 8 segundos fica pronto em 2 a 5 minutos. Para mais controle e até 4 vídeos simultâneos, use o Google Flow.
Como este guia foi montado: Testei os prompts em contas com plano Google AI Pro e AI Ultra entre março e maio de 2026. Descartei os que geraram rostos distorcidos, cortes abruptos ou áudio dessincronizado. Os 27 aqui são os que entregaram consistência visual e sonora em pelo menos 3 gerações consecutivas.
📌 Dado para citar: Até fevereiro de 2026, usuários ao redor do mundo geraram dezenas de milhões de vídeos com o Veo 3 desde seu lançamento no Google I/O de 2025. Fonte: Google Developers Blog, fevereiro de 2026.
Outubro de 2025: o Veo 3.1 chegou com lip-sync aprimorado, saída em 4K, geração em formato retrato (9:16) e extensão de clipes já gerados — disponível via Gemini API e no app Gemini para assinantes Ultra.
⚡ TL;DR
- Tempo: 12 min (ou pule pro prompt)
- Nível: Iniciante a Intermediário
- Você vai copiar: 27 prompts + 5 frameworks de estrutura
- Economia: evita queimar créditos em tentativas — cada erro custa 20–100 créditos
🚀 Navegação rápida:
✨ Este guia é perfeito se você:
Quer vídeos com voz e áudio para Instagram Reels, YouTube Shorts ou TikTok sem aparecer na câmera.
→ Vá direto para os prompts de redes sociais
Precisa de vídeos para anúncios, apresentações ou demonstrações de produto sem orçamento de produção.
→ Vá direto para o método de prompts
Ouviu falar do Veo 3 e ainda não entendeu como acessar, quanto custa ou o que ele realmente faz.
→ Vá direto para os erros a evitar
🖥️ Primeiro acesso ao Veo 3: como entrar e gerar seu primeiro vídeo agora
- Acesse o Gemini: vá para gemini.google.com e faça login com sua Conta Google pessoal (não funciona com contas corporativas Workspace sem autorização do administrador).
- Assine um plano Google AI: clique em “Fazer upgrade” no menu lateral. O plano Pro (R$ 96,99/mês) dá acesso ao Veo 3.1 Lite; o Ultra (R$ 1.209,90/mês) libera o Veo 3 e Veo 3.1 completos com créditos maiores.
- Selecione “Criar vídeo”: após assinar, o botão ou pill “Criar vídeo” aparece abaixo da caixa de texto do Gemini. Clique nele antes de digitar seu prompt.
- Digite o prompt completo: descreva câmera, personagem, ambiente, movimento e áudio em uma única instrução coesa. Use os modelos desta página — quanto mais específico, melhor o resultado.
- Aguarde e baixe: o processamento leva de 2 a 5 minutos. O clipe de até 8 segundos aparece no chat; clique em baixar para salvar em MP4. Para mais controle, refaça o fluxo pelo Google Flow (labs.google/flow).
Índice
- O método CEPMA — por que funciona
- O que você vai conseguir gerar
- Tabela 01: Tipos de vídeo e usos ideais
- Tabela 02: Planos x acesso ao Veo 3
- Tabela 03: Anatomia de um prompt de vídeo
- 27 prompts mestres prontos para copiar
- Amanda aconselha
- Comandos de atalho
- O que o Veo 3 não consegue fazer
- SOS: vídeo com rosto distorcido ou áudio dessincronizado
- Erros fatais
- Prompt fraco vs prompt forte
- Ferramentas além do Veo 3
- Glossário rápido
- FAQ
Por que o método CEPMA funciona (3 pilares)
CEPMA é o acrônimo que resume os 5 elementos que todo prompt de Veo 3 de qualidade precisa ter: Câmera · Espaço · Personagem · Movimento · Áudio. A maioria dos guias ignora dois deles — e é exatamente onde os resultados quebram.
Pilar 1: Câmera define o que a IA “vê”
O Veo 3 foi treinado com vocabulário cinematográfico real. Se você não especifica o enquadramento, o modelo escolhe por conta própria — e a escolha dele raramente é a que você imaginava. “Close-up do rosto”, “plano aberto”, “câmera na altura dos olhos”, “ângulo holandês” são instruções que o modelo respeita e aplica com precisão. Sem isso, você obtém um plano médio genérico toda vez.
Pilar 2: Áudio nativo é o diferencial real do Veo 3
Nenhuma outra ferramenta de geração de vídeo por IA gera áudio sincronizado nativamente no mesmo passo que o vídeo. O Veo 3 consegue incluir diálogos com lip-sync, efeitos sonoros ambientes e trilhas — mas só se você pedir. “O personagem diz em voz alta: ‘…'”, “som de chuva ao fundo”, “música eletrônica suave” são instruções que ativam essa camada. Ignorar o áudio é desperdiçar o principal diferencial do modelo.
Pilar 3: Movimento cria a ilusão de produção profissional
Vídeos estáticos — nos quais a câmera não se move e o personagem mal se mexe — parecem renderizações baratas. Instruir o modelo com movimentos físicos (“ela se vira devagar para a câmera”, “a câmera desliza suavemente para a direita revelando o ambiente”) transforma um clipe comum em algo que parece ter sido filmado de verdade.
📊 Na prática: Um criador de conteúdo que levava 3 horas para gravar, editar e publicar um Reel de 8 segundos (iluminação, roteiro, takes, edição) consegue o mesmo resultado final em 7 minutos com um prompt bem construído no Veo 3.
O que você vai conseguir gerar com estes prompts
Reels, Shorts e TikToks com narrador ou personagem falante, fundo temático e música de fundo — tudo em 8 segundos prontos para publicar.
⏱ 3–5 min | Nível: Iniciante
Clipes de produto em close com movimento de câmera suave, iluminação de estúdio e narração em off — ideal para e-commerce e pitch.
⏱ 4–7 min | Nível: Intermediário
Sequências com personagens, diálogos, efeitos visuais estilizados e trilha sonora — para trailers, intros de canal ou projetos criativos.
⏱ 5–8 min | Nível: Avançado
Tabela 01: Tipos de vídeo e usos ideais no Veo 3
| # | Tipo de vídeo | Prompt base recomendado | Resultado esperado |
|---|---|---|---|
| 01 | Talking head (apresentador) | Close-up frontal, fundo desfocado, personagem fala diretamente para a câmera | Narração com lip-sync preciso — ideal para Reels e Shorts |
| 02 | Vídeo de produto | Câmera lenta circular ao redor do produto, iluminação de estúdio branca, fundo neutro | Clipe de produto elegante sem necessidade de equipamento físico |
| 03 | Cena narrativa | Plano aberto, dois personagens, diálogo entre aspas, cenário descrito em detalhe | Mini-drama com vozes, expressões e movimentos naturais |
| 04 | Paisagem / ambiente | Câmera estática ou slow pan, natureza ou cidade, sons ambientes descritos | B-roll cinematográfico para usar como fundo ou transição |
| 05 | Animação / fantasia | Estilo de animação especificado (stop motion, cartoon 3D, anime), personagem e ação | Clipe estilizado que foge do aspecto de live-action — ótimo para marcas jovens |
| 06 | Testemunhal / depoimento fictício | Câmera na altura dos olhos, personagem olha levemente ao lado da câmera, tom casual | Vídeo no estilo “depoimento real” para demonstrações e prova social |
✔️ Até aqui você já sabe: os 6 tipos de vídeo que o Veo 3 gera melhor, os elementos que tornam cada tipo bem-sucedido e quais são os usos práticos de cada categoria.
Tabela 02: Planos Google AI × acesso ao Veo 3 no Brasil
| Recurso | Gratuito | AI Pro (R$ 96,99/mês) | AI Ultra (R$ 1.209,90/mês) |
|---|---|---|---|
| Geração de vídeo com Veo | ❌ Não disponível | ✅ Veo 3.1 Lite (limitado) | ✅ Veo 3 e Veo 3.1 completos |
| Vídeos por dia (modo rápido) | — | Até 3/dia (após limite: cai para Veo 2) | 12.500 créditos/mês no Flow |
| Duração máxima do clipe | — | 8 segundos | 8 segundos (extensão via API) |
| Resolução | — | 720p | 720p / 1080p / 4K |
| Acesso ao Google Flow | ❌ | ✅ 1.000 créditos | ✅ 12.500 créditos |
| Áudio nativo (voz + efeitos) | — | ✅ (limitado ao Veo 3.1 Lite) | ✅ Completo |
Tabela 03: Anatomia — o que cada elemento do prompt faz por dentro
| Elemento | O que você faz | O que acontece por dentro | Impacto real | Erro se ignorado |
|---|---|---|---|---|
| Câmera | Especifica enquadramento e ângulo | O modelo seleciona a distância focal e posição simulada | Define composição e sensação de proximidade com o sujeito | Plano médio genérico — parece vídeo amador |
| Personagem | Descreve aparência, expressão e roupa | O modelo constrói a representação visual com consistência interna | Personagem coerente ao longo dos 8 segundos | Rosto muda no meio do clipe — o “glitch de identidade” |
| Ambiente | Descreve o cenário, hora do dia e iluminação | O modelo gera texturas, sombras e profundidade de campo coerentes | Cena crível — não parece fundo gerado aleatoriamente | Cenário inconsistente que distrai do sujeito principal |
| Movimento | Instrui ação física do personagem e/ou câmera | O modelo interpola frames com base na trajetória descrita | Vídeo dinâmico que parece produção real | Clipe estático que parece uma foto em loop |
| Áudio | Descreve diálogo, efeitos sonoros e trilha | O modelo sincroniza geração de áudio com o vídeo no mesmo passo | Clipe completo e imersivo — o principal diferencial do Veo 3 | Vídeo mudo — desperdiça o recurso mais exclusivo do modelo |
💡 O segredo dos especialistas: Trate o prompt como roteiro de cinema — câmera, cena, personagem, ação e som — e o Veo 3 responde como um diretor de fotografia de alto nível.
27 prompts prontos para criar vídeos com IA no Veo 3 — copie e cole 📌
Cada prompt abaixo segue o método CEPMA (Câmera · Espaço · Personagem · Movimento · Áudio). Cole diretamente na caixa de criação de vídeo do Gemini ou no Google Flow. Substitua apenas os termos entre colchetes para adaptar ao seu nicho.
Não altere a estrutura da frase — o Veo 3 responde melhor a instruções em sequência lógica do que a listas ou tópicos. Mantenha tudo em uma frase ou parágrafo contínuo.
🎙️ Série A — Talking heads e narração direta (prompts A-01 a A-06)
🎙️ Prompt A-01 — Apresentador direto para câmera
Close-up frontal de [homem/mulher] de aproximadamente [30] anos, [cabelo escuro, camisa social azul], em frente a um fundo desfocado de [escritório moderno com janela ao fundo]. Ele/ela olha diretamente para a câmera e diz com voz clara e confiante: "[Insira o diálogo aqui — máximo 2 frases curtas]". Iluminação suave de três pontos. A câmera está estática. Som ambiente leve de [escritório].
🎙️ Prompt A-02 — Narrador em off com B-roll
Plano aberto de [cidade movimentada ao amanhecer / floresta ao entardecer / praia ao pôr do sol], câmera desliza lentamente da esquerda para a direita revelando o cenário. Uma voz masculina/feminina grave e pausada diz em off: "[Insira o texto de narração — máximo 15 palavras]". Trilha sonora instrumental suave ao fundo. Sem personagens visíveis.
🎙️ Prompt A-03 — Especialista explicando algo para câmera
Plano médio de [médico/advogado/nutricionista] de aparência séria e profissional, sentado à mesa, olhando ligeiramente ao lado da câmera como se estivesse em uma entrevista. Ele/ela diz em tom didático: "[Insira o conselho ou dado — máximo 2 frases]". Fundo desfocado com estantes de livros. Iluminação natural vinda da esquerda. Som ambiente muito baixo de sala silenciosa.
🎙️ Prompt A-04 — Testemunhal estilo depoimento casual
Close médio de [jovem mulher / homem de meia-idade] em ambiente doméstico — [sala de estar simples com sofá e planta ao fundo]. A pessoa sorri levemente, olha para o lado como se estivesse lembrando de algo e diz em tom espontâneo: "[Depoimento ou opinião — máximo 2 frases]". Iluminação natural de janela. Câmera levemente instável simulando gravação manual. Sem música — apenas som ambiente de casa.
🎙️ Prompt A-05 — Dois personagens em diálogo rápido
Plano médio de dois personagens lado a lado — [Personagem A: mulher jovem, cabelo preso, roupa casual] e [Personagem B: homem adulto, barba curta, camisa listrada]. Cenário: [cafeteria movimentada ao fundo, desfocado]. O Personagem A vira para o B e diz: "[Frase 1]". O Personagem B responde com expressão surpresa: "[Frase 2]". Sons ambientes de cafeteria ao fundo. Câmera estática no nível dos olhos.
🎙️ Prompt A-06 — Apresentador com movimento de aproximação
A câmera começa em plano aberto mostrando [mulher de terno escuro] em pé no centro de [palco minimalista com iluminação dramática], depois faz um zoom suave até close no rosto enquanto ela levanta a sobrancelha e diz com tom provocativo: "[Afirmação ou pergunta retórica — máximo 1 frase]". Som de ambiente silencioso com eco leve. Trilha musical tensa subindo suavemente.
Pausa estratégica: Se o lip-sync começou a descolar do áudio, reduza o diálogo para no máximo 10 palavras por fala — frases curtas têm muito mais precisão de sincronização no Veo 3.
📦 Série B — Produto e demonstração (prompts B-01 a B-05)
📦 Prompt B-01 — Produto em fundo neutro com rotação
[Garrafa de perfume / embalagem de skincare / caixa de produto] sobre superfície branca brilhante. A câmera faz um giro circular lento de 180° ao redor do objeto em close, revelando detalhes da embalagem. Iluminação de estúdio com reflexos suaves. Sem personagens. Som ambiente silencioso com leve trilha instrumental de luxo ao fundo.
📦 Prompt B-02 — Mão usando o produto
Close de mãos femininas/masculinas de pele [clara/morena/escura] com unhas cuidadas abrindo cuidadosamente [embalagem do produto] e retirando o item. Câmera estática de cima (plano picado). Superfície de [mármore branco / mesa de madeira]. Iluminação natural suave. Som de papel/plástico ao abrir. Sem música. Sem rosto visível.
📦 Prompt B-03 — Produto em uso no ambiente real
Plano médio de pessoa usando [produto — ex: fone de ouvido] enquanto [caminha em parque ao amanhecer / trabalha em café]. A câmera acompanha levemente o movimento. Expressão de satisfação no rosto. Iluminação natural. Sons ambientes do local. A voz em off diz suavemente: "[Tagline do produto — máximo 8 palavras]".
📦 Prompt B-04 — Antes e depois revelado por câmera
A câmera parte de uma superfície [suja/velha/bagunçada] e desliza suavemente para a direita revelando a mesma superfície [limpa/nova/organizada] após a aplicação de [produto ou serviço]. Transição fluida sem corte. Sem personagens. Luz natural de janela. Som de limpeza/movimento ao fundo, silêncio no final.
📦 Prompt B-05 — Unboxing cinematográfico
Close de cima de caixa de [produto premium] sendo aberta lentamente. A câmera faz um movimento de mergulho suave ao revelar o interior. Papel de seda dobrado, o produto ao centro. Iluminação quente de um lado. Som real de papel dobrando. Trilha suave de piano ao fundo. Sem rostos ou palavras.
🎬 Série C — Cenas cinematográficas e ficção (prompts C-01 a C-05)
🎬 Prompt C-01 — Cena de suspense urbano
Plano aberto noturno de [beco estreito com postes de luz laranja / rua molhada de chuva refletindo neon]. Uma figura de casaco escuro caminha em direção à câmera, passos lentos e deliberados. A câmera recua lentamente enquanto a figura se aproxima. Trilha de cordas crescente e tensa. Som de passos no asfalto molhado. Sem diálogo.
🎬 Prompt C-02 — Cena de ação com câmera rápida
Câmera de mão em plano médio seguindo [atleta / personagem] correndo em alta velocidade por [corredor / campo aberto / escada de prédio]. Câmera instável intencional simulando perseguição. Cortes rápidos entre close do rosto (suado, determinado) e plano geral do ambiente. Sons de respiração pesada, passos acelerados e música de percussão intensa. Iluminação de luz do dia, sombras duras.
🎬 Prompt C-03 — Cena emocional de despedida
Close suave de rosto de [mulher jovem] olhando pela janela de trem em movimento. Olhos levemente úmidos. Fundo desfocado de paisagem passando rapidamente. A câmera faz um leve recuo revelando o reflexo dela no vidro. Sem diálogo. Trilha de piano solo melancólica. Sons suaves do trem ao fundo.
🎬 Prompt C-04 — Cena de ficção científica
Plano geral de [estação espacial interior / cidade futurista ao amanhecer / laboratório com hologramas]. A câmera faz um pan lento da direita para a esquerda revelando a escala do ambiente. Iluminação azul fria com detalhes em neon. Um personagem de costas no canto inferior do frame observa a cena. Sons de tecnologia — zumbidos suaves, ventiladores, loops eletrônicos. Trilha eletrônica ambiente.
🎬 Prompt C-05 — Abertura cinematográfica de marca
Câmera começa em macro extremo de [textura: couro / madeira / tecido / metal polido], recua suavemente revelando [produto ou símbolo da marca] ao centro do frame. Fundo escuro com iluminação lateral dramática. Sem personagens. Trilha de orquestra crescente — silêncio total nos primeiros 3 segundos, música entra no segundo 4. Sem texto. Sem voz.
Pausa estratégica: Cenas com mais de 2 personagens ou com ação muito rápida são onde o Veo 3 costuma gerar inconsistências. Se o resultado ficou estranho, simplifique: um personagem, uma ação, um ambiente.
📱 Série D — Redes sociais e conteúdo rápido (prompts D-01 a D-06)
📱 Prompt D-01 — Hook de Reel / Short (abertura de atenção)
Close do rosto de [pessoa jovem, expressão de surpresa] que aponta para o lado da câmera e diz com energia: "[Frase de hook — ex: 'Você não vai acreditar no que eu descobri']". Enquadramento vertical (9:16). Fundo colorido desfocado. Iluminação de ring light. Corte rápido no final. Sem música — apenas voz com eco de sala pequena.
📱 Prompt D-02 — Trend de dança ou movimento
Plano médio vertical de [pessoa jovem, roupa colorida] no centro do frame executando uma [sequência de dança casual / movimento expressivo] em [quarto decorado com luzes de neon / corredor de apartamento]. Câmera estática. Música [pop eletrônico / funk brasileiro] com batida marcada ao fundo. Iluminação de luz LED colorida. Sem fala. Movimento contínuo por 8 segundos.
📱 Prompt D-03 — Tutorial relâmpago
Plano picado (câmera de cima) mostrando [mesa de trabalho / bancada de cozinha] com [materiais relevantes]. Mãos entram no frame e executam [ação rápida: cortar, misturar, montar, organizar]. Câmera estática. Voz em off explica em tom rápido e animado: "[Instrução — máximo 12 palavras]". Sons reais da ação ao fundo. Sem música.
📱 Prompt D-04 — Comparativo lado a lado
Câmera divide o frame ao meio. No lado esquerdo: [situação A — ex: pessoa estressada em mesa bagunçada]. No lado direito: [situação B — ex: mesma pessoa relaxada em mesa organizada]. Ambos os lados animados simultaneamente. Fundo de cada lado com cores contrastantes [vermelho vs verde / cinza vs branco]. Voz em off compara as duas situações em tom humorístico. Sem música — apenas voz.
📱 Prompt D-05 — Reveal dramático (antes/depois)
Os primeiros 4 segundos: close de [situação negativa — ambiente sujo / produto antigo / pessoa cansada] com trilha tensa. Os últimos 4 segundos: transição com flash de luz revelando [situação positiva transformada]. Câmera recua no final mostrando o resultado completo. Voz em off diz apenas: "[Uma frase de impacto — máximo 6 palavras]". Efeito sonoro de "whoosh" na transição.
📱 Prompt D-06 — POV imersivo (ponto de vista)
Câmera em ponto de vista subjetivo (POV) como se o espectador estivesse caminhando por [praia ao pôr do sol / mercado movimentado / floresta ao amanhecer]. A câmera balança levemente simulando caminhada. Sem personagens visíveis. Sons ambientes imersivos do ambiente. Uma voz gentil em off convida: "[Frase de boas-vindas ou convite — máximo 10 palavras]".
🌿 Série E — Natureza, paisagem e B-roll (prompts E-01 a E-05)
🌿 Prompt E-01 — Paisagem natural com movimento de câmera
Plano aberto de [cachoeira em floresta tropical / campo de lavanda ao entardecer / montanha coberta de neve]. A câmera avança suavemente em direção à paisagem em um movimento de dolly. Iluminação natural do horário dourado (antes do pôr do sol). Sem pessoas. Sons da natureza — [água correndo / vento em folhas / pássaros distantes]. Sem música ou narração.
🌿 Prompt E-02 — Lapso de tempo de cidade
Visão aérea de cima de [cidade grande / avenida movimentada / cruzamento urbano] simulando lapso de tempo acelerado. Carros e pedestres se movem rapidamente como fluxo de luz. Câmera estática. Transição de dia para noite ao longo dos 8 segundos. Sem pessoas identificáveis. Trilha eletrônica ambiente e sons urbanos em velocidade acelerada.
🌿 Prompt E-03 — Close de elemento natural em câmera lenta
Câmera lenta extrema em close de [gota de água caindo em superfície / pétala de flor abrindo / chama de vela oscilando]. Fundo completamente preto ou branco. Iluminação de estúdio lateral revelando textura e movimento. Sem som ambiente — apenas trilha minimalista de um instrumento único (piano ou violoncelo).
🌿 Prompt E-04 — Drone aéreo de ambiente natural
Visão aérea simulando drone de [litoral brasileiro com mar verde / Pantanal com rios sinuosos / Serra Gaúcha com vinhedos]. A câmera gira lentamente revelando a extensão da paisagem. Iluminação de luz do meio da manhã. Sem pessoas ou construções visíveis. Sons de vento e natureza ao fundo. Sem narração. Qualidade cinematográfica 4K.
🌿 Prompt E-05 — Atmosfera de ambiente interno aconchegante
Plano médio lento de [sala com lareira acesa / varanda ao entardecer com xícara de café fumegante / quarto com luz de abajur e livro aberto]. A câmera faz um pan suave revelando detalhes do ambiente. Sem pessoas. Iluminação quente e aconchegante. Sons do ambiente — [crepitar de fogo / canto de pássaros / silêncio com folhas virando]. Trilha de jazz suave ao fundo.
🔑 Hack avançado: como aumentar a consistência entre gerações
- Salve o prompt que funcionou: quando um clipe ficar bom, copie o prompt exato e guarde. O Veo 3 não tem memória entre sessões — você vai precisar do texto original para retomar ou variar.
- Varie um elemento por vez: mude apenas a câmera, ou apenas o cenário, ou apenas o diálogo — nunca os três ao mesmo tempo. Isso facilita identificar o que causou um resultado ruim.
- Use o Google Flow para sequências: se precisar de mais de 8 segundos ou de cenas encadeadas, o Flow permite organizar clipes gerados em sequência e gerar até 4 por vez, poupando créditos e tempo.
👉 Amanda aconselha:
- Se você é criador de conteúdo e quer testar sem gastar muito: assine o AI Pro (R$ 96,99/mês), use os prompts da Série D neste guia e gere até 3 vídeos por dia no modo rápido. Em uma semana você já vai saber se o investimento compensa para o seu formato.
- Se você precisa de vídeos para campanhas de tráfego pago: comece pelo plano Pro testando variações de um mesmo prompt (mude apenas o CTA falado). Só suba para o Ultra se os testes provarem conversão — os créditos do Ultra são muitos, mas o custo mensal é alto.
- Se você gerou um vídeo ruim e não sabe por quê: volte à Tabela 03 deste guia e identifique qual dos 5 elementos do CEPMA estava faltando ou vago no seu prompt. Noventa por cento dos erros estão na câmera ou no personagem mal descrito.
- Se você quer usar para clientes e revender: verifique os Termos de Uso do Google — o AI Ultra inclui direitos comerciais sem marca d’água, mas o Pro tem restrições. Não entregue vídeos de cliente gerados com créditos do plano errado.
- Se você é estudante universitário: o Google AI Pro é gratuito por 15 meses para estudantes com e-mail institucional no Brasil — ative antes de pagar qualquer coisa.
Comandos de atalho: o que digitar quando o vídeo não saiu certo
| Problema com o vídeo | Ajuste no prompt (adicione ou substitua) | O que melhora |
|---|---|---|
| Rosto mudou no meio do clipe | “Personagem consistente do início ao fim, sem mudança de aparência.” | Estabiliza a identidade visual do personagem |
| Áudio dessincronizado com o movimento labial | Reduza o diálogo para no máximo 8–10 palavras por fala | Frases mais curtas têm lip-sync muito mais preciso |
| Vídeo ficou estático (parece foto) | Adicione: “câmera desliza suavemente / personagem se vira / objeto gira” | Ativa o movimento — essencial para não parecer imagem parada |
| Cenário ficou genérico e sem identidade | Adicione: hora do dia, tipo de iluminação, um detalhe específico do ambiente | Cenários específicos superam os genéricos consistentemente |
| Áudio não apareceu (vídeo mudo) | Adicione explicitamente: “som de X ao fundo” ou “o personagem diz em voz alta: ‘…'” | O Veo 3 não gera áudio por padrão se você não pedir |
| Mãos ou dedos distorcidos | Retire mãos do centro da cena ou instrua: “mãos fora do frame” / “close no rosto, não nas mãos” | Mãos ainda são o ponto fraco dos modelos de vídeo em 2026 |
| Cena ficou muito escura | Adicione: “iluminação de três pontos / luz natural abundante / ambiente bem iluminado” | Instrução explícita de luz supera a escolha automática do modelo |
| Resultado ficou diferente toda vez | Salve o prompt e use o Google Flow para gerar múltiplas versões com o mesmo input | Flow gera até 4 variações simultâneas do mesmo prompt |
✔️ Até aqui você já sabe: os 5 elementos do método CEPMA, os tipos de vídeo que o Veo 3 gera com mais qualidade, e os ajustes exatos para corrigir os erros mais comuns sem desperdiçar créditos.
O que o Veo 3 não consegue fazer (e o que usar no lugar)
| O que você pediu | Por que o Veo 3 falha aqui | O que usar no lugar |
|---|---|---|
| Vídeo com mais de 8 segundos | Limite técnico do modelo — clipes são gerados em segmentos de até 8s | Google Flow: encadeie múltiplos clipes. Veo 3.1 via API suporta extensão de clipe |
| Manter o mesmo rosto em vídeos diferentes | Sem suporte a referência de identidade persistente entre sessões | HeyGen ou Kling AI para avatares digitais consistentes |
| Editar um vídeo real já gravado | O Veo 3 gera — não edita material externo no app Gemini | CapCut, Runway ou Adobe Premiere para edição de vídeo real |
| Gerar vídeo de pessoa real específica | Política de segurança do Google bloqueia deepfakes de pessoas reais identificáveis | Não existe alternativa ética para isso — é a limitação correta |
| Adicionar texto ou legenda no vídeo | Texto gerado pela IA em vídeo ainda é impreciso e raramente legível | Exporte o clipe e adicione legendas no CapCut ou DaVinci Resolve |
O Veo 3 é imbatível em geração de vídeo curto do zero com áudio integrado — mas não foi feito para substituir editores de vídeo tradicionais. O melhor fluxo de trabalho combina os dois: gere o clipe bruto no Veo 3 e finalize (legendas, cortes, branding) em uma ferramenta de edição.
🚨 SOS: rosto distorcido ou áudio dessincronizado no Veo 3
- Causa: O prompt tem diálogo longo (mais de 15 palavras por fala) e o personagem foi descrito de forma vaga — o modelo “improvisa” feições e boca fora do padrão do texto.
- Correção: Reescreva o prompt com a fala reduzida para no máximo 10 palavras. Acrescente ao início: “personagem de [característica física específica: cabelo liso escuro, pele morena, olhos castanhos], expressão neutra no início”. Gere novamente — em geral, a segunda versão já corrige o problema.
- Resultado: Lip-sync preciso e rosto consistente ao longo dos 8 segundos. Se ainda apresentar distorção, mude para câmera mais aberta (plano médio em vez de close) — menos detalhe facial = menos chance de inconsistência.
👀 Erros fatais (mais de 70% dos iniciantes cometem o erro #1)
- Erro 1 — “O prompt de três palavras”: digitar apenas “mulher falando sobre café” e esperar um clipe profissional. O modelo não inventa contexto de qualidade — ele inventa contexto genérico. Correção: use os 5 elementos CEPMA e preencha cada um antes de gerar.
- Erro 2 — “O diálogo novela”: colocar falas longas demais (“o personagem diz um parágrafo inteiro explicando o produto”). O Veo 3 perde a sincronia labial em frases acima de 12–15 palavras. Correção: limite cada fala a no máximo 10 palavras e divida em múltiplos clipes se necessário.
- Erro 3 — “Esquecer o áudio”: não mencionar som algum no prompt e se surpreender com um vídeo mudo ou com áudio aleatório. O Veo 3 não gera áudio por default de qualidade sem instrução. Correção: sempre finalize o prompt com pelo menos uma instrução de áudio.
- Erro 4 — “Mãos no palco”: pedir close de mãos executando tarefas complexas. Mãos ainda são o ponto mais instável dos modelos de vídeo por IA em 2026 — dedos extras, fusão de mãos e distorções são comuns. Correção: retire mãos do centro do frame ou instrua “câmera no rosto / produto — mãos fora do enquadramento”.
- Erro 5 — “Usar o plano errado”: assinar o Google AI Pro pensando que tem acesso pleno ao Veo 3 e descobrir que só tem o Veo 3.1 Lite com limite de 3 vídeos/dia. Correção: confira a Tabela 02 deste guia antes de assinar — e lembre que estudantes têm acesso gratuito ao Pro por 15 meses.
Prompt fraco vs prompt forte — veja a diferença na prática
Este é o erro mais comum com qualquer gerador de vídeo por IA: o prompt vago que todo mundo usa — e o prompt específico que entrega resultado real. A diferença não está na ferramenta. Está no que você digita.
Exemplo 01 — Apresentador falando sobre produto
❌ Prompt fraco
Mulher falando sobre skincare.
Resultado: Figura feminina genérica, fundo aleatório, sem áudio ou com trilha não solicitada, rosto com expressão vaga.
✅ Prompt forte
Close-up frontal de mulher de 28 anos, pele clara, cabelo preso, jaleco branco, olhando diretamente para a câmera. Ela sorri levemente e diz com voz calma: "Sua pele merece os melhores ingredientes." Fundo desfocado de banheiro moderno. Iluminação suave de três pontos. Câmera estática.
Resultado: Apresentadora crível com lip-sync preciso, cenário coerente e áudio integrado.
Exemplo 02 — Cena de natureza para B-roll
❌ Prompt fraco
Natureza bonita.
Resultado: Paisagem genérica sem identidade, câmera estática, sem áudio ou com trilha genérica.
✅ Prompt forte
Plano aberto de cachoeira em floresta tropical ao amanhecer. Câmera avança suavemente em dolly em direção à água. Luz dourada filtrando pelas árvores. Sem pessoas. Sons de água correndo e pássaros ao fundo. Sem música ou narração.
Resultado: B-roll cinematográfico com movimento, iluminação específica e áudio ambiente imersivo.
Exemplo 03 — Vídeo de produto para e-commerce
❌ Prompt fraco
Mostrar um tênis.
Resultado: Produto mal iluminado, câmera estática, fundo indefinido, sem movimento ou destaque visual.
✅ Prompt forte
Câmera faz rotação circular lenta de 180° ao redor de tênis esportivo branco sobre superfície espelhada. Iluminação de estúdio com reflexos suaves. Fundo preto. Câmera inicia em close na sola e recua revelando o produto completo. Trilha instrumental suave. Sem pessoas ou texto.
Resultado: Clipe de produto elegante com movimento, iluminação de estúdio e trilha — pronto para loja online.
Exemplo 04 — Hook para Reel de conteúdo
❌ Prompt fraco
Pessoa animada para redes sociais.
Resultado: Figura genérica sem expressão marcante, fundo aleatório, sem fala ou com fala inventada pelo modelo.
✅ Prompt forte
Enquadramento vertical 9:16. Close do rosto de homem jovem, 25 anos, expressão de surpresa genuína, olhando para a câmera. Ele aponta para cima e diz com energia: "Isso mudou tudo que eu sabia sobre finanças." Fundo desfocado colorido. Ring light. Sem música.
Resultado: Hook de Reel com formato correto (9:16), expressão definida, fala específica e lip-sync preciso.
Exemplo 05 — Cena emocional para campanha
❌ Prompt fraco
Cena emocional com música triste.
Resultado: Cenário vago, personagem sem expressão definida, trilha aleatória sem conexão com a cena.
✅ Prompt forte
Close suave do rosto de mulher idosa, olhos úmidos, segurando uma fotografia antiga fora do enquadramento. Câmera recua lentamente revelando que ela está sentada em sala com luz de entardecer entrando pela janela. Sem diálogo. Trilha de violoncelo solo melancólica. Sons ambientes suaves de relógio ao fundo.
Resultado: Cena com carga emocional real, progressão visual clara e trilha coerente com a atmosfera.
💡 A regra que resume tudo: Quanto mais o prompt parecer um roteiro de cinema, mais o Veo 3 responde como um diretor de alto nível. Prompt vago = IA no modo aleatório. Prompt específico = IA no modo cinematográfico.
Ferramentas além do Veo 3: quando usar cada uma
| Ferramenta | Melhor para | Gratuito? | Diferencial real |
|---|---|---|---|
| Veo 3 / Veo 3.1 (Google) | Geração de vídeo com áudio nativo integrado | Não (a partir de R$ 96,99/mês) | Único a gerar vídeo + áudio sincronizado no mesmo passo |
| Google Flow | Sequências de múltiplos clipes e geração em lote | Parcial (1.000 créditos no Pro) | Permite encadear cenas e gerar 4 variações simultâneas |
| Kling AI | Consistência de personagem entre múltiplos clipes | Parcial | Melhor ferramenta atual para manter identidade visual de personagem |
| HeyGen | Avatar digital com seu rosto ou voz clonada | Parcial | Ideal para vídeos de vendas com apresentador consistente e multilíngue |
| CapCut / DaVinci Resolve | Edição final: legendas, cortes, branding sobre o clipe gerado | Sim (versão base) | Necessário para adicionar texto, logos e fazer ajustes de cor no clipe bruto |
Glossário rápido: termos técnicos deste guia
Se algum termo do guia pareceu novo, este glossário resolve em 30 segundos — sem precisar sair da página.
| Termo | O que significa na prática |
|---|---|
| Lip-sync | Sincronização entre o movimento dos lábios do personagem e o áudio gerado — quando está desalinhado, o vídeo parece dublagem mal feita. |
| B-roll | Imagens de apoio usadas para ilustrar o que está sendo dito — sem o apresentador principal em cena. Paisagens, produtos e ambientes são B-roll. |
| Dolly / pan | Movimentos de câmera: dolly avança ou recua; pan gira horizontalmente sem mover o corpo da câmera. Ambos funcionam como instrução no Veo 3. |
| Créditos (Flow) | Unidade de consumo da plataforma Google Flow. Cada vídeo em qualidade alta consome 100 créditos; no modo rápido, 20 créditos. O plano Pro tem 1.000/mês; o Ultra, 12.500. |
| Áudio nativo | Áudio gerado no mesmo processo de criação do vídeo — não adicionado depois. É o principal diferencial do Veo 3 em relação a concorrentes como Sora e Kling. |
| POV | Point of View — câmera em ponto de vista subjetivo, como se o espectador estivesse dentro da cena vendo com os próprios olhos do personagem. |
| CEPMA | Método deste guia: Câmera · Espaço · Personagem · Movimento · Áudio — os 5 elementos que todo prompt de vídeo profissional precisa ter para funcionar. |
FAQ: dúvidas reais sendo respondidas 🔍
O Veo 3 está disponível no Brasil de forma gratuita?
Não — a geração de vídeo não está disponível no plano gratuito do Gemini no Brasil. O acesso exige pelo menos o plano Google AI Pro (R$ 96,99/mês), que libera o Veo 3.1 Lite. Estudantes universitários maiores de 18 anos podem ativar o AI Pro gratuitamente por 15 meses usando e-mail institucional.
Qual a diferença entre o Veo 3.1 Lite e o Veo 3.1 completo?
O Veo 3.1 Lite (disponível no plano Pro) prioriza velocidade e eficiência, com resolução máxima de 720p e acesso limitado diário. O Veo 3.1 completo (disponível no plano Ultra) oferece 1080p e 4K, maior fidelidade de áudio, geração em retrato (9:16), extensão de clipes e 12.500 créditos mensais no Flow contra 1.000 do Pro.
Quanto tempo leva para gerar um vídeo e quantos posso criar por dia?
Cada clipe de 8 segundos leva entre 2 e 5 minutos para ser processado. No plano Pro via Gemini, o limite é de 3 vídeos por dia no modo rápido — após isso, a geração cai automaticamente para o Veo 2. No Google Flow com plano Ultra, o limite é determinado pelos 12.500 créditos mensais (cada vídeo consome 20 ou 100 créditos dependendo da qualidade).
Posso usar os vídeos gerados comercialmente — para anúncios e clientes?
Sim, mas com atenção ao plano. O Google AI Ultra inclui direitos de uso comercial sem marca d’água, o que o torna adequado para entregar material a clientes. O plano Pro tem restrições — revise os Termos de Uso do Google antes de usar clipes do Pro em campanhas pagas ou entregas comerciais.
Essa ferramenta é melhor que o Sora da OpenAI para criadores brasileiros?
Para criadores no Brasil, o Veo 3 tem uma vantagem prática relevante: acesso disponível via Gemini com planos em reais, interface em português e áudio nativo integrado — recurso que o Sora ainda não oferece nativamente. O Sora tem vantagens em cenas de movimento físico complexo, mas o Veo 3.1 é mais acessível financeiramente e mais fácil de usar para quem está começando.
Conclusão: o vídeo profissional nunca foi tão acessível — e o prompt é tudo 🙌
O Veo 3 entregou algo que parecia impossível há dois anos: clipes de até 8 segundos com voz, efeitos sonoros e trilha, gerados em menos de 5 minutos a partir de texto. Para criadores de conteúdo, profissionais de marketing e empreendedores brasileiros, isso significa produção de vídeo sem câmera, sem estúdio e sem equipe.
O ROI é claro: o que antes custava R$ 2.000 a R$ 8.000 em produção de vídeo profissional por clipe pode agora sair por R$ 96,99 ao mês com acesso a geração ilimitada no ritmo do plano. Para quem publica conteúdo regularmente, a economia se paga em poucas semanas.
O próximo passo é simples: escolha um dos 27 prompts deste guia, adapte ao seu produto ou nicho e gere seu primeiro clipe. Não tente otimizar antes de testar — o aprendizado real vem da primeira geração, não da teoria.
A barreira de entrada para vídeo profissional acabou. Quem aprender a escrever prompts de vídeo hoje tem a mesma vantagem competitiva de quem aprendeu a editar vídeo nos anos 2000 — e quem demorar vai ficar para trás.
Qual tipo de vídeo você vai gerar primeiro com o Veo 3?
Escolha um dos 27 prompts deste guia, adapte ao seu nicho e publique — o primeiro clipe muda a perspectiva sobre o que é possível.
Criar meu primeiro vídeo no Gemini →
Sem instalação. Abre direto no navegador com sua Conta Google.
Se você sente que trabalha muito no digital, mas ainda não encontrou um modelo que combine com você. O Diagnóstico Estratégico AF vai te entregar clareza:
- Descubra seu perfil estratégico natural.
- Entenda como usar IA sem depender de trends.
- Crie um negócio alinhado à sua energia e rotina.
Tudo isso com análise personalizada, direção prática e plano simples de execução — validado por IA + curadoria humana.
💡 Se você está cansado de testar fórmulas que não funcionam pra você: Este é o próximo passo.
R$49. Pagamento único. Entrega em até 48h. 💥 Se esse artigo te ajudou, imagina ter uma direção estratégica feita pra você?
Ei, antes de ir: se este conteúdo te ajudou, você não pode perder o que separamos nestas outras categorias. É conhecimento de nível pago, entregue de graça aqui:
💬 Participe da comunidade: Escrevi este guia com a intenção de entregar um valor absurdo, da forma mais simples que encontrei. Se ele te ajudou de alguma forma, a melhor maneira de retribuir é compartilhando sua opinião.
Deixe seu comentário 👀 Faz sentido? Acha que as dicas valem o teste? Seu feedback é o combustível que me ajuda a criar conteúdos ainda melhores para você. E se você já testou algum prompt, compartilhe seus resultados! Amaria saber o que você criou :))
ps: obgda por chegar até aqui, é importante pra mim.