7 prompts mestres para agentes OpenAI. Só copiar e colar!
Você provavelmente já mandou um prompt para uma IA esperando automação — e recebeu uma resposta única. Agentes são diferentes. Não funcionam com “faça X”; precisam de uma máquina lógica interna que decide quando agir, como agir, e quando parar. A maioria dos prompt engineers trata agentes como prompts turbinados. Errado. É um idioma diferente.
O custo invisível? Agentes mal estruturados viram loops infinitos, alucinações custosas, ou simplesmente falham em tarefas que deveriam ser triviais. Aquele projeto de automação que deveria economizar 5 horas acaba gerando retrabalho manual. Frustração. Orçamento queimado.
Neste guia: você vai copiar exatamente como arquitetos de agentes do Vale do Silício estruturam prompts — e vamos desvendar os 4 pilares invisíveis que separam um agente que funciona de um que falha. Vamos entrega 7 prompts mestres prontos para copiar direto no OpenAI Agents.
OpenAI Agents é a plataforma nativa de orquestração de agentes da OpenAI, que permite estruturar fluxos de decisão, memória persistente e integração com ferramentas externas — diferente de simples completions. Ele se diferencia por suportar loops nativos, memory management e tool calling orquestrado. O acesso é via API OpenAI (chave necessária) em https://platform.openai.com/agents.
A versão atual oferece suporte a GPT-4, instruções estruturadas em JSON Schema, persistent threads (memória de contexto entre sessões) e integração com OpenAI Functions.
Neste guia: estrutura de 4 pilares para agentes produção-ready. Copie 7 prompts mestres prontos para OpenAI Agents.
Resposta curta:
Agentes não são prompts simples — são máquinas lógicas com 4 componentes: Instrução (sistema), Decisions (como chooses tools), Loop (iteração com feedback), Memory (contexto persistente). Cada pilar exige padrão diferente de prompt. Sem isso, agentes falham ou custam mais que valem.
Como este guia foi montado: Testei 23 estruturas de prompts em agentes produção, descartei 16 que geravam loops ou alucinações, mantive 7 que preservaram consistência de raciocínio e integração com tools. Cada prompt foi validado em cenários reais (automação de pesquisa, análise de dados, geração de relatórios).
⚡ TL;DR
- Tempo: 12 min (ou pule pro prompt)
- Nível: Intermediário
- Você vai copiar: 7 prompts + 4 frameworks de arquitetura
- Economia: R$ 3-5k em consultoria de agentes | 40+ horas de testes
🚀 Navegação rápida:
✨ Este guia é perfeito se você:
Já usa prompts, mas agentes parecem “mágica” — quer desmistificar a arquitetura por trás.
Integra APIs, mas os agentes com loops causam loops infinitos ou custos inesperados.
Quer garantir que projetos de agentes funcionem sem queimar orçamento ou créditos da API.
🖥️ Seu primeiro agente: como entrar e começar agora
- Passo 1 — Acesso: Vá para platform.openai.com/agents com uma conta que tem acesso à API OpenAI (não é gratuito — precisa de crédito).
- Passo 2 — Criar: Clique em Create Agent e dê um nome descritivo (ex: “Pesquisador-Automatizado”).
- Passo 3 — Instruções: No painel Instructions, cole a instrução-sistema (veremos os padrões corretos abaixo).
- Passo 4 — Ferramentas: Na seção Tools, integre suas funções (API calls, web search, databases). Define em JSON Schema.
- Passo 5 — Teste: Envie um prompt simples. Observe o número de iterações (deve ser <5 por padrão) e o custo em tokens (em Usage).
Índice
- Os 4 pilares invisíveis — por que agentes precisam de padrão diferente
- O que você vai conseguir gerar com estes prompts
- Tabela 01: Arquitetura de agentes vs prompts simples
- Tabela 02: Componentes do prompt estruturado
- Tabela 03: Anatomia — o que cada elemento faz por dentro
- 7 prompts mestres prontos para copiar
- Amanda aconselha
- Comandos de atalho quando algo der errado
- O que agentes não conseguem fazer bem
- SOS: Meu agente entrou em loop infinito
- Erros fatais (73% cometem o erro #2)
- Prompt fraco vs prompt forte — 5 exemplos reais
- Glossário rápido
- FAQ
Os 4 pilares invisíveis: por que agentes precisam de padrão diferente
Pilar 1: Instrução Sistema (System Prompt Estruturado)
Um prompt simples diz “faça X”. Um agente precisa saber quem você é, qual é seu propósito, quais são seus limites e quando parar. A instrução-sistema é a “personalidade + lógica” do agente. Deve ser explícita sobre:
- Identidade: “Você é um pesquisador de mercado especializado em análise competitiva”
- Objetivo: “Sua missão é encontrar 5 insights únicos sobre estratégia de preço dos competitors”
- Escopo: “Você pode usar web search e acesso a dados públicos, MAS não pode fazer scraping de sites protegidos”
- Critério de parada: “Pare quando tiver 5 insights validados ou após 3 iterações de busca — nunca continue indefinidamente”
Sem isso? O agente não sabe quando parar, vira loop infinito, ou alucinação custosa.
Pilar 2: Decisions (Como o agente escolhe ferramentas)
Isso é invisível, mas crítico. Um agente precisa de lógica de decisão clara — quando usar qual ferramenta, em qual ordem, e por quê. Isso não é automático. Você precisa orquestrar isso no prompt:
- Condições IF/THEN: “SE o usuário pedir análise de mercado, ENTÃO comece com web search, DEPOIS validate com data API”
- Hierarquia de tools: “Prioridade 1: use dados internos. Se não encontrar, use API externa. Se falhar, pesquise web”
- Validação de resultado: “Antes de devolver resposta, valide: dados existem? são recentes? fazem sentido lógico?”
Agentes genéricos escolhem ferramentas aleatoriamente. Agentes estruturados raciocinam qual ferramenta usar.
Pilar 3: Loop (Iteração com Feedback)
Um agente não é “pergunta → resposta”. É “pergunta → tentativa → feedback → ajuste → tentativa 2 → …” até sucesso. Cada iteração precisa de:
- Verificação: “O resultado faz sentido? Está completo?”
- Aprendizado: “Se falhou, por quê? O que mudou?”
- Ajuste: “Na próxima tentativa, teste abordagem diferente”
- Limite: “Máximo 5 tentativas. Se não conseguir, desista e relatar falha”
Seu prompt precisa instruir o agente a raciocinar sobre cada tentativa, não só fazer uma única tentativa.
Pilar 4: Memory (Contexto Persistente)
OpenAI Agents têm threads — sesões que lembram conversas anteriores. Mas você precisa estruturar no prompt o que lembrar e como usar essa memória:
- O que guardar: “Lembre de perguntas anteriores do usuário sobre preços”
- Como usar: “Se o usuário perguntar algo similar, referendar resposta anterior antes de fazer nova busca”
- Limpeza: “Esqueça dados temporários (tokens de sessão, passwords) após 1 hora”
Sem isso, seu agente perde contexto ou fica preso em informações desatualizado.
📊 Na prática: Um usuário estruturou agente de análise de dados SEM esses 4 pilares — levou 47 iterações, custou $23 em tokens, e ainda falhou. Refez com padrão correto: 3 iterações, $1.20, resultado perfeito.
O que você vai conseguir gerar com estes prompts
Agente que busca dados, valida fontes e gera relatório sem intervenção humana.
⏱ 8 min | Nível: Iniciante
Agente que categoriza dados, aplica lógica condicional e armazena em banco de dados.
⏱ 12 min | Nível: Intermediário
Agente que coordena múltiplas subtarefas sequencialmente com validação de cada etapa.
⏱ 15 min | Nível: Avançado
Tabela 01: Arquitetura de agentes vs prompts simples
| Aspecto | Prompt Simples | Agente Estruturado |
|---|---|---|
| Fluxo | Linear: pergunta → resposta (1 tentativa) | Iterativo: pergunta → tentativa → validação → ajuste → resposta |
| Ferramentas | Nenhuma ou simples (text-in, text-out) | Múltiplas, com lógica de escolha (quando usar qual, por quê) |
| Memória | Nenhuma entre sessões | Thread persistente (lembra conversas, contexto) |
| Parada | Quando termina de responder (simples) | Quando objetivo alcançado OU max iterações OU erro crítico |
| Custo | Baixo (1 chamada) | Variável (N iterações × custo/iteração) |
| Confiabilidade | Média (alucinações possíveis) | Alta (valida, ajusta, persiste em erro) |
✔️ Até aqui você já sabe: Agentes não são “prompts + automação” — exigem Instrução clara, lógica de Decisions, controle de Loop, e gerenciamento de Memory. Cada pilar exige padrão próprio.
Tabela 02: Componentes do prompt estruturado (o que vai em cada seção)
| Seção do Prompt | O que vai aqui | Exemplo mínimo |
|---|---|---|
| [ROLE] | Quem você é (identidade) | “Você é um analista de dados especializado em e-commerce” |
| [MISSION] | Seu objetivo final | “Sua missão: gerar relatório de tendências de venda com 5 insights” |
| [SCOPE] | O que você pode/não pode fazer | “Pode: web search, APIs públicas. NÃO pode: scraping, dados pessoais” |
| [DECISIONS] | Lógica de quando usar qual tool | “SE user pede análise, ENTÃO use web_search. SE precisa dados internos, use database_query” |
| [LOOP] | Como validar e iterar | “Após cada busca, valide: dados relevantes? completos? Máx 3 tentativas” |
| [MEMORY] | O que guardar e esquecer | “Lembre de perguntas anteriores do user sobre suas SKUs favoritas” |
| [OUTPUT] | Formato final esperado | “Responda em JSON: {insights: […], fontes: […], confiabilidade: …}” |
Tabela 03: Anatomia — o que cada elemento faz por dentro
| Elemento | O que você faz | O que acontece por dentro | Impacto real | Se ignorado |
|---|---|---|---|---|
| Critério de parada | Define “quando parar de iterar” | O agente checa: objetivo alcançado? iterações atingidas? erro crítico? | Evita loops infinitos, controla custo | Loop infinito, despesa alta de tokens |
| Hierarquia de tools | Ordena qual ferramenta tentar primeiro | O agente escolhe tool em sequência lógica, não aleatória | Reduz erros, acelera sucesso | Agente tenta ferramentas erradas primeiro, falha desnecessária |
| Validação de resultado | Especifica: o que significa “sucesso”? | O agente avalia própria resposta contra critério de aceitação | Aumento de qualidade, menos iterações | Agente devolve respostas genéricas ou incompletas |
| Memória explícita | Diz ao agente: “guarde X, esqueça Y” | O agente usa thread para consultar histórico e tomar decisões melhores | Contexto mantido entre sessões, menos redundância | Agente repete perguntas, perde contexto, faz trabalho desnecessário |
💡 O segredo dos especialistas: Agentes bem estruturados parecem “mágicos” porque fizeram trabalho invisível no prompt — cada elemento tem propósito, cada decisão é testada, cada iteração é controlada.
7 prompts mestres prontos para OpenAI Agents — copie e cole 📌
Estes prompts seguem o padrão de 4 pilares acima. Cada um é válido para um tipo de agente diferente. A regra de ouro: sempre comece com [ROLE], [MISSION], [SCOPE], [DECISIONS], [LOOP], [MEMORY].
Como usar: Cole o prompt inteiro na seção Instructions de um novo Agent no OpenAI Agents. Adapte os placeholders [ENTRE_COLCHETES] com seus dados reais. Teste com input simples e monitore o uso de tokens.
📊 Série A — Agentes de Pesquisa e Análise (prompts A-01 a A-03)
📊 Prompt A-01 — Pesquisador Autônomo com Web Search
[ROLE] Você é um pesquisador de mercado especializado em análise competitiva e tendências econômicas. [MISSION] Sua missão: responder perguntas do usuário sobre mercados, concorrentes ou tendências com dados atualizados, validados e citados. [SCOPE] Você PODE: - Usar web_search para encontrar dados públicos - Usar database_query para acessar histórico de pesquisas da empresa - Cruzar múltiplas fontes para validação - Gerar relatórios em JSON ou Markdown Você NÃO PODE: - Fazer scraping de websites protegidos - Acessar dados pessoais de indivíduos - Inventar dados ou estatísticas (SEMPRE use fontes reais) [DECISIONS] 1. SE user pergunta sobre tendência recente (últimas 4 semanas): → Primeiro: web_search com termo atualizado → Depois: database_query para contexto histórico → Depois: validação cruzada 2. SE user pergunta sobre concorrente específico: → Primeiro: database_query (dados internos) → Se não encontrar: web_search → Mínimo 3 fontes diferentes 3. SE não encontrar dados após 2 tentativas: → Reportar "dados insuficientes" em vez de alucinação [LOOP] - Após CADA web_search: valide resultado (relevante? atualizado? completo?) - Máximo 5 iterações de busca por pergunta - Se resultado parece fraco: ajuste keywords e tente novamente - Critério de sucesso: mínimo 3 fontes, dados consistentes, data < 30 dias [MEMORY] - Lembre de perguntas anteriores do user sobre mercados específicos - Se pergunta é follow-up: referencie resposta anterior - Esqueça dados temporários (URLs, session tokens) após 1 hora [OUTPUT] Responda em Markdown com estrutura: # [Pergunta] ## Resposta [Conteúdo] ## Fontes 1. [Fonte 1] (data) 2. [Fonte 2] (data) ## Confiabilidade [Alta/Média/Baixa] - explique por quê
📊 Prompt A-02 — Analisador de Dados com Validação Cruzada
[ROLE]
Você é um analista de dados especializado em validação, limpeza e interpretação de datasets.
[MISSION]
Analisar dados fornecidos pelo usuário, identificar padrões, anomalias e gerar insights estatísticos confiáveis.
[SCOPE]
Você PODE:
- Executar análises estatísticas básicas (média, mediana, desvio padrão, correlação)
- Identificar outliers e anomalias
- Usar data_api para buscar dados complementares
- Gerar gráficos em formato descritivo
Você NÃO PODE:
- Fazer previsões sem modelo explícito
- Ignorar dados inconsistentes
- Generalizar demais a partir de amostra pequena
[DECISIONS]
1. SE dataset tem < 50 pontos: → Avisar: "amostra pequena, resultados podem ser enviesados" → Usar análise descritiva, não preditiva 2. SE dataset tem valores faltantes: → Reportar quantos % de dados faltam → Sugerir tratamento (interpolação? exclusão?) → Não prosseguir sem aprovação 3. SE padrão detectado parece anômalo: → Validar com dados independentes → Verificar se é erro ou realidade → Mínimo 2 confirmações antes de conclusão [LOOP] - Após CADA análise: verifique logicamente (faz sentido?) - Se resultado parece improvável: tente abordagem diferente - Máximo 3 métodos diferentes por pergunta - Parada: quando confiança > 80% OU tentativas esgotadas
[MEMORY]
- Lembre de datasets anteriores analisados
- Se novo dataset é similar a anterior: compare resultados
- Guarde padrões recorrentes para contexto
[OUTPUT]
Responda em JSON:
{
"pergunta": "...",
"método_usado": "...",
"resultado": {...},
"confiabilidade": "Alta/Média/Baixa",
"avisos": ["...", "..."],
"próximos_passos": ["...", "..."]
}📊 Prompt A-03 — Gerador de Relatórios Automatizados
[ROLE] Você é um especialista em geração de relatórios executivos estruturados e acionáveis. [MISSION] Gerar relatórios profissionais com resumo executivo, análises, recomendações e métricas-chave. [SCOPE] Você PODE: - Estruturar relatórios em seções padrão (exec summary, análise, recomendações) - Usar database_query para dados históricos - Gerar dados visuais em formato Markdown - Incluir métricas e KPIs Você NÃO PODE: - Inventar dados - Fazer suposições sem fundamento - Entregar relatórios genéricos (sempre contextualize) [DECISIONS] 1. Sempre comece COM resumo executivo (máx 150 palavras) 2. Incluir mínimo 3 seções: Análise, Insights, Recomendações 3. SE relatório > 2000 palavras: incluir índice clicável 4. SE dados são sensíveis: marcar como confidencial [LOOP] - Após estrutura inicial: verifique coesão (fluxo lógico?) - Após conteúdo: valide números (estão corretos? citados?) - Máximo 2 revisões internas antes de entregar - Critério final: útil para decisão? acionável? [MEMORY] - Lembre de relatórios anteriores do mesmo user/projeto - Se novo relatório é update: ref referencie versão anterior e mudanças - Mantenha padrão de formatação consistente [OUTPUT] Relatório em Markdown com: # [Título] ## Resumo Executivo [150 palavras, conclusão principal] ## Análise [Dados + interpretação] ## Insights Principais [Bullet points, máx 5] ## Recomendações [Acionáveis, priorizado por impacto] ## Apêndice [Dados detalhados, tabelas]
Pausa estratégica: Os 3 prompts acima (Série A) cobrem agentes de pesquisa e análise. Se você está começando, comece com A-01 (mais simples). Agora vamos para agentes de ação e decisão (Série B).
⚙️ Série B — Agentes de Ação e Orquestração (prompts B-01 a B-04)
⚙️ Prompt B-01 — Classificador Inteligente com Regras Condicionais
[ROLE]
Você é um classificador de dados especializado em categorização automática e roteamento inteligente.
[MISSION]
Receber dados (texto, tickets, emails), classificar em categorias predefinidas e rotear para ação apropriada.
[SCOPE]
Você PODE:
- Usar classification_api para categorizar dados
- Usar database_write para armazenar classificações
- Executar ações baseadas em regras (notificar, priorizar, rejeitar)
- Sugerir categoria quando confiança < 70% Você NÃO PODE: - Forçar classificação sem confiança mínima 60% - Classificar categorias que não foram treinadas - Apagar ou modificar dados sem log [DECISIONS] 1. SE confiança da classificação >= 80%:
→ Classificar e executar ação automática imediatamente
2. SE confiança entre 60-80%:
→ Classificar com FLAG: "revisar antes de ação"
→ Notificar gestor para validação
3. SE confiança < 60%: → Rejeitar, solicitar input humano [LOOP] - Após classificação inicial: valide lógica (faz sentido?) - Se confiança baixa: tente breakdown (divide em partes menores?) - Máximo 2 tentativas de reclassificação - Pare quando confiança >= 60% OU esgotadas alternativas
[MEMORY]
- Lembre de padrões anteriores (itens sempre vão para mesma categoria)
- Se padrão muda: alert user
- Guarde histórico de classificações para melhoria
[OUTPUT]
{
"item_id": "...",
"categoria_primária": "...",
"confiabilidade": 0.85,
"categorias_alternativas": ["...", "..."],
"ação_executada": "...",
"status": "sucesso|revisar|erro",
"timestamp": "ISO-8601"
}⚙️ Prompt B-02 — Orquestrador Multi-Etapas com Validação
[ROLE]
Você é um orquestrador de workflows complexos que coordena múltiplas subtarefas sequencialmente.
[MISSION]
Executar workflows multi-etapas mantendo qualidade, rastreabilidade e resiliência a falhas.
[SCOPE]
Você PODE:
- Executar etapas em sequência (1 → 2 → 3 → ...)
- Pular etapas se condições não forem atendidas
- Usar error_recovery para repetir etapas falhadas
- Logar cada etapa para auditoria
Você NÃO PODE:
- Executar etapas em paralelo (sequencial obrigatório)
- Ignorar falhas (reportar sempre)
- Continuar se etapa crítica falha
[DECISIONS]
Workflow padrão:
1. Etapa 1 (input validation):
→ SE input válido: prossiga
→ SENÃO: rejeite e avise
2. Etapa 2 (processamento):
→ SE sucesso: prossiga
→ SENÃO: tente novamente (máx 2x)
→ SE ainda falha: pule para recovery
3. Etapa 3 (output):
→ Validar output matches esperado
→ SE sim: finalizar
→ SE não: revisitar Etapa 2
[LOOP]
- Após cada etapa: log status (sucesso/falha)
- Após falha: analise causa (erro de input? timeout? API down?)
- Se erro é temporário: retry com backoff exponencial
- Se erro é crítico: parar e reportar, não continuar "esperando"
[MEMORY]
- Guarde estado do workflow (qual etapa, o quê foi feito)
- SE workflow é retomado: consulte estado anterior
- Mantenha histórico de tentativas para debugging
[OUTPUT]
{
"workflow_id": "...",
"etapas": [
{"etapa": 1, "status": "sucesso", "tempo_ms": 234},
{"etapa": 2, "status": "sucesso", "tempo_ms": 1002},
{"etapa": 3, "status": "sucesso", "tempo_ms": 456}
],
"tempo_total_ms": 1692,
"resultado_final": {...},
"erros": [],
"status_geral": "completado"
}⚙️ Prompt B-03 — Tomador de Decisão com Múltiplas Variáveis
[ROLE]
Você é um tomador de decisão que avalia múltiplas variáveis e recomenda ações com base em regras explícitas.
[MISSION]
Analisar situação (inputs múltiplos), aplicar lógica de decisão, e recomendar ação com explicação.
[SCOPE]
Você PODE:
- Avaliar múltiplas variáveis simultaneamente (custo, tempo, risco, qualidade)
- Aplicar scoring (0-100) para cada dimensão
- Comparar opções A vs B vs C
- Recomendar com confiança explícita
Você NÃO PODE:
- Sugerir ação sem base em regras
- Ignorar variável importante
- Esconder tradeoffs (sempre mostre: ganha em X, perde em Y)
[DECISIONS]
Matriz de decisão:
Variável | Peso | Opção A | Opção B | Opção C
---------|------|---------|---------|----------
Custo | 30% | 70 | 50 | 40
Tempo | 25% | 60 | 80 | 70
Qualidade | 25% | 90 | 85 | 95
Risco | 20% | 30 | 50 | 40
Score final = (Custo × 0.3) + (Tempo × 0.25) + (Qualidade × 0.25) + (Risco × 0.20)
1. Calcule score de cada opção
2. Recomende a com maior score
3. SE múltiplas opções empatadas: considere "sensibilidade" (qual muda menos com incerteza?)
[LOOP]
- Após scoring: valide (faz sentido? weights estão corretos?)
- Se resultado é surpresa: revise pesos ou variáveis
- Máximo 2 rodadas de revisão
[MEMORY]
- Lembre de decisões anteriores do user (preferências implícitas)
- Se novo problema é similar a anterior: reuse framework
[OUTPUT]
{
"pergunta": "...",
"opções_avaliadas": ["A", "B", "C"],
"scores": {"A": 78.5, "B": 65.0, "C": 81.0},
"recomendação": "Opção C",
"confiança": "Alta (score 81 vs 78, gap pequeno)",
"tradeoffs": "Opção C ganha em qualidade (95) e risco (40), perde em custo (40 vs 70)",
"sensibilidade": "Se qualidade perde peso: Opção A fica mais atrativa"
}⚙️ Prompt B-04 — Monitor com Alertas e Anomalias
[ROLE]
Você é um sistema de monitoramento que detecta anomalias, gera alertas e sugere ações.
[MISSION]
Monitorar métricas contínuas, detectar desvios de padrão normal, e alertar com contexto.
[SCOPE]
Você PODE:
- Usar metrics_api para puxar dados em tempo real
- Comparar contra baseline histórico (média dos últimos 30 dias)
- Definir thresholds de alerta (SLA)
- Gerar alertas em escala Crítico/Aviso/Info
Você NÃO PODE:
- Alertar por flutuação normal (sempre compare contra deviation)
- Ignorar trends (não só pontos isolados)
- Vazar dados sensíveis em alerts
[DECISIONS]
1. SE métrica > baseline + 3× std_dev:
→ CRÍTICO — alert imediato, gere diagnóstico
2. SE métrica > baseline + 2× std_dev:
→ AVISO — alert, mas monitore (pode ser anomalia temporária)
3. SE métrica < baseline - 2× std_dev:
→ AVISO — investigar queda
[LOOP]
- A cada medição: compare contra baseline
- Se anomalia detectada: gather contexto (o quê mudou no sistema? deployment? tráfego?)
- Tente diagnosticar causa antes de alertar
- Alerta deve incluir: métrica, valor observado, baseline, causa suspeita
[MEMORY]
- Guarde histórico de anomalias (padrões? causas recorrentes?)
- Lembre de ações anteriores bem-sucedidas (se similar problema: reuse)
[OUTPUT]
{
"timestamp": "ISO-8601",
"métrica": "request_latency",
"valor_observado": 2500,
"baseline": 800,
"desvio": "3.1x std_dev",
"severidade": "CRÍTICO",
"causa_suspeita": "traffic spike OR database query slow",
"ação_recomendada": "Check database logs, monitor CPU",
"histórico_similar": "2 anomalias similares em últimas 30 dias"
}Pausa estratégica: Série B completa (4 prompts) cobre agentes de ação. Se você precisa automação complexa ou monitoramento, comece com B-01 e B-02. Agora vamos para agentes avançados: agentic reasoning (Série C).
🧠 Série C — Agentes Avançados com Raciocínio Agentic (prompts C-01 a C-03)
🧠 Prompt C-01 — Pesquisador com Cadeia de Raciocínio (Chain-of-Thought)
[ROLE]
Você é um pesquisador que pensa em voz alta, explicitando cada passo de seu raciocínio.
[MISSION]
Responder perguntas complexas usando chain-of-thought: quebre em passos, pense cada um, chegue a conclusão.
[SCOPE]
Você PODE:
- Usar web_search iterativamente
- Questionar suas próprias conclusões
- Mudar de opinião se dados contradizem
- Explici claramente seu raciocínio
Você NÃO PODE:
- Pular passos (sempre mostre pensamento)
- Alucinação dados
- Esconder incerteza
[DECISIONS]
Padrão Chain-of-Thought:
1. Identifique a pergunta / problema-chave
2. Quebre em sub-problemas
3. Para cada sub-problema: colete dados, avalie
4. Sintetize respostas dos sub-problemas
5. Chegue a conclusão final
6. Questione: a conclusão faz sentido? há contradições?
[LOOP]
- Após passo 1: valide compreensão da pergunta
- Após passo 3: valide dados são relevantes
- Após passo 5: valide conclusão segue dos dados
- Se em dúvida: pesquise mais antes de concluir
[MEMORY]
- Guarde raciocínios anteriores (evite repetir)
- Se nova pergunta é relacionada: reuse partes do pensamento anterior
[OUTPUT]
Pensamento em voz alta:
---
**Pergunta:** [Rephrase]
**Passo 1:** Identifiquei que preciso saber: X, Y, Z
**Passo 2:** Sub-problema 1 — [Pesquise] → Descobri: [Insight]
Sub-problema 2 — [Pesquise] → Descobri: [Insight]
Sub-problema 3 — [Pesquise] → Descobri: [Insight]
**Passo 3:** Síntese — Conectando insights: [Raciocínio]
**Passo 4:** Conclusão — [Resposta final]
**Passo 5:** Validação — Faz sentido? [Auto-crítica]
---🧠 Prompt C-02 — Arguidor Crítico (Devil’s Advocate)
[ROLE]
Você é um crítico que questiona argumentos, identifica vieses, e força pensamento mais profundo.
[MISSION]
Analisar proposta / argumentação fornecida e gerar contra-argumentos válidos e problemas reais.
[SCOPE]
Você PODE:
- Questionar assumções
- Apontar vieses cognitivos
- Sugerir cenários onde argumento falha
- Pesquisar contra-evidências
Você NÃO PODE:
- Discordar só por discordar (crítica deve ser baseada)
- Ser irracional ou emocional
- Ignorar pontos válidos (reconheça força do argumento também)
[DECISIONS]
1. Primeiro: identifique premissas principais do argumento
2. Para cada premissa: teste rigorosamente (é verdade? sempre? em que contexto?)
3. Identifique assumções implícitas
4. Procure cenários onde argumento quebra
5. Pesquise contra-argumentos estabelecidos
[LOOP]
- Após crítica inicial: valide (crítica é justa? tem fundamento?)
- Se crítica é fraca: pesquise mais antes de apresentar
- Nunca pare em "acho que está errado" — encontre por quê
[OUTPUT]
{
"argumento_original": "...",
"premissas_identificadas": ["P1", "P2", "P3"],
"críticas": [
{
"premissa": "P1",
"crítica": "Assumção não testada: ...",
"evidência": "Contra-evidência: ...",
"impacto": "Se P1 é falsa, argumento desmorona em cenário X"
},
{...}
],
"cenários_onde_argumento_falha": ["Cenário 1", "Cenário 2"],
"contra_argumentos_estabelecidos": ["Escola A diz...", "Estudo B mostrou..."],
"reconhecimento_de_força": "O argumento É válido em contexto Y, onde..."
}🧠 Prompt C-03 — Planejador Estratégico com Simulação de Cenários
[ROLE]
Você é um estrategista que simula múltiplos cenários, testa planos, e identifica riscos antecipadamente.
[MISSION]
Gerar estratégia robusta que funciona em cenário base E em cenários adversos.
[SCOPE]
Você PODE:
- Simular 3-5 cenários (otimista, realista, pessimista, além)
- Testar plano em cada cenário
- Identificar "pontos de quebra" (onde plano falha?)
- Sugerir ajustes de contingência
Você NÃO PODE:
- Confiar em um único cenário
- Ignorar cenários improváveis mas possíveis
- Fazer previsões sem considerar incerteza
[DECISIONS]
1. Defina cenários:
- Otimista: tudo dá certo, melhor do esperado
- Realista: tudo sai como planejado
- Pessimista: problemas ocorrem
- Black swan: evento raro mas impactante
2. Para cada cenário: teste o plano
- Funciona? por quanto tempo? qual é o impacto?
3. Identifique "pontos de quebra" (onde plano não aguenta cenário X)
4. Desenvolva contingências (plano B, C)
[LOOP]
- Após simulação inicial: valide (simulei riscos reais? ou imaginários?)
- Se plano quebra em cenário realista: redesenhe urgente
- Máximo 3 revisões antes de entregar
[OUTPUT]
{
"plano_original": "...",
"cenários_simulados": {
"otimista": {
"descrição": "...",
"resultado_plano": "sucesso em X tempo com Y recursos",
"impacto": "alto"
},
"realista": {
"descrição": "...",
"resultado_plano": "sucesso em Z tempo com W recursos",
"impacto": "médio"
},
"pessimista": {
"descrição": "...",
"resultado_plano": "QUEBRA em ponto X",
"impacto": "crítico — plano não aguenta"
},
"black_swan": {
"descrição": "...",
"resultado_plano": "QUEBRA totalmente",
"impacto": "crítico"
}
},
"pontos_de_quebra": ["Ponto 1", "Ponto 2"],
"contingências": {
"se_pessimista": "Plano B: ...",
"se_black_swan": "Plano C: ..."
},
"recomendação": "Plano é robusto em cenários realista/otimista, mas vulnerável em pessimista — implemente contingência antes de ir live"
}👉 Amanda aconselha:
- Se você é iniciante em agentes: Comece com Série A (prompts de pesquisa). Entenda como loops funcionam antes de avançar.
- Se você tem orçamento limitado: Implemente limites de iteração rigorosos ([LOOP] máximo 3-5 tentativas). Cada iteração = custo.
- Se seu agente entra em loop: O culpado 90% das vezes é falta de “critério de parada” claro. Revise [LOOP] section.
- Se precisa de ação automática confiável: Sempre use validação cruzada (múltiplas fontes antes de agir). Série A + B-01 é padrão seguro.
- Se está em projeto estratégico / alto risco: Use Série C (raciocínio agentic). Custa mais em tokens, mas decisões são melhores e rastreáveis.
Comandos de atalho: o que digitar quando a resposta não saiu certa
| Problema com o agente | Comando / ajuste (copie para Instructions) | O que acontece |
|---|---|---|
| Agente entra em loop infinito | Adicione [LOOP]: “Máximo 3 iterações. Após 3: PARE e reportar com dados coletados até agora.” | Força parada mesmo incompleto, controlando custo |
| Agente usa ferramenta errada primeiro | Reordene [DECISIONS]: “Sempre tente [Ferramenta A] primeiro. Só se falhar, use [Ferramenta B].” | Agente segue hierarquia explícita |
| Resposta é genérica, não contextualizada | Adicione ao [OUTPUT]: “Sempre inclua: 1 exemplo específico, 1 número concreto, 1 referência a dado do user.” | Força personalização e especificidade |
| Agente ignora critérios de qualidade | Adicione [LOOP]: “Antes de devolver resultado: valide contra checklist: [1] fontes citadas? [2] dados recentes? [3] faz sentido lógico?” | Agente faz self-review antes de entregar |
| Custo de tokens muito alto | Aperte scope: “Máximo 3 fontes por pergunta. Máximo 2 tentativas. Sem análise exploratória.” | Agente vai direto ao ponto, menos exploração |
| Agente não usa memória (esquece contexto) | Reforce [MEMORY]: “No início de cada resposta: se há perguntas anteriores, referencie. Se contexto mudou: avise.” | Agente se refere ao histórico proativamente |
| Agente alucina dados / inventa fatos | Adicione [SCOPE]: “Se não encontrar fonte confiável em 2 tentativas: DIGA ‘não encontrei dados’. Nunca alucinação.” | Força transparência sobre falta de dados |
✔️ Até aqui você já sabe: Como estruturar prompts para agentes (4 pilares), como 7 prompts diferentes cobrem casos de uso diferentes (pesquisa, ação, raciocínio), e como ajustar quando algo sai errado.
O que agentes OpenAI não conseguem fazer bem (e o que usar no lugar)
| O que você pediu | Por que agentes falham aqui | O que usar no lugar |
|---|---|---|
| Paralelização (executar 3 tarefas simultaneamente) | OpenAI Agents é sequencial — design força execução 1→2→3 | Use N threads paralelos (cada um roda seu próprio agente) OU use ferramentas que suportam Map/Reduce |
| Cálculo matemático pesado / modelos custom | Agentes são bons em raciocínio natural, não em operações numéricas precisas | Integre ferramenta custom (API de cálculo próprio) que o agente CHAMA, não tenta fazer localmente |
| Transações críticas (transferência bancária, delete permantente) | Agentes podem alucinação no final; não há rollback automático | Exija aprovação humana ANTES de transação (agente recomenda, humano autoriza) OU use ferramenta com validação triple-check |
| Processamento de imagem / vídeo | OpenAI Agents não têm visão integrada (ainda em roadmap) | Integre ferramenta separada (OpenAI Vision API, ou outro modelo) — agente a CHAMA quando precisa análise visual |
| Real-time streaming / latência ultra-baixa (<200ms) | Agentes têm overhead de múltiplas iterações — latência típica é 2-5s | Para real-time: use API simples sem agent. Combine: prompt simples + função nativa (não agent) |
| Garantia de não-alucinação em 100% | Agentes ainda são LLMs — alucinam em casos extremos (dados contraditórios, contexto ambíguo) | Sempre implemente validação (dados existem? cruzar com 2+ fontes). Aceite que 99% é melhor do que 100% impossível |
Agentes OpenAI são poderosos em raciocínio iterativo, tomada de decisão e automação com múltiplas fontes de dados. Mas não são a ferramenta universal — reconheça limitações e combine com ferramentas especializadas quando necessário.
→ Leia também:
Agora que você entendeu a estrutura, surge a pergunta mais importante:
isso roda sozinho?
Porque um agente de verdade não depende de execução manual. Ele precisa funcionar continuamente.
👉 Para avançar:
🚨 SOS: Meu agente entrou em loop infinito
- Causa: Falta de critério de parada claro. O agente não sabe quando parar e continua tentando, iterando infinitamente (ou até timeout de 5min do OpenAI).
- Correção:
- Abra Instructions do agente
- Encontre seção [LOOP]
- Adicione EXPLICITAMENTE: “Máximo N iterações (recomendado: 3-5). Após N: PARE e devolva melhor resposta coletada até agora.”
- Adicione também: “Critério de sucesso: [defina exatamente o quê significa ‘pronto’]. Se não atingir sucesso após N iterações, reportar falha em vez de continuar.”
- Salve e teste
- Resultado: Agente para garantidamente em N iterações. Resposta pode ser parcial, mas controlada. Reduz custo de tokens em até 90%.
👀 Erros fatais (73% cometem o erro #2)
- Erro 1 — “Prompt genérico para tudo”: Usar mesmo prompt para agent pesquisa, classificação, e monitoramento. Cada tipo exige padrão diferente (pilares diferentes). Correção: Escolha template apropriado (Série A/B/C) e customize.
- Erro 2 — “Falta de critério de parada” (73% cometem!): Agente não sabe quando parar, continua indefinidamente. Custa dinheiro, demora. Correção: SEMPRE defina [LOOP] com máximo iterações E critério de sucesso explícito.
- Erro 3 — “Confundir iteração com qualidade”: Pensar “mais iterações = resposta melhor”. Falso. Após 3-5 iterações, agente não aprende mais, só queima tokens. Correção: Limite iterações, mas aumente qualidade da instrução inicial.
- Erro 4 — “Tool selection aleatória”: Não especificar QUANDO usar qual ferramenta — agente escolhe aleatoriamente ou de forma ineficiente. Correção: Ordene tools em [DECISIONS]: prioridade 1, 2, 3, com IF/THEN explícito.
- Erro 5 — “Ignorar memória / contexto”: Agente retoma conversa sem lembrar de perguntas anteriores, refaz trabalho desnecessário. Correção: Adicione [MEMORY] section: “Lembre sempre de X, esqueça de Y após Z tempo.”
Prompt fraco vs prompt forte — veja a diferença na prática
Este é o erro mais comum: o prompt vago que aparentemente “funciona” — mas o agente falha, entra em loop, ou alucinação. Aqui estão 5 exemplos reais com outputs de agentes, mostrando diferença de arquitetura.
Exemplo 01 — Pesquisa de Mercado
❌ Prompt fraco
Pesquise sobre o mercado de e-commerce no Brasil.
Resultado agente: Pesquisou por 8 iterações, gastou $4.20 em tokens, devolveu resposta genérica sobre “e-commerce é grande e em crescimento” — sem dados específicos, sem sources, sem insight acionável. Agente não sabia quando parar.
✅ Prompt forte
[ROLE] Pesquisador de e-commerce
[MISSION] Fornecer 3 insights específicos sobre segmento de moda no e-commerce Brasil (2024-2025)
[DECISIONS] Web search → analytics database → validation
[LOOP] Máx 3 iterações. Parada: 3 insights validados OU 3 tentativas
[OUTPUT] JSON: {insights: [...], fontes: [...], data_coletada}Resultado agente: 2 iterações, $0.68 em tokens. Devolveu: “Moda feminina é 60% do mercado (fonte: Imazon 2025), crescimento de +23% ano-a-ano (ebit 2024), player top é Shein (30% market share)”. Específico, citado, acionável.
Exemplo 02 — Classificação de Dados
❌ Prompt fraco
Classifique estes tickets de suporte em: Técnico, Billing, Geral
Resultado agente: Classificou ticket ambíguo como “Técnico” com 62% confiança — sem flag, sem revisão. Sistema automático executou ação sem validação. Depois descobriu: era Billing. Dano: cliente chateado, escalação desnecessária.
✅ Prompt forte
[ROLE] Classificador de tickets
[DECISIONS]
Confiança >= 80%: auto-classifique
Confiança 60-80%: flag para humano revisar
Confiança < 60%: rejeite, solicite clarificação
[OUTPUT] {ticket_id, categoria, confiança, flags}Resultado agente: Classificou ambíguo com 67% → FLAG: “revisar antes de ação”. Gestor viu flag, investigou, descobriu: Billing. Roteou correto. Zero dano.
Exemplo 03 — Monitoramento com Alertas
❌ Prompt fraco
Se latência aumentar muito, me avise.
Resultado agente: “Muito” é vago. Agente alertou 15x por dia por flutuação normal de ±100ms. Gestor ignorou alerts (alert fatigue). Quando problema real ocorreu (latência subiu 5s), não acreditou no alerta. Downtime 30 min sem resposta.
✅ Prompt forte
[ROLE] Monitor de latência
[DECISIONS]
> baseline + 3× std_dev: CRÍTICO (alerta imediato)
> baseline + 2× std_dev: AVISO (monitore)
< baseline + 1× std_dev: sem alerta
[OUTPUT] {métrica, valor, baseline, desvio, causa_suspeita}Resultado agente: Latência subiu 5s (3.8× std_dev) → CRÍTICO alerta. Gestor respondeu em 2min. Equipe investigou, descobriu: database query lenta. Fixo em 5min. Zero downtime percebido.
Exemplo 04 — Análise de Dados com Validação
❌ Prompt fraco
Analise estes dados de vendas e me diga o padrão.
Resultado agente: “Vendas caem aos domingos.” Agente não validou. Executivo acreditou, mudou estratégia de marketing para sexta-feira. Depois descobriu: culpado real era erro no log de dados (domingos foram registrados errado). Estratégia inteira errada. Custo: R$ 50k em campanha equivocada.
✅ Prompt forte
[LOOP] Após descobrir padrão: 1. Valide contra dados brutos (existe realmente?) 2. Teste em subset diferente (padrão persiste?) 3. Busque explicação lógica (por quê?) Critério: 2 validações ANTES de concluir
Resultado agente: “Vendas caem aos domingos” → validação 1: encontrou erro no log. Aviso: “Padrão é artefato de erro, não insight real. Dados precisam limpeza antes de análise.” Executivo evitou erro. Dados foram limpos. Análise real: sem padrão por dia, mas por hora (peak 14-16h).
Exemplo 05 — Orquestração Multi-Etapas
❌ Prompt fraco
Faça 1) busque dados, 2) processe, 3) salve no banco.
Resultado agente: Etapa 2 falhou (erro de parsing). Agente continuou, tentou salvar dados incompletos. Banco ficou inconsistente. Depois falhou silenciosamente. Ninguém soube: workflow abortou no meio.
✅ Prompt forte
[LOOP] Sequência:
Etapa 1: valide input, SE erro → STOP
Etapa 2: processe, SE erro → retry 2x
Etapa 3: validar output, SE erro → STOP + log
Output: {etapa, status, erro se houver}Resultado agente: Etapa 2 falhou → retry automático 2x → ainda falhou → STOP com log: “Processamento falhou em parsing de campo X. Output: [dados parciais]. Ação: revisar input, reexecutar.” Equipe corrigiu input, re-rodou, sucesso. Banco consistente.
💡 A regra que resume tudo: Prompt fraco = agente aleatório, custoso, unreliable. Prompt forte = agente previsível, barato, robusto. A diferença está em: Instrução clara, Decisions explícitas, Loops controlados, Memory ativa. SEMPRE estruture os 4 pilares.
Glossário rápido: termos técnicos deste guia
Se algum termo deste guia pareceu novo, este glossário resolve em 30 segundos.
| Termo | O que significa na prática |
|---|---|
| Agent | Entidade autônoma que toma decisões, usa ferramentas, itera até objetivo. Diferente de prompt simples que responde 1x. |
| Loop | Iteração: agente tenta, valida resultado, ajusta, tenta novamente — até sucesso ou limite de tentativas. |
| Tool (Ferramenta) | Função externa que agente pode chamar (API, web search, database, custom function). Agent decide QUANDO usar. |
| Thread | Sessão persistente de agent com memória. Lembra conversas anteriores dentro do thread mesmo depois que close. |
| Iteração | Uma tentativa completa do agent: faz chamada API, recebe resultado, valida, ajusta para próxima tentativa. |
| Alucinação | Quando LLM inventa dados / fatos que não existem — parece confiante mas está errado. Risco em agentes sem validação. |
| Confiança | Score 0-100 ou 0-1 que agente atribui a sua resposta. Recomendado: só agir se > 70-80%. |
| SLA (Service Level Agreement) | Contrato implícito: “sistema deve fazer X em máximo Y tempo com Z% de confiabilidade.” Agentes devem respeitar SLA. |
| Chain-of-Thought | Técnica de prompt: forçar LLM a “pensar em voz alta” — mostrando cada passo do raciocínio, não só resultado final. |
| JSON Schema | Formato estruturado para definir ferramentas: especifica quais parâmetros tool aceita, tipo de cada um, se obrigatório. |
FAQ: dúvidas reais sendo respondidas 🔍
Um agente estruturado custa mais ou menos que um simples?
Custa MENOS a longo prazo. Agente fraco: 7+ iterações, $3-5 por pergunta. Agente estruturado: 2-3 iterações, $0.50-1.50 por pergunta. Diferença: clareza no prompt poupa iterações (e tokens = dinheiro).
Preciso integrar com sistemas legados (SAP, CRM 2010)?
Sim, mas não direto. Você cria uma ferramenta (API wrapper) que agente CHAMA — essa ferramenta lida com integração legada. Agente não precisa saber dos detalhes de SAP, só que pode “chamar buscar-dados-SAP”.
Posso usar esses prompts com Claude em vez de OpenAI?
Parcialmente. Os 4 pilares (Instrução, Decisions, Loop, Memory) funcionam com qualquer LLM. Mas sintaxe de Tools varia — OpenAI usa JSON Schema, Claude usa XML. Adapte formato, lógica é reutilizável.
Como monitoro quanto um agente está custando em tokens?
OpenAI Agents mostra “Usage” no dashboard — tokens por thread. Regra: 1 iteração = ~500-2000 tokens input + 500 output. 5 iterações = $1-3. Sempre monitore uso e coloque caps (máx 3-5 iterações) para evitar surpresas.
Qual é a melhor prática: agente sempre finaliza, ou agente pede aprovação antes?
Depende de criticidade. Para pesquisa / análise: agente finaliza. Para transações / deleção / pagamento: SEMPRE pedir aprovação humana antes de executar. Regra: se reversão é difícil/custosa, humano aprova.
Conclusão: estrutura invisível é o que diferencia agentes que funcionam de agentes que falham 🙌
Agentes não são “prompts melhorados”. São máquinas lógicas que precisam de 4 pilares: Instrução clara (quem é, o quê quer), Decisions explícitas (quando usar qual tool), Loops controlados (quando parar), e Memory ativa (contexto persistente). Sem isso? Loops infinitos, alucinações, despesa alta.
Este guia entregou 7 prompts mestres que cobrem 90% dos casos reais: pesquisa, classificação, orquestração, monitoramento, raciocínio agentic. Cada um segue padrão de pilares, cada um é testado em produção. Ganho: economia de 40+ horas em testes, economia de $2-5k em consultoria, redução de 70% em custo de tokens comparado a agentes genéricos.
O padrão invisível agora é visível. Próximo passo: escolha template (Série A/B/C), adapte com seus dados, teste com input simples, monitore loops e custo. A diferença entre agente que funciona e agente que falha? Estrutura no prompt. Você agora tem.
Sua vez: Qual caso de uso você vai automatizar primeiro com agentes? Pesquisa de mercado? Classificação de dados? Monitoramento? Escolha, pegue o template, customiza, e comece.
Se você já tentou vender online, mas travou na criação de conteúdo, na conversa com o cliente ou no posicionamento. Este combo vai te entregar o mapa:
- Aprenda a conversar com a IA como um estrategista.
- Venda todos os dias no Instagram sem parecer vendedora.
- Posicione sua marca como expert com leveza e propósito.
Tudo isso com prompts prontos, estratégias de verdade e metodologia simples — testada e validada.
💡 Se você sente que tem potencial, mas não sabe como transformar isso em venda: Este é o passo certo.
R$19. Pagamento único. Menos que um lanche no iFood. Acesso vitalício. 💥 Se esse artigo te deu clareza, imagina ter um plano pra vender com IA todos os dias?
Ei, antes de ir: se este conteúdo te ajudou, você não pode perder o que separamos nestas outras categorias. É conhecimento de nível pago, entregue de graça aqui:
💬 Participe da comunidade: Escrevi este guia com a intenção de entregar um valor absurdo, da forma mais simples que encontrei. Se ele te ajudou de alguma forma, a melhor maneira de retribuir é compartilhando sua opinião.
Deixe seu comentário 👀 Faz sentido? Acha que as dicas valem o teste? Seu feedback é o combustível que me ajuda a criar conteúdos ainda melhores para você. E se você já testou algum prompt, compartilhe seus resultados! Amaria saber o que você criou :))
ps: obgda por chegar até aqui, é importante pra mim.