
A IA tornou-se a superfície de ataque em 2025. Em 2026, estamos tornando a defesa gratuita.
A injeção de prompt é agora o risco nº 1 para aplicações LLM — e não pode ser corrigida. Hoje, a OrcaRouter Security Research está lançando nosso agente Firewall e Guardrails de entrada/saída gratuitamente para todos os usuários: mesma chave de API, um interruptor no seu console, sem alterações de código. Este é o cenário de ameaças que tornou isso inegociável — e a arquitetura que o contém.
Por OrcaRouter Pesquisa de Segurança · Junho de 2026
Em junho de 2025, invasores exfiltraram dados corporativos do Microsoft 365 Copilot. A vítima não fez nada errado. Ela não clicou em um link, não abriu um anexo nem aprovou um prompt. Ela recebeu um e-mail. Seu assistente de IA depois o leu — e obedeceu às instruções escondidas nele. A cadeia, divulgada pela Aim Security como EchoLeak (CVE-2025-32711), coletou contexto sensível de e-mails, arquivos e histórico de conversas e o contrabandeou através de uma URL de imagem de carregamento automático. Zero cliques.
EchoLeak não foi uma exceção. Foi uma prévia. Um ano depois, podemos dizer claramente o que o registro público de incidentes demonstra agora: seus sistemas de IA são sua superfície de ataque, e a maioria das organizações não consegue ver os ataques contra eles. Hoje estamos publicando The AI Threat Report 2026 e, junto com ele, lançando os dois controles que construímos para conter esses ataques — gratuitamente, no gateway, para cada usuário do OrcaRouter.
O ano em que os ataques se tornaram autônomos — e os vazamentos, industriais.
O registro de incidentes de 2026 parece um teste de estresse de todas as suposições sobre as quais a segurança empresarial foi construída:
- Chat & Ask AI deixou aproximadamente 300 milhões de mensagens de chat privadas de mais de 25 milhões de usuários expostas através de uma configuração incorreta do Firebase (404 Media; Malwarebytes, Jan 2026).
- Sears Home Services expôs 3,7 milhões de transcrições de chats de IA e gravações de chamadas — nomes, endereços, e-mails — abrangendo 2024–2026 (ExpressVPN; Cybernews, março de 2026).
- Um atacante encadeou uma única CVE (CVE-2026-39987 na ferramenta de notebook marimo) em um agente LLM ativo que extraiu credenciais da nuvem, puxou uma chave SSH do AWS Secrets Manager e exfiltrou um banco de dados interno PostgreSQL inteiro em menos de dois minutos (Sysdig; The Hacker News, maio de 2026).
- Microsoft e Salesforce ambas lançaram correções para falhas de vazamento de dados de agentes de IA. Em CVE-2026-21520, um campo envenenado do SharePoint fez com que o Copilot enviasse por e-mail dados de clientes para um atacante — e os dados saíram mesmo depois que um mecanismo de segurança sinalizou o ataque (Dark Reading).
A economia por trás desses títulos se inverteu a favor do atacante. A telemetria de aplicações LLM em produção mostra que o ataque bem-sucedido médio é concluído em 42 segundos, com 90% deles vazando dados sensíveis (Pillar Security). 13% das organizações já foram violadas através de um modelo ou aplicação de IA — e 97% delas não tinham controles básicos de acesso à IA (IBM, 2025). O resumo do OWASP do primeiro trimestre de 2026 colocou números na tendência: ataques de injeção de prompt aumentaram 340% ano após ano.
E uma nova classe de perda não precisa de nenhuma violação. Denial-of-wallet — um agente sequestrado ou descontrolado que simplesmente gasta — foi observado queimando $46.000 por dia (Sysdig, "LLMjacking"). Nenhum dado é roubado. Há apenas uma conta.

Por que sua pilha atual não consegue ver nada disso?
A segurança tradicional assume um limite: confiável internamente, não confiável externamente, controles na fronteira. Os modelos de linguagem dissolvem esse limite, porque a entrada de um modelo também é sua programação. Todo e-mail, documento, página web e resultado de ferramenta que um agente lê pode conter instruções que ele seguirá. Não há um mecanismo confiável e geral pelo qual os modelos atuais separam conteúdo a processar de comandos a obedecer.
É por isso que a injeção de prompt ocupa a #1 posição no OWASP Top 10 para Aplicações LLM — e por que não será "corrigido" da mesma forma que um buffer overflow é corrigido. É uma propriedade estrutural do meio. Seu firewall de aplicação web inspeciona a requisição e vê uma chamada de API perfeitamente válida; o ataque está nas palavras. Suas verificações por requisição passam em cada etapa de um ataque encadeado, porque o dano reside nas sequência — volume, repetição e gasto ao longo do tempo — não em uma única chamada.
A conclusão é desconfortável, mas clara: A segurança de IA não é um problema de treinamento de modelo. É um problema de arquitetura — e é solucionável com a mesma disciplina que as empresas já aplicam a todos os outros sistemas de produção.

A defesa é arquitetônica: dois planos, seis camadas, no gateway.
Todo ataque acima obtém sucesso contra autoridade sem escopo e falha contra autoridade com escopo, policiada e auditada. Contê-los requer controlar dois planos distintos:
O plano de conteúdo — o que o modelo lê e escreve. Esta é a função de Guardrails.
O plano de ação — o que o agente faz: as ferramentas que chama, as redes que atinge, o dinheiro que gasta. Este é o trabalho do Firewall.
Uma defesa que observa apenas um plano perderá os ataques encadeados que geram manchetes, porque os incidentes mais danosos cruzam ambos: uma injeção chega como conteúdo e depois se concretiza como ação. O OrcaRouter coloca seis camadas independentes e auditáveis entre uma solicitação e um arrependimento:
1. Identidade com escopo — cada agente faz chamadas por meio de sua própria chave, que carrega modelos permitidos, uma lista de permissão de IP, um limite máximo de gastos e uma data de expiração. Uma solicitação fora do escopo é encerrada antes que qualquer conteúdo seja lido.
2. Guardrails de entrada — regras de injeção e jailbreak, detecção e mascaramento de PII, bloqueio de segredos e um juiz LLM semântico que captura o que o regex não consegue.
3. O firewall de ação — toda chamada de ferramenta, despacho de MCP e egresso de rede são julgados contra uma política ordenada, de negação padrão com seis veredictos: permitir, auditar, negar, sanitizar (redigir argumentos e prosseguir), pendente de aprovação (reter etapas irreversíveis para um humano), e limitar-custo (parar bruscamente uma execução ao atingir um teto de gastos). Um agente sequestrado não pode alcançar uma ferramenta, um host ou um dólar que você nunca listou.
4. Guardrails de saída — a resposta é verificada na saída quanto a saída insegura, PII e segredos, com verificações de fundamentação. Esta é a camada que captura a URL de exfiltração do EchoLeak antes de sair.
5. Detecção de anomalias — baselines comportamentais sinalizam o que regras estáticas não conseguem prever: a mesma chamada repetida em uma janela apertada, gastos aumentando em relação a uma baseline aprendida de hora da semana, uma transição ferramenta-a-ferramenta que o workspace nunca fez.
6. Auditoria assinada — cada correspondência, veredito, aprovação e mudança de política cai em uma trilha à prova de adulteração, correlacionada por execução de agente e sessão, exportável como evidência.
A propriedade decisiva é posicionamento. Esses controles residem no gateway, no caminho da requisição, então eles se vinculam a credenciais em vez de código de aplicação — aplicável em todas as equipes e frameworks, sem reescritas de agente.
Nós não corrigimos o nosso próprio dever de casa.
Reivindicações de segurança valem exatamente o quanto as evidências por trás delas, então colocamos as nossas em aberto. Os Guardrails e Firewall da OrcaRouter vêm com um harness de avaliação que os pontua contra mais de 80 corpora de red-team open-source — cada um citado e licenciado:
HarmBench (MIT; ICML 2024), JailbreakBench (NeurIPS 2024), e AdvBench (Zou et al., 2023) para robustez contra comportamento prejudicial e jailbreak;
NVIDIA's garak (Apache-2.0), the open LLM vulnerability scanner, for injection and encoding attacks;
AgentDojo (NeurIPS 2024) — the agent prompt-injection benchmark the US and UK AI Safety Institutes used in joint red-teaming — to grade the action-plane firewall specifically;
TruthfulQA e outros para fundamentação e alucinação.
O próprio OrcaRouter integra diretamente ferramentas abertas: OSV para CVEs de dependência e Semgrep para código que transita por um prompt. Sem caixa preta. Sem "confie em nós."

Construído para a auditoria que está por vir
Em 2 de agosto de 2026, a Lei de IA da UE se torna totalmente aplicável, e "mostre-me" substitui "diga-me" como base regulatória. O mesmo instinto probatório está se espalhando pelos escopos de SOC 2, questionários de seguro cibernético e revisões de aquisição. A OrcaRouter oferece 36 pacotes de estruturas de conformidade — incluindo OWASP LLM Top 10, NIST AI RMF, ISO/IEC 42001, EU AI Act, SOC 2, HIPAA, PCI DSS e GDPR — que materializam controles em seu espaço de trabalho e geram evidências assinadas. Uma camada de controle bem posicionada produz a atestação para todos eles de uma só vez.
O que está sendo lançado hoje — e por que é gratuito
OrcaRouter Firewall + Guardrails agora são gratuitos para todos os usuários. Mesma chave de API. Um interruptor no seu console. Nenhum código para alterar.
Nós os tornamos gratuitos deliberadamente. Os dados do relatório são inequívocos neste ponto: a proibição sem um caminho pavimentado produz mais IA sombra, não menos — e a IA sombra já impulsiona um em cada cinco incidentes com um prêmio de $670,000 (IBM, 2025). O remédio que funciona é tanto econômico quanto técnico: tornar o caminho governado o caminho mais fácil. Um controle pelo qual você tem que pagar a mais, integrar manualmente e justificar a um comitê de orçamento é um controle que a maioria das equipes vai pular — e pular é exatamente como as organizações acabam explicando os relatórios de incidentes que este relatório descreveu antecipadamente.
Portanto, não há nada para integrar e nada para comprar. Você anexa as Guardrails e uma política de Firewall à chave que já usa e segue a implantação que sobrevive ao contato com a produção: observar (executar em modo de auditoria e deixar seu tráfego real escrever a linha de base), sombra (executar a política real no modo de bloqueio condicional até que os falsos positivos se aproximem de zero), então aplicar (inverter as decisões ao vivo, com aprovação humana reservada para o genuinamente irreversível). A maioria das equipes converte em semanas — e mantém os controles ativos.
O resultado final
O cenário de ameaças de 2026 não é motivo para desacelerar a adoção de IA. É o manual operacional para sobreviver a ela. Cada ataque neste relatório derrota a autoridade sem escopo e morre contra a autoridade com escopo, policiada e auditada — e essa propriedade pode ser construída agora, no gateway, em semanas, de graça.
Leia o relatório completo: The AI Threat Report 2026 · Ligue-o: OrcaRouter 🐋
