
La IA se convirtió en la superficie de ataque en 2025. En 2026, haremos que la defensa sea gratuita.
La inyección de prompts es ahora el riesgo número 1 para las aplicaciones de LLM, y no se puede parchear. Hoy, OrcaRouter Security Research está lanzando su Firewall de agente y Guardrails de entrada/salida de forma gratuita para todos los usuarios: misma clave de API, un interruptor en su consola, sin cambios de código. Este es el panorama de amenazas que lo hizo no negociable, y la arquitectura que lo contiene.
Por OrcaRouter Security Research · junio de 2026
En junio de 2025, los atacantes exfiltraron datos corporativos de Microsoft 365 Copilot. La víctima no hizo nada malo. No hicieron clic en un enlace, abrieron un archivo adjunto ni aprobaron una solicitud. Recibieron un correo electrónico. Su asistente de IA luego lo leyó — y obedeció las instrucciones ocultas en su interior. La cadena, divulgada por Aim Security como EchoLeak (CVE-2025-32711), recopiló contexto sensible del correo, archivos e historial de chat y lo extrajo a través de una URL de imagen de carga automática. Cero clics.
EchoLeak no fue un caso atípico. Fue un adelanto. Un año después, podemos decir claramente lo que el registro público de incidentes ahora demuestra: sus sistemas de IA son su superficie de ataque, y la mayoría de las organizaciones no pueden ver los ataques contra ellos. Hoy publicamos The AI Threat Report 2026 y, junto con él, lanzamos los dos controles que construimos para contener estos ataques —gratuitos, en la puerta de enlace, para cada usuario de OrcaRouter.
El año en que los ataques se volvieron agentivos — y las filtraciones se volvieron industriales
El registro de incidentes de 2026 se lee como una prueba de resistencia de cada suposición sobre la que se construyó la seguridad empresarial:
- Chat & Ask AI aproximadamente 300 millones de mensajes de chat privados de más de 25 millones de usuarios expuestos a través de una mala configuración de Firebase (404 Media; Malwarebytes, enero de 2026).
- Sears Home Services expuso 3.7 millones de transcripciones de chats de IA y grabaciones de llamadas — nombres, direcciones, correos electrónicos — que abarcan de 2024 a 2026 (ExpressVPN; Cybernews, mar. 2026).
- Un atacante encadenó una sola CVE (CVE-2026-39987 en la herramienta de notebook marimo) en un agente LLM en vivo que extrajo credenciales de la nube, obtuvo una clave SSH de AWS Secrets Manager y exfiltró una base de datos PostgreSQL interna completa en menos de dos minutos (Sysdig; The Hacker News, mayo de 2026).
- Microsoft y Salesforce ambos lanzaron parches para fallos de fuga de datos en agentes de IA. En CVE-2026-21520, un campo envenenado de SharePoint dirigió a Copilot a enviar por correo electrónico datos de clientes a un atacante — y los datos salieron incluso después de que un mecanismo de seguridad marcara el ataque (Dark Reading).
La economía que subyace a estos titulares se ha invertido a favor del atacante. La telemetría de aplicaciones LLM en producción muestra que el ataque exitoso promedio se completa en 42 segundos, con el 90% de ellos filtrando datos sensibles (Pillar Security). 13% de las organizaciones ya han sido vulneradas a través de un modelo o aplicación de IA — y el 97% de aquellas carecían de controles básicos de acceso a la IA (IBM, 2025). El resumen de OWASP del primer trimestre de 2026 puso números a la tendencia: los ataques de inyección de mensajes aumentaron un 340% interanual.
Y una nueva clase de pérdida no necesita ninguna brecha en absoluto. Denial-of-wallet — un agente secuestrado o descontrolado que simplemente gasta — ha sido observado quemando $46,000 al día (Sysdig, "LLMjacking"). No se roban datos. Solo hay una factura.

Por qué tu pila actual no puede ver nada de eso
La seguridad tradicional asume un límite: interior confiable, exterior no confiable, controles en la unión. Los modelos de lenguaje disuelven ese límite, porque la entrada de un modelo también es su programación. Cada correo electrónico, documento, página web y resultado de herramienta que un agente lee puede contener instrucciones que seguirá. No existe un mecanismo confiable y general mediante el cual los modelos actuales separen contenido a procesar de comandos a obedecer.
Por eso la inyección de indicaciones ocupa el puesto #1 en el OWASP Top 10 para aplicaciones LLM — y por qué no será «parcheada» como se parchea un desbordamiento de búfer. Es una propiedad estructural del medio. Su firewall de aplicaciones web inspecciona la solicitud y ve una llamada API perfectamente válida; el ataque está en las palabras. Sus comprobaciones por solicitud pasan cada paso de un ataque encadenado, porque el daño reside en la secuencia — volumen, repetición y gasto en el tiempo — no en una sola llamada.
La conclusión es incómoda pero clara: La seguridad de la IA no es un problema de entrenamiento de modelos. Es un problema de arquitectura — y es solucionable con la misma disciplina que las empresas ya aplican a cualquier otro sistema de producción.

La defensa es arquitectónica: dos planos, seis capas, en la puerta de enlace.
Cada ataque anterior tiene éxito contra una autoridad sin alcance y fracasa contra una autoridad con alcance, vigilada y auditada. Contenerlos requiere controlar dos planos distintos:
El plano del contenido — lo que el modelo lee y escribe. Esta es la labor de Guardrails.
El plano de acción — lo que el agente hace: las herramientas que llama, las redes a las que llega, el dinero que gasta. Este es el trabajo del Firewall.
Una defensa que solo observa un plano perderá los ataques encadenados que generan titulares, porque los incidentes más dañinos cruzan ambos: una inyección llega como contenido, luego se materializa como acción. OrcaRouter coloca seis capas independientes y auditables entre una solicitud y un arrepentimiento:
1. Identidad con ámbito — cada agente realiza llamadas a través de su propia clave que lleva los modelos permitidos, una lista de IP permitidas, un límite de gasto máximo y una fecha de expiración. Una solicitud fuera del ámbito muere antes de que se lea cualquier contenido.
2. Barreras de entrada — reglas de inyección y jailbreak, detección y enmascaramiento de PII, bloqueo de secretos, y un juez semántico LLM que captura lo que las expresiones regulares no pueden.
3. El firewall de acciones — cada llamada de herramienta, envío MCP y salida de red se juzgan según una política ordenada de denegación por defecto con seis veredictos: permitir, auditar, denegar, sanitizar (redactar argumentos y proceder), pendiente de aprobación (retener pasos irreversibles para un humano), y tope de coste (detener por completo una ejecución en un límite de gasto). Un agente secuestrado no puede alcanzar una herramienta, un host o un dólar que nunca listó.
4. Salvaguardas de salida — la respuesta se examina a la salida en busca de contenido no seguro, IPI y secretos, con verificaciones de fundamento. Esta es la capa que detecta la URL de exfiltración de EchoLeak antes de que salga.
5. Detección de anomalías — las líneas base de comportamiento señalan lo que las reglas estáticas no pueden predecir: la misma llamada repetida en un intervalo breve, el gasto que se dispara contra una línea base aprendida por hora de la semana, una transición de herramienta a herramienta que el espacio de trabajo nunca ha realizado.
6. Auditoría firmada — cada coincidencia, veredicto, aprobación y cambio de política se registra en un rastro a prueba de manipulaciones, correlacionado por ejecución de agente y sesión, exportable como evidencia.
La propiedad decisiva es colocación. Estos controles residen en la puerta de enlace, en la ruta de solicitud, por lo que se vinculan a credenciales en lugar de código de aplicación — aplicable en todos los equipos y marcos de trabajo, sin reescrituras de agentes.
No calificamos nuestra propia tarea
Las afirmaciones de seguridad valen exactamente tanto como la evidencia que las respalda, por eso las mostramos abiertamente. Los Guardrails y Firewall de OrcaRouter incluyen un arnés de evaluación que los califica contra más de 80 corpus de equipos rojos de código abierto — todos citados y con licencia:
HarmBench (MIT; ICML 2024), JailbreakBench (NeurIPS 2024), y AdvBench (Zou et al., 2023) para la robustez ante comportamientos dañinos y jailbreak;
garak de NVIDIA (Apache-2.0), el escáner de vulnerabilidades de LLM de código abierto, para ataques de inyección y codificación;
AgentDojo (NeurIPS 2024) — el benchmark de inyección de indicaciones de agentes que los Institutos de Seguridad de IA de EE. UU. y Reino Unido usaron en ejercicios conjuntos de red-teaming — para evaluar específicamente el cortafuegos del plan de acción;
TruthfulQA y otros para la fundamentación y la alucinación.
OrcaRouter mismo integra herramientas abiertas directamente: OSV para dependencias CVEs y Semgrep para código que transita por un prompt. Sin caja negra. Sin "confía en nosotros."

Construido para la auditoría que se avecina
El 2 de agosto de 2026, la Ley de IA de la UE es plenamente aplicable, y "show me" reemplaza a "tell me" como línea base regulatoria. El mismo instinto probatorio se está extendiendo por los ámbitos de SOC 2, los cuestionarios de ciberseguros y las revisiones de adquisiciones. OrcaRouter ofrece 36 paquetes de marcos de cumplimiento — incluyendo OWASP LLM Top 10, NIST AI RMF, ISO/IEC 42001, EU AI Act, SOC 2, HIPAA, PCI DSS y GDPR — que materializan los controles en su espacio de trabajo y generan evidencia firmada. Una capa de control bien ubicada produce la certificación para todos ellos a la vez.
Lo que se lanza hoy — y por qué es gratuito
OrcaRouter Firewall + Guardrails ahora son gratis para todos los usuarios.Misma clave API. Un interruptor en tu consola. Sin código que cambiar.
Los hicimos libres deliberadamente. Los datos del informe no dejan lugar a dudas: la prohibición sin un camino pavimentado produce más IA en la sombra, no menos — y la IA en la sombra ya impulsa una de cada cinco brechas con una prima de $670,000 (IBM, 2025). El remedio que funciona es tanto económico como técnico: hacer que el camino gobernado sea el camino más fácil. Un control por el que tienes que pagar extra, integrar manualmente y justificar ante un comité de presupuesto es un control que la mayoría de los equipos saltarán — y saltarlo es exactamente cómo las organizaciones terminan explicando los informes de incidentes que este informe describió de antemano.
Así que no hay nada que integrar ni nada que comprar. Usted adjunta las políticas de Guardrails y Firewall a la clave que ya utiliza y sigue el despliegue que sobrevive al contacto con la producción: observar (ejecutar en modo de auditoría y dejar que su tráfico real escriba la línea base), sombra (ejecutar la política real en modo de bloqueo condicional hasta que los falsos positivos se acerquen a cero), luego aplicar (cambiar los veredictos en vivo, con aprobación humana reservada para lo genuinamente irreversible). La mayoría de los equipos realizan la conversión en semanas — y mantienen los controles activados.
El resultado final
El panorama de amenazas de 2026 no es una razón para frenar la adopción de IA. Es el manual de operaciones para sobrevivir a ella. Cada ataque en este informe vence a la autoridad sin alcance definido y muere contra una autoridad con alcance definido, vigilada y auditada — y esa propiedad se puede construir ahora, en la puerta de enlace, en semanas, de forma gratuita.
Lea el informe completo: El Informe de Amenazas de IA 2026 · Actívalo: OrcaRouter 🐋
