
L'IA est devenue la surface d'attaque en 2025. En 2026, nous rendons la défense gratuite.
L'injection de prompts est désormais le risque numéro un pour les applications LLM — et il ne peut pas être corrigé. Aujourd'hui, OrcaRouter Security Research publie notre agent Firewall et nos Guardrails d'entrée/sortie gratuitement pour chaque utilisateur : même clé API, un seul interrupteur dans votre console, aucune modification de code. Voici le paysage des menaces qui a rendu cela non négociable — et l'architecture qui le contient.
Par OrcaRouter Security Research · Juin 2026
En juin 2025, des attaquants ont exfiltré des données d'entreprise de Microsoft 365 Copilot. La victime n'a rien fait de mal. Elle n'a pas cliqué sur un lien, ouvert une pièce jointe ni approuvé une invite. Elle a reçu un e-mail. Son assistant IA l'a ensuite lu — et a obéi aux instructions cachées à l'intérieur. La chaîne, révélée par Aim Security sous le nom EchoLeak (CVE-2025-32711), a collecté des informations sensibles à partir des e-mails, fichiers et historique de chat et les a exfiltrées via une URL d'image à chargement automatique. Zéro clic.
EchoLeak n'était pas une exception. C'était un aperçu. Un an plus tard, nous pouvons dire clairement ce que le registre public des incidents démontre désormais : vos systèmes d'IA constituent votre surface d'attaque, et la plupart des organisations ne voient pas les attaques contre eux. Aujourd'hui, nous publions The AI Threat Report 2026 et, parallèlement, nous publions les deux contrôles que nous avons construits pour contenir ces attaques — gratuitement, à la passerelle, pour chaque utilisateur d'OrcaRouter.
L'année où les attaques sont devenues agentiques — et les fuites sont devenues industrielles
Le dossier de l'incident de 2026 se lit comme un test de résistance de toutes les hypothèses sur lesquelles la sécurité des entreprises a été construite :
- Chat & Ask AI a laissé environ 300 millions de messages de chat privés provenant de plus de 25 millions d'utilisateurs exposés via une mauvaise configuration de Firebase (404 Media; Malwarebytes, Jan 2026).
- Sears Home Services a exposé 3,7 millions de transcriptions de chats IA et d'enregistrements d'appels — noms, adresses, e-mails — couvrant 2024–2026 (ExpressVPN ; Cybernews, mars 2026).
- Un attaquant a enchaîné une seule CVE (CVE-2026-39987 dans l'outil de notebook marimo) dans un agent LLM en direct qui a extrait des informations d'identification cloud, récupéré une clé SSH d'AWS Secrets Manager, et exfiltré une base de données PostgreSQL interne entière en moins de deux minutes (Sysdig; The Hacker News, mai 2026).
- Microsoft et Salesforce ont tous deux publié des correctifs pour des failles de fuite de données liées aux agents d'IA. Dans CVE-2026-21520, un champ SharePoint empoisonné a poussé Copilot à envoyer par e-mail des données de clients à un attaquant — et les données ont quitté le système même après qu'un mécanisme de sécurité a signalé l'attaque (Dark Reading).
Les fondements économiques de ces titres se sont inversés en faveur de l'attaquant. La télémétrie des applications LLM en production montre que l'attaque réussie moyenne se termine en 42 secondes, avec 90 % d'entre elles divulguant des données sensibles (Pillar Security). 13 % des organisations ont déjà été compromises via un modèle ou une application d'IA — et 97 % de celles-ci ne disposaient pas de contrôles d'accès IA de base (IBM, 2025). Le récapitulatif du Q1 2026 d'OWASP a chiffré la tendance : les attaques par injection de prompt ont augmenté de 340 % d'une année sur l'autre.
Et une nouvelle classe de perte n'a besoin d'aucune brèche du tout. Déni de portefeuille — un agent détourné ou incontrôlé qui simplement dépense — a été observé en train de brûler $46 000 par jour (Sysdig, "LLMjacking"). Aucune donnée n'est volée. Il n'y a qu'une facture.

Pourquoi votre stack actuel ne peut rien voir de tout cela
La sécurité traditionnelle suppose une frontière : ce qui est à l'intérieur est digne de confiance, ce qui est à l'extérieur ne l'est pas, avec des contrôles à la jointure. Les modèles de langage dissolvent cette frontière, car l'entrée d'un modèle est aussi sa programmation. Chaque e-mail, document, page web et résultat d'outil qu'un agent lit peut contenir des instructions qu'il suivra. Il n'existe pas de mécanisme fiable et général par lequel les modèles actuels séparent le contenu à traiter de les commandes à obéir.
C'est pourquoi l'injection de prompt occupe la #1 position dans le Top 10 OWASP pour les applications LLM — et pourquoi il ne sera pas "patché" comme un débordement de tampon est patché. C'est une propriété structurelle du médium. Votre pare-feu d'application web inspecte la requête et voit un appel API parfaitement valide ; l'attaque se trouve dans les mots. Vos vérifications par requête passent chaque étape d'une attaque en chaîne, car les dégâts résident dans la séquence — volume, répétition et dépense dans le temps — pas dans un seul appel.
La conclusion est inconfortable mais claire : La sécurité de l'IA n'est pas un problème d'entraînement de modèle. C'est un problème d'architecture — et c'est résoluble avec la même discipline que les entreprises appliquent déjà à tous les autres systèmes de production.

La défense est architecturale : deux plans, six couches, à la passerelle.
Toute attaque ci-dessus réussit contre une autorité non délimitée et échoue contre une autorité délimitée, surveillée et auditée. Les contenir nécessite de contrôler deux plans distincts:
Le plan de contenu — ce que le modèle lit et écrit. C'est le travail de Guardrails.
Le plan d'action — ce que l'agent fait: les outils qu'il appelle, les réseaux qu'il atteint, l'argent qu'il dépense. C'est le travail du Firewall.
Une défense qui ne surveille qu'un seul plan manquera les attaques en chaîne qui font les gros titres, car les incidents les plus dommageables traversent les deux : une injection arrive en tant que contenu, puis se concrétise en action. OrcaRouter place six couches indépendantes et audibles entre une demande et un regret :
1. Identité délimitée — chaque agent appelle via sa propre clé qui transporte les modèles autorisés, une liste d'adresses IP autorisées, un plafond de dépenses strict et une date d'expiration. Une demande hors scope meurt avant que tout contenu ne soit lu.
2. Gardes d'entrée — règles d'injection et de jailbreak, détection et masquage de PII, blocage de secrets, et un juge sémantique LLM qui attrape ce que les regex ne peuvent pas.
3. Le pare-feu d'action — chaque appel d'outil, distribution MCP et sortie réseau sont jugés par rapport à une politique ordonnée de refus par défaut avec six verdicts: autoriser, auditer, refuser, assainir (masquer les arguments et continuer), en attente d'approbation (mettre en attente les étapes irréversibles pour un humain), et plafond de coût (arrêter brusquement une exécution à un plafond de dépenses). Un agent détourné ne peut pas atteindre un outil, un hôte ou un dollar que vous n'avez jamais listé.
4. Garde-fous de sortie — la réponse est filtrée à la sortie pour détecter les sorties non sécurisées, les PII et les secrets, avec des vérifications d'ancrage. C'est la couche qui intercepte l'URL d'exfiltration d'EchoLeak avant qu'elle ne parte.
5. Détection d'anomalies — les références comportementales signalent ce que les règles statiques ne peuvent pas prédire : le même appel répété dans une fenêtre serrée, une dépense qui augmente par rapport à une référence apprise de l'heure de la semaine, une transition outil-à-outil que l'espace de travail n'a jamais faite.
6. Audit signé — chaque correspondance, verdict, approbation et changement de politique atterrit dans une piste infalsifiable, corrélée par exécution d'agent et session, exportable comme preuve.
La propriété décisive est le placement. Ces contrôles résident sur la passerelle, dans le chemin de la requête, donc ils se lient aux informations d’identification plutôt qu’au code d’application — applicable à toutes les équipes et tous les frameworks, sans réécriture d’agent.
Nous ne notons pas nos propres devoirs.
Les affirmations de sécurité valent exactement ce que valent les preuves qui les sous-tendent, c'est pourquoi nous rendons les nôtres publiques. OrcaRouter's Guardrails and Firewall sont livrés avec un harnais d'évaluation qui les note contre plus de 80 corpus open-source de red team — chacun cité et sous licence :
HarmBench (MIT; ICML 2024), JailbreakBench (NeurIPS 2024), and AdvBench (Zou et al., 2023) for harmful-behavior and jailbreak robustness;
le garak de NVIDIA (Apache-2.0), le scanner open source de vulnérabilités LLM, pour les attaques par injection et encodage ;
AgentDojo (NeurIPS 2024) — le benchmark d'injection de prompts pour agents que les AI Safety Institutes des États-Unis et du Royaume-Uni ont utilisé lors d'un red-teaming conjoint — pour évaluer spécifiquement le pare-feu de plan d'action ;
TruthfulQA et autres pour l'ancrage et l'hallucination.
OrcaRouter lui-même intègre directement des outils ouverts : OSV pour les CVE de dépendances et Semgrep pour le code qui transite par un prompt. Pas de boîte noire. Pas de "croyez-nous."

Conçu pour l'audit à venir
Le 2 août 2026, l'EU AI Act devient pleinement applicable, et "montre-moi" remplace "dis-moi" comme référence réglementaire. Le même instinct probant se répand dans les périmètres SOC 2, les questionnaires d'assurance cyber, et les examens d'approvisionnement. OrcaRouter fournit36 packs de cadres de conformité — y compris OWASP LLM Top 10, NIST AI RMF, ISO/IEC 42001, EU AI Act, SOC 2, HIPAA, PCI DSS, et GDPR — qui matérialisent les contrôles dans votre espace de travail et génèrent des preuves signées. Une couche de contrôle bien placée produit l'attestation pour tous à la fois.
Qu'est-ce qui est lancé aujourd'hui — et pourquoi c'est gratuit
OrcaRouter Firewall + Guardrails sont désormais gratuits pour tous les utilisateurs. Même clé API. Un seul interrupteur dans votre console. Aucun code à changer.
Nous les avons rendus gratuits délibérément. Les données du rapport sont sans ambiguïté sur ce point : l'interdiction sans une route pavée produit plus d'IA fantôme, pas moins — et l'IA fantôme génère déjà une brèche sur cinq avec une prime de 670 000 $ (IBM, 2025). Le remède qui fonctionne est autant économique que technique : rendez le chemin réglementé le plus facile. Un contrôle pour lequel vous devez payer un supplément, l'intégrer à la main et le justifier auprès d'un comité budgétaire est un contrôle que la plupart des équipes vont sauter — et le sauter est exactement la façon dont les organisations finissent par expliquer les rapports d'incidents que ce rapport a décrits à l'avance.
Donc il n'y a rien à intégrer et rien à acheter. Vous attachez Guardrails et une politique de pare-feu à la clé que vous utilisez déjà et suivez le déploiement qui survit au contact avec la production : observer (exécutez en mode audit et laissez votre trafic réel écrire la base de référence), ombre (exécutez la politique réelle en mode would-block jusqu'à ce que les faux positifs approchent zéro), puis appliquer (basculez les verdicts en direct, avec une approbation humaine réservée pour les cas véritablement irréversibles). La plupart des équipes convertissent en quelques semaines — et gardent les contrôles activés.
En résumé
Le paysage des menaces de 2026 n'est pas une raison pour ralentir l'adoption de l'IA. C'est le manuel d'utilisation pour y survivre. Chaque attaque décrite dans ce rapport bat l'autorité non délimitée et meurt contre une autorité délimitée, surveillée et contrôlée — et cette propriété est constructible dès maintenant, à la passerelle, en quelques semaines, gratuitement.
Lisez le rapport complet : The AI Threat Report 2026 · Activez-le : OrcaRouter 🐋
