AI werd het aanvalsoppervlak in 2025. In 2026 maken we de verdediging gratis.

AI werd het aanvalsoppervlak in 2025. In 2026 maken we de verdediging gratis.

Publicatiedatum

Terug naar alle berichten

Prompt-injectie is nu het #1 risico voor LLM-toepassingen — en het kan niet worden gepatcht. Vandaag brengt OrcaRouter Security Research onze agent Firewall en input/output Guardrails gratis uit voor elke gebruiker: dezelfde API-sleutel, één schakelaar in uw console, geen codewijzigingen. Dit is het dreigingslandschap dat het ononderhandelbaar maakte — en de architectuur die het bevat.

Door OrcaRouter Security Research · juni 2026


In juni 2025 wisten aanvallers bedrijfsgegevens van Microsoft 365 Copilot te exfiltreren. Het slachtoffer deed niets verkeerd. Ze klikten niet op een link, openden geen bijlage en keurden geen prompt goed. Ze ontvingen een e-mail. Hun AI-assistent las die later — en voerde de erin verborgen instructies uit. De keten, onthuld door Aim Security als EchoLeak (CVE-2025-32711), verzamelde gevoelige context uit e-mail, bestanden en chatgeschiedenis en smokkelde die naar buiten via een automatisch ladende afbeeldings-URL. Nul klikken.

EchoLeak was geen uitschieter. Het was een voorproefje. Een jaar later kunnen we duidelijk zeggen wat het openbare incidentenregister nu aantoont: uw AI-systemen zijn uw aanvalsoppervlak, en de meeste organisaties kunnen de aanvallen ertegen niet zien. Vandaag publiceren we The AI Threat Report 2026 en, samen daarmee, brengen we de twee controles uit die we hebben gebouwd om deze aanvallen te bevatten — gratis, bij de gateway, voor elke OrcaRouter-gebruiker.

Het jaar waarin de aanvallen agentisch werden — en de lekken industrieel werden

Het incidentenrapport van 2026 leest als een stresstest van elke aanname waarop bedrijfsbeveiliging was gebouwd:

- Chat & Ask AI liet ongeveer 300 miljoen privéchatberichten van meer dan 25 miljoen gebruikers blootgesteld via een Firebase-misconfiguratie (404 Media; Malwarebytes, jan. 2026).

- Sears Home Services stelde bloot 3,7 miljoen AI-chattranscripties en gespreksopnamen — namen, adressen, e-mailadressen — van 2024 tot 2026 (ExpressVPN; Cybernews, maart 2026).

- Een aanvaller koppelde een enkele CVE (CVE-2026-39987 in de marimo notebook tool) aan een live LLM-agent die cloudreferenties extraheerde, een SSH-sleutel uit AWS Secrets Manager haalde en een volledige interne PostgreSQL-database in minder dan twee minuten exfiltreerde (Sysdig; The Hacker News, mei 2026).

- Microsoft en Salesforce hebben beide patches uitgebracht voor AI-agent data-lek fouten. In CVE-2026-21520 stuurde een vergiftigd SharePoint-veld Copilot om klantgegevens naar een aanvaller te e-mailen — en de gegevens verlieten zelfs nadat een veiligheidsmechanisme de aanval had gemarkeerd (Dark Reading).

De economie onder deze koppen is omgekeerd in het voordeel van de aanvaller. Telemetrie van productie-LLM-toepassingen laat zien dat de gemiddelde succesvolle aanval in 42 seconden, waarbij 90% ervan gevoelige data lekt (Pillar Security). 13% van de organisaties zijn al door een AI-model of -toepassing gecompromitteerd — en 97% daarvan had geen basis-AI-toegangscontroles (IBM, 2025). OWASP's Q1 2026-overzicht gaf cijfers over de trend: prompt-injectie-aanvallen stegen met 340% op jaarbasis.

En een nieuwe verliesklasse heeft helemaal geen inbreuk nodig. Denial-of-wallet — een gekaapte of weggelopen agent die eenvoudigweg uitgeeft — is waargenomen dat hij verbrandt $46.000 per dag (Sysdig, "LLMjacking"). Er worden geen gegevens gestolen. Er is alleen een rekening.


Waarom je huidige stack er niets van kan zien

Traditionele beveiliging gaat uit van een grens: vertrouwd van binnen, onbetrouwd van buiten, controles op de naad. Taalmodellen doen die grens vervagen, omdat de input van een model ook de programmering is. Elke e-mail, document, webpagina en toolresultaat die een agent leest, kan instructies bevatten die het zal opvolgen. Er is geen betrouwbaar, algemeen mechanisme waarmee de modellen van vandaag scheiden te verwerken inhoud van opdrachten om op te volgen.

Daarom staat prompt injection op de #1-positie in de OWASP Top 10 for LLM Applications — en waarom het niet zal worden "gepatcht" zoals een buffer overflow wordt gepatcht. Het is een structurele eigenschap van het medium. Uw webapplicatiefirewall inspecteert de aanvraag en ziet een perfect geldige API-aanroep; de aanval zit in de woorden. Uw controles per aanvraag doorstaan elke stap van een ketenaanval, want de schade zit in de volgorde — volume, herhaling en uitgaven in de tijd — niet in één enkele aanroep.

De conclusie is ongemakkelijk maar duidelijk: AI-beveiliging is geen modeltrainingsprobleem. Het is een architectuurprobleem — en het is oplosbaar met dezelfde discipline die bedrijven al toepassen op elk ander productiesysteem.


De verdediging is architectonisch: twee vlakken, zes lagen, bij de gateway.

Elke bovenstaande aanval slaagt tegen ongekaderd gezag en faalt tegen gekaderd, gepolitied, gecontroleerd gezag. Het indammen ervan vereist het beheersen van twee afzonderlijke vlakken:

Het inhoudsvlak — wat het model leest en schrijft. Dit is de taak van Guardrails.

Het actievlak — wat de agent doet: de tools die het aanroept, de netwerken die het bereikt, het geld dat het uitgeeft. Dit is de taak van de Firewall.

Een verdediging die slechts één vlak bewaakt, zal de geketende aanvallen missen die krantenkoppen opleveren, omdat de meest schadelijke incidenten beide overschrijden: een injectie komt binnen als inhoud, en wordt vervolgens uitbetaald als een actie. OrcaRouter plaatst zes onafhankelijke, controleerbare lagen tussen een verzoek en een spijt:

1. Identiteit met bereik — elke agent roept aan via zijn eigen sleutel die toegestane modellen, een IP-whitelist, een harde bestedingslimiet en een vervaldatum bevat. Een verzoek dat buiten het bereik valt, sterft voordat er inhoud wordt gelezen.

2. Invoerbeveiligingen — injectie- en jailbreakregels, PII-detectie en -maskering, geheimblokkering en een semantische LLM-rechter die opvangt wat regex niet kan.

3. De actiefirewall — elke toolaanroep, MCP-dispatch en netwerkegress worden beoordeeld tegen een geordend, standaard-weigeringsbeleid met zes oordelen: toestaan, auditen, weigeren, saneren (argumenten redigeren en doorgaan), in afwachting van goedkeuring (houd onomkeerbare stappen tegen voor een mens), en kostenplafond (een run hard stoppen bij een uitgavenplafond). Een gekaapte agent kan geen tool, host of dollar bereiken die u nooit hebt opgegeven.

4. Uitvoerbeveiligingen — het antwoord wordt bij het verlaten gescreend op onveilige uitvoer, PII en geheimen, met grondingscontroles. Dit is de laag die de exfiltratie-URL van EchoLeak opvangt voordat het vertrekt.

5. Anomaliedetectie — gedragsbaselines signaleren wat statische regels niet kunnen voorspellen: dezelfde oproep die in een kort tijdsvenster wordt herhaald, uitgaven die pieken tegen een aangeleerde baseline per uur van de week, een tool-naar-tool-overgang die de werkruimte nog nooit heeft gemaakt.

6. Ondertekende audit — elke match, uitspraak, goedkeuring en beleidswijziging belandt in een manipulatiebestendig spoor, gecorreleerd per agentuitvoering en sessie, exporteerbaar als bewijsmateriaal.

De beslissende eigenschap is plaatsing. Deze besturingselementen bevinden zich bij de gateway, in het requestpad, dus ze binden aan referenties in plaats van applicatiecode — afdwingbaar in elk team en framework, zonder agent-herschrijvingen.

We beoordelen ons eigen huiswerk niet.

Beveiligingsclaims zijn precies zoveel waard als het bewijs dat erachter zit, dus we maken de onze openbaar. De Guardrails en Firewall van OrcaRouter worden geleverd met een evaluatieharnas dat ze scoort tegen meer dan 80 open-source red-team corpora — allemaal geciteerd en gelicentieerd:

HarmBench (MIT; ICML 2024), JailbreakBench (NeurIPS 2024), and AdvBench (Zou et al., 2023) for harmful-behavior and jailbreak robustness;

NVIDIA's garak (Apache-2.0), de open LLM-kwetsbaarheidsscanner, voor injectie- en coderingsaanvallen;

AgentDojo (NeurIPS 2024) — de agent-prompt-injectiebenchmark die de AI Safety Institutes van de VS en het VK gebruikten bij gezamenlijk red-teaming — om de action-plane firewall specifiek te beoordelen;

TruthfulQA en anderen voor gronding en hallucinatie.

OrcaRouter integreert zelf direct open tooling: OSV voor CVE's van afhankelijkheden en Semgrep voor code die een prompt passeert. Geen black box. Geen 'vertrouw ons'.


Gebouwd voor de aankomende audit

Op 2 augustus 2026 wordt de EU AI Act volledig van toepassing, en "show me" vervangt "tell me" als de regelgevende basislijn. Hetzelfde bewijsinstinct verspreidt zich door SOC 2-scopes, cyberverzekeringsvragenlijsten en inkoopbeoordelingen. OrcaRouter levert 36 compliance-framework-pakketten — waaronder OWASP LLM Top 10, NIST AI RMF, ISO/IEC 42001, EU AI Act, SOC 2, HIPAA, PCI DSS en GDPR — die controles in uw werkruimte materialiseren en ondertekend bewijs genereren. Eén goed geplaatste controlelaag produceert de attestatie voor allemaal tegelijk.


Wat wordt er vandaag gelanceerd — en waarom het gratis is

OrcaRouter Firewall + Guardrails zijn nu gratis voor elke gebruiker.Zelfde API key. Eén schakelaar in jouw console. Geen code om te wijzigen.

We hebben ze bewust gratis gemaakt. De gegevens van het rapport zijn op dit punt ondubbelzinnig: verbod zonder een verharde weg produceert meer shadow AI, niet minder — en shadow AI is al de oorzaak van een op de vijf inbreuken met een premie van $670.000 (IBM, 2025). De remedie die werkt is evenzeer economisch als technisch: maak het gereguleerde pad het gemakkelijkste pad. Een controle waarvoor je extra moet betalen, die je met de hand moet integreren en die je moet verantwoorden aan een begrotingscommissie, is een controle die de meeste teams overslaan — en dat overslaan is precies hoe organisaties uiteindelijk de incidentrapporten uitleggen die dit rapport vooraf heeft beschreven.

Er valt dus niets te integreren en niets te kopen. U koppelt een Guardrails- en een Firewall-beleid aan de sleutel die u al gebruikt en volgt de uitrol die contact met de productie overleeft: observe (voer uit in auditmodus en laat uw echte verkeer de basislijn schrijven), shadow (voer het echte beleid uit in would-block-modus totdat fout-positieven naar nul naderen), dan enforce (schakel uitspraken live om, met menselijke goedkeuring voorbehouden voor het echt onomkeerbare). De meeste teams converteren in weken — en houden de controles aan.


De bottom line

Het dreigingslandschap van 2026 is geen reden om AI-adoptie te vertragen. Het is de gebruikshandleiding om het te overleven. Elke aanval in dit rapport verslaat onbegrensde autoriteit en sterft tegen begrensde, gecontroleerde, geauditeerde autoriteit — en die eigenschap is nu bouwbaar, bij de gateway, binnen enkele weken, gratis.

Lees het volledige rapport: The AI Threat Report 2026 · Zet het aan: OrcaRouter 🐋