KI wurde 2025 zur Angriffsfläche. 2026 machen wir die Verteidigung kostenlos.

KI wurde 2025 zur Angriffsfläche. 2026 machen wir die Verteidigung kostenlos.

Veröffentlicht am

Zurück zu allen Beiträgen

Prompt-Injection ist jetzt das #1-Risiko für LLM-Anwendungen – und es kann nicht gepatcht werden. Heute veröffentlicht OrcaRouter Security Research unseren Agent Firewall und Eingabe-/Ausgabe-Guardrails für alle Nutzer kostenlos: gleicher API-Schlüssel, ein Schalter in Ihrer Konsole, keine Codeänderungen. Das ist die Bedrohungslandschaft, die es unverhandelbar machte – und die Architektur, die sie eindämmt.

Von OrcaRouter Security Research · Juni 2026


Im Juni 2025 haben Angreifer Unternehmensdaten aus Microsoft 365 Copilot exfiltriert. Das Opfer hat nichts falsch gemacht. Es hat keinen Link angeklickt, keinen Anhang geöffnet und keine Eingabeaufforderung genehmigt. Es erhielt eine E-Mail. Sein KI-Assistent las sie später – und befolgte die darin versteckten Anweisungen. Die von Aim Security offengelegte Kette alsEchoLeak (CVE-2025-32711), sammelte sensible Kontextinformationen aus E-Mails, Dateien und dem Chatverlauf und schmuggelte sie über eine automatisch ladende Bild-URL hinaus. Null Klicks.

EchoLeak war kein Einzelfall. Es war ein Vorgeschmack. Ein Jahr später können wir klar sagen, was die öffentliche Vorfallsdokumentation nun zeigt: Ihre KI-Systeme sind Ihre Angriffsfläche, und die meisten Organisationen können die Angriffe gegen sie nicht sehen. Heute veröffentlichen wir The AI Threat Report 2026 und veröffentlichen gleichzeitig die beiden Kontrollen, die wir entwickelt haben, um diese Angriffe einzudämmen — kostenlos, am Gateway, für jeden OrcaRouter-Benutzer.

Das Jahr, in dem die Angriffe agentisch wurden – und die Lecks industriell.

Der Vorfallbericht von 2026 liest sich wie ein Stresstest aller Annahmen, auf denen die Unternehmenssicherheit aufgebaut war:

- Chat & Ask AI hinterließ ungefähr 300 Millionen private Chat-Nachrichten von mehr als 25 Millionen Nutzern offengelegt durch eine Firebase-Fehlkonfiguration (404 Media; Malwarebytes, Jan 2026).

- Sears Home Services offengelegt 3,7 Millionen KI-Chat-Transkripte und Gesprächsaufzeichnungen — Namen, Adressen, E-Mails — aus den Jahren 2024–2026 (ExpressVPN; Cybernews, März 2026).

- Ein Angreifer hat eine einzelne CVE (CVE-2026-39987 im marimo notebook tool) in einen Live-LLM-Agenten eingebunden, und dieser Agent extrahierte Cloud-Anmeldeinformationen, zog einen SSH-Schlüssel aus AWS Secrets Manager und exfiltrierteeine gesamte interne PostgreSQL-Datenbank in weniger als zwei Minuten (Sysdig; The Hacker News, Mai 2026).

- Microsoft und Salesforce haben beide Patches für Schwachstellen bei KI-Agenten-Datenlecks ausgeliefert. In CVE-2026-21520, ein vergiftetes SharePoint-Feld brachte Copilot dazu, Kundendaten an einen Angreifer zu mailen — und die Daten verließen selbst nachdem ein Sicherheitsmechanismus den Angriff gemeldet hatte (Dark Reading).

Die wirtschaftlichen Rahmenbedingungen hinter diesen Schlagzeilen haben sich zugunsten der Angreifer umgekehrt. Telemetriedaten von LLM-Produktionsanwendungen zeigen, dass ein durchschnittlicher erfolgreicher Angriff in 42 Sekunden, wobei 90 % von ihnen sensible Daten preisgeben (Pillar Security). 13 % der Organisationen wurden bereits durch ein KI-Modell oder eine KI-Anwendung kompromittiert – und 97 % von ihnen hatten keine grundlegenden KI-Zugriffskontrollen (IBM, 2025). OWASP's Q1 2026-Zusammenfassung bezifferte den Trend: Prompt-Injection-Angriffe stiegen im Jahresvergleich um 340 %.

Und eine neue Verlustklasse benötigt überhaupt keinen Einbruch. Denial-of-Wallet — ein gekapertes oder außer Kontrolle geratenes Agent, das einfach ausgibt — wurde beobachtet, wie es $46.000 pro Tag verbrennt (Sysdig, "LLMjacking"). Es werden keine Daten gestohlen. Es gibt nur eine Rechnung.


Warum Ihr aktueller Stack nichts davon sehen kann

Traditionelle Sicherheit geht von einer Grenze aus: vertrauenswürdig innen, nicht vertrauenswürdig außen, Kontrollen an der Nahtstelle. Sprachmodelle lösen diese Grenze auf, weil der Input eines Modells auch dessen Programmierung ist. Jede E-Mail, jedes Dokument, jede Webseite und jedes Tool-Ergebnis, das ein Agent liest, kann Anweisungen enthalten, denen es folgen wird. Es gibt keinen zuverlässigen, allgemeinen Mechanismus, mit dem heutige Modelle trennen zu verarbeitenden Inhalt von zu befolgenden Anweisungen.

Deshalb hält Prompt Injection die #1-Position in der OWASP Top 10 for LLM Applications — und warum es nicht wie ein Pufferüberlauf "gepatcht" werden kann. Es ist eine strukturelle Eigenschaft des Mediums. Ihre Web Application Firewall prüft die Anfrage und sieht einen vollkommen gültigen API-Aufruf; der Angriff liegt in den Wörtern. Ihre Pro-Anfrage-Prüfungen bestehen jeden einzelnen Schritt eines verketteten Angriffs, weil der Schaden in der Sequenz — Volumen, Wiederholung und Ausgaben gegen Zeit — nicht in einem einzelnen Aufruf.

Die Schlussfolgerung ist unbequem, aber klar: KI-Sicherheit ist kein Problem des Modelltrainings. Es ist ein Architekturproblem — und es ist mit derselben Disziplin lösbar, die Unternehmen bereits auf jedes andere Produktionssystem anwenden.


Die Verteidigung ist architektonisch: zwei Ebenen, sechs Schichten, am Gateway.

Jeder obige Angriff gelingt gegenüber unbeschränkter Autorität und scheitert gegenüber beschränkter, überwachter, geprüfter Autorität. Sie einzudämmen erfordert die Kontrolle von zwei unterschiedliche Ebenen:

Die Inhaltsebene — was das Modell liest und schreibt. Das ist die Aufgabe von Guardrails.

Die Aktionsebene — was der Agent tut: die Werkzeuge, die er aufruft, die Netzwerke, die er erreicht, das Geld, das er ausgibt. Dies ist die Aufgabe der Firewall.

Eine Verteidigung, die nur eine Ebene überwacht, wird die verketteten Angriffe übersehen, die Schlagzeilen produzieren, denn die schädlichsten Vorfälle überschreiten beide: Eine Injection kommt als Inhalt an und wird dann als Aktion ausgeführt. OrcaRouter platziert sechs unabhängige, prüfbare Schichten zwischen einer Anfrage und einem Bedauern:

1. Eingeschränkte Identität — jeder Agent ruft über seinen eigenen Schlüssel auf, der erlaubte Modelle, eine IP-Erlaubnisliste, eine harte Ausgabenobergrenze und ein Ablaufdatum enthält. Eine nicht im Gültigkeitsbereich liegende Anfrage wird abgewiesen, bevor irgendein Inhalt gelesen wird.

2. Eingabe-Guardrails — Injection- und Jailbreak-Regeln, PII-Erkennung und -Maskierung, Secret-Blocking und ein semantischer LLM-Judge, der abfängt, was Regex nicht kann.

3. Die Aktions-Firewall — jeder Tool-Aufruf, MCP-Dispatch und Netzwerkausgang wird gegen eine geordnete Standard-Verweigerungs-Policy mit sechs Urteile: erlauben, auditieren, verweigern, bereinigen (Argumente schwärzen und fortfahren), ausstehende Genehmigung (unumkehrbare Schritte für einen Menschen zurückhalten), und Kostenobergrenze (einen Lauf bei einer Ausgabenobergrenze hart stoppen). Ein entführter Agent kann kein Tool, keinen Host oder keinen Dollar erreichen, den Sie nie aufgeführt haben.

4. Ausgabe-Guardrails — die Antwort wird beim Verlassen auf unsichere Ausgaben, PII und Geheimnisse überprüft, mit Grounding-Checks. Dies ist die Schicht, die die Exfiltration-URL von EchoLeak abfängt bevor sie das System verlässt.

5. Anomalieerkennung — Verhaltensbaselines kennzeichnen, was statische Regeln nicht vorhersagen können: derselbe Anruf, der in kurzer Zeit wiederholt getätigt wird, Ausgabenspitzen gegen eine gelernte Stunden-Woche-Baseline, ein Tool-zu-Tool-Übergang, den der Arbeitsbereich noch nie gemacht hat.

6. Signiertes Audit — jeder Treffer, jedes Urteil, jede Genehmigung und jede Richtlinienänderung landet in einer manipulationssicheren Spur, korreliert nach Agentenlauf und Sitzung, exportierbar als Nachweis.

Die entscheidende Eigenschaft ist Platzierung. Diese Steuerungen leben am Gateway, im Request-Pfad, also binden sie an Zugangsdaten statt Anwendungscode — durchsetzbar über alle Teams und Frameworks hinweg, ohne Agent-Umschreibungen.

Wir bewerten unsere eigenen Hausaufgaben nicht.

Sicherheitsbehauptungen sind genau so viel wert wie die Belege dahinter, also legen wir unsere offen. OrcaRouter's Guardrails und Firewall werden mit einem Evaluierungs-Framework ausgeliefert. Dieses bewertet sie gegen mehr als 80 Open-Source-Red-Team-Korpora — alle zitiert und lizenziert:

HarmBench (MIT; ICML 2024), JailbreakBench (NeurIPS 2024), und AdvBench (Zou et al., 2023) für die Robustheit gegenüber schädlichem Verhalten und Jailbreak-Versuchen;

NVIDIA's garak (Apache-2.0), der offene LLM-Schwachstellenscanner, für Injektions- und Kodierungsangriffe;

AgentDojo (NeurIPS 2024) — der Agent-Prompt-Injection-Benchmark, den die US- und UK-AI-Sicherheitsinstitute bei gemeinsamen Red-Teaming eingesetzt haben — um speziell die Action-Plane-Firewall zu bewerten;

TruthfulQA und andere für Grounding und Halluzination.

OrcaRouter selbst integriert offene Werkzeuge direkt: OSV für Abhängigkeits-CVEs und Semgrep für Code, der einen Prompt durchläuft. Keine Blackbox. Kein "Vertrauen Sie uns."


Für das bevorstehende Audit gebaut

Am 2. August 2026 wird der EU AI Act vollständig anwendbar, und „show me“ ersetzt „tell me“ als regulatorische Basis. Derselbe evidentiarische Instinkt verbreitet sich in SOC-2-Bereichen, Cyber-Versicherungsfragebögen und Beschaffungsprüfungen. OrcaRouter liefert 36 Compliance-Framework-Pakete — einschließlich OWASP LLM Top 10, NIST AI RMF, ISO/IEC 42001, EU AI Act, SOC 2, HIPAA, PCI DSS und GDPR — die Kontrollen in Ihren Arbeitsbereich materialisieren und signierte Nachweise generieren. Eine gut platzierte Kontrollebene erzeugt die Bescheinigung für alle gleichzeitig.


Was heute startet — und warum es kostenlos ist

OrcaRouter Firewall + Guardrails sind jetzt für jeden Benutzer kostenlos. Gleicher API-Schlüssel. Ein Schalter in Ihrer Konsole. Keine Codeänderung.

Wir haben sie bewusst kostenlos gemacht. Die Daten des Berichts sind in diesem Punkt eindeutig: Ein Verbot ohne einen befestigten Weg führt zu mehr Shadow-KI, nicht weniger – und Shadow-KI verursacht bereits eine von fünf Sicherheitsverletzungen mit einer Prämie von 670.000 US-Dollar (IBM, 2025). Das wirksame Gegenmittel ist ebenso wirtschaftlich wie technisch: den regulierten Weg zum einfachsten Weg machen. Eine Kontrolle, für die man extra bezahlen, die man manuell integrieren und vor einem Budgetausschuss rechtfertigen muss, ist eine Kontrolle, die die meisten Teams auslassen werden – und genau durch dieses Auslassen erklären Unternehmen am Ende die Sicherheitsvorfälle, die dieser Bericht im Voraus beschrieben hat.

Es gibt also nichts zu integrieren und nichts zu kaufen. Sie hängen Guardrails und eine Firewall policy an den bereits verwendeten Schlüssel und folgen der Einführung, die den Kontakt mit der Produktion übersteht: beobachten (im Audit-Modus ausführen und Ihren echten Traffic die Baseline schreiben lassen), schatten (die echte Richtlinie im Would-Block-Modus ausführen, bis die False Positives gegen Null gehen), dann durchsetzen (Entscheidungen live umschalten, wobei die menschliche Genehmigung für das wirklich Unumkehrbare vorbehalten ist). Die meisten Teams sind in Wochen umgestellt — und behalten die Kontrollen bei.


Das Fazit

Die Bedrohungslandschaft 2026 ist kein Grund, die KI-Einführung zu verlangsamen. Es ist das Betriebshandbuch, um sie zu überleben. Jeder Angriff in diesem Bericht schlägt gegen unbeschränkte Autorität und stirbt gegen eine eingeschränkte, überwachte, geprüfte Autorität – und diese Eigenschaft ist jetzt baubar, am Gateway, in Wochen, kostenlos.

Lesen Sie den vollständigen Bericht: The AI Threat Report 2026 · Schalten Sie es ein: OrcaRouter 🐋