AIは2025年に攻撃対象領域となった。2026年には、防御を無料にする。

公開日

Jun 18, 2026

プロンプトインジェクションは今やLLMアプリケーションにとって#1のリスクであり、パッチで修正することはできません。本日、OrcaRouter Security Researchは、エージェントファイアウォールと入出力ガードレールをすべてのユーザーに無料で公開します。同じAPIキー、コンソール内の1つのスイッチ、コード変更は不要です。これが妥協を許さない脅威の状況であり、それを封じ込めるアーキテクチャです。

OrcaRouter Security Research による · 2026年6月

2025年6月、攻撃者はMicrosoft 365 Copilotから企業データを外部に持ち出しました。被害者は何も悪いことをしていません。リンクをクリックせず、添付ファイルを開かず、プロンプトを承認もしませんでした。彼らはメールを受け取りました。その後、彼らのAIアシスタントがそのメールを読み、その中に隠された指示に従いました。この一連の流れは、Aim SecurityによってEchoLeak (CVE-2025-32711)という脆弱性として公開されたもので、メール、ファイル、チャット履歴から機密コンテキストを収集し、自動読み込み画像URLを通じて外部に持ち出しました。ゼロクリックでした。

EchoLeakは異常値ではなかった。それは予兆だった。1年後、私たちは公的なインシデント記録が今示していることを明白に言える：あなたのAIシステムが攻撃対象であり、ほとんどの組織は自らに対する攻撃を認識できていない。 現在、私たちは公開しています The AI Threat Report 2026 そしてそれと同時に、これらの攻撃を封じ込めるために構築した2つの制御機能をリリースしています — ゲートウェイで、無料で、すべてのOrcaRouterユーザー向けに。

攻撃が自律的になり、漏洩が産業化した年

2026年のインシデント記録は、企業セキュリティが基盤としていたあらゆる前提のストレステストのように読める：

- Chat & Ask AI約2500万人以上のユーザーからの3億件のプライベートチャットメッセージFirebaseの設定ミスによって露出した（404 Media; Malwarebytes、2026年1月）.

- Sears Home Servicesを流出させた370万件のAIチャットのトランスクリプトと通話記録 — 名前、住所、メールアドレス — 2024年から2026年まで (ExpressVPN; Cybernews, 2026年3月).

- 攻撃者は単一のCVE（CVE-2026-39987のmarimoノートブックツール内で）をライブLLMエージェントに連鎖させ、クラウド認証情報を抽出し、AWS Secrets ManagerからSSHキーを取得し、そして流出させた内部のPostgreSQLデータベース全体を2分未満で（Sysdig; The Hacker News、2026年5月）。

- MicrosoftとSalesforce 両社はAIエージェントのデータ漏洩の脆弱性に対するパッチをリリースしました。において CVE-2026-21520, 毒されたSharePointフィールドがCopilotを誘導して、顧客データを攻撃者にメール送信させました — そしてデータは残った 安全機構が攻撃をフラグした後でも (Dark Reading).

これらの見出しの根底にある経済性は攻撃者に有利に逆転した。本番環境のLLMアプリケーションからのテレメトリは、平均的な成功攻撃が完了するまでに42秒、そのうちそれらの90%が機密データを漏洩しており（Pillar Security）。13%の組織はすでにAIモデルやアプリケーションを通じて侵害されており、かつそれらの97%は基本的なAIアクセス制御を欠いていた（IBM、2025）。OWASPの2026年第1四半期のまとめはこの傾向に数字を付けた：プロンプトインジェクション攻撃は前年比340%増加した。

そして、新たな損失クラスは侵害をまったく必要としない。 Denial-of-wallet — ハイジャックされた、または暴走したエージェントが単に 費やす — 消費しているのが観測されている 1日あたり46,000ドル (Sysdig, "LLMjacking"). データは盗まれていない。請求書だけがある。

なぜあなたの現在のスタックではそのどれも見えないのか

従来のセキュリティは境界を前提としている：内部は信頼、外部は非信頼、その継ぎ目に制御を置く。言語モデルはその境界を溶解する、なぜなら モデルの入力はそのプログラミングでもある。 エージェントが読み取るすべてのメール、文書、Webページ、ツールの結果には、それに従う指示が含まれている可能性がある。現在のモデルが分離する 処理するコンテンツ から 従うべきコマンド。

だからこそ、プロンプトインジェクションはOWASP Top 10 for LLM Applicationsの第1位を保持しており、なぜそれがバッファオーバーフローが修正されるようには修正されないのか。それは媒体の構造的特性である。Webアプリケーションファイアウォールはリクエストを検査し、完全に有効なAPI呼び出しを見る。攻撃は言葉にある。個々のリクエストチェックはチェーン攻撃のすべてのステップを通過する。なぜなら、ダメージはシーケンス — ボリューム、繰り返し、時間に対する消費 — にあって、単一の呼び出しの中にあるのではない。

結論は不快だが明確である：AIセキュリティはモデルトレーニングの問題ではない。それはアーキテクチャの問題である—そしてそれは、企業が他のすべての本番システムに既に適用しているのと同じ規律で解決可能である。

防御はアーキテクチャ的です：ゲートウェイにおいて、2つのプレーン、6つのレイヤー。

上記のすべての攻撃は、スコープ外の権限に対しては成功し、スコープ内で監視・監査された権限に対しては失敗します。それらを封じ込めるには、制御する必要がある2つの異なるプレーン:

コンテンツ平面 — モデルが読み書きするもの。これはの仕事 Guardrails.

アクションプレーン — エージェントが何する：それが呼び出すツール、到達するネットワーク、使うお金。これはのFirewall。

一つの平面だけを監視する防御は、見出しを生む連鎖攻撃を見逃すでしょう。なぜなら、最も被害の大きいインシデントは両方にまたがるからです：インジェクションがコンテンツとして到着し、その後アクションとして現金化されます。OrcaRouterは、リクエストと後悔の間に、6つの独立した監査可能なレイヤーを配置します：

1. スコープ付きアイデンティティ — 各エージェントは、許可されたモデル、IP許可リスト、ハード支出上限、有効期限を含む独自のキーを介して呼び出します。範囲外のリクエストは、コンテンツが読み込まれる前に破棄されます。

2. 入力ガードレール — インジェクションおよびジェイルブレイクルール、PII検出とマスキング、機密情報のブロック、および、正規表現では捕捉できないものを検出するセマンティックLLM判定器。

3. アクションファイアウォール——すべてのツール呼び出し、MCP ディスパッチ、ネットワーク出力は、順序付きのデフォルト拒否ポリシーに照らして判定され、6つの判定: 許可、監査、拒否、サニタイズ（引数を編集して続行）、保留承認（人間のために不可逆的なステップを保留）、およびコスト上限（支出上限で実行を強制停止する）。乗っ取られたエージェントは、リストにないツール、ホスト、または1ドルにもアクセスできません。

4. 出力ガードレール — 応答は出力時に安全でない出力、PII、機密情報についてスクリーニングされ、グラウンディングチェックが行われます。これがEchoLeakの流出先URLを捕捉する層です前に去る。

5. 異常検知 — 行動ベースラインは、静的ルールでは予測できないものをフラグする: 同じコールが短い時間枠で繰り返し行われる、学習された曜日・時間帯のベースラインに対して支出が急増する、ワークスペースが一度も行ったことのないツール間の移行。

6. 署名監査 — すべてのマッチ、判定、承認、およびポリシー変更は、改ざん防止の証跡に記録され、エージェント実行とセッションごとに相関付けられ、証拠としてエクスポート可能です。

決定的な特性は配置。これらの制御はゲートウェイに存在し、リクエストパス内にあるため、アプリケーションコードではなく認証情報— あらゆるチームとフレームワークにわたって強制可能で、エージェントの書き換えは不要です。

自分たちの宿題は自分で採点しない。

セキュリティの主張は、その背後にある証拠と同じだけ価値がある。だから私たちは自社のものを公開している。OrcaRouterのGuardrailsとFirewallには、それらを評価する基準として80以上のオープンソースのレッドチームコーパス — それぞれが引用されライセンスされています:

HarmBench（MIT; ICML 2024）、JailbreakBench（NeurIPS 2024）、およびAdvBench（Zou et al., 2023）の有害行動と脱獄堅牢性の評価用；

NVIDIAのgarak (Apache-2.0)、オープンLLM脆弱性スキャナー、インジェクションおよびエンコーディング攻撃用；

AgentDojo（NeurIPS 2024）— 米国および英国のAI安全研究所が共同レッドチーミングで使用したエージェントプロンプトインジェクションベンチマーク — 特にアクションプレーンファイアウォールを評価するため；

TruthfulQAおよびグラウンディングと幻覚のためのその他。

OrcaRouter自身はオープンツールを直接統合しています：OSVは依存関係のCVE用、そしてSemgrepはプロンプトを通過するコード用です。ブラックボックスはありません。「信頼してください」もありません。

来たる監査のために構築されました

に2026年8月2日、EU AI法が完全に適用されるようになります、そして「見せて」が「教えて」に取って代わり、規制のベースラインとなります。同じ証拠重視の傾向が、SOC 2スコープ、サイバー保険の質問票、調達審査に広がっています。OrcaRouterは出荷します36のコンプライアンスフレームワークパック — OWASP LLM Top 10、NIST AI RMF、ISO/IEC 42001、EU AI Act、SOC 2、HIPAA、PCI DSS、GDPRを含む — これらはコントロールを作業スペースに具体化し、署名付き証拠を生成します。適切に配置された一つのコントロールレイヤーが、それらすべての証明書を一度に生成します。

今日発売されるもの — そしてなぜ無料なのか

OrcaRouter Firewall + Guardrails がすべてのユーザーに無料になりました。 同じAPIキー。コンソールの1つのスイッチ。コードの変更は不要。

私たちはそれらを意図的に無料にしました。報告書のデータはこの点について明白です：舗装された道路なしの禁止は生み出す より多くの シャドーAIを、少なくではなく―そしてシャドーAIはすでに引き起こしている 5件に1件の侵害を、67万ドルのプレミアムで (IBM, 2025)。有効な対策は技術的であると同時に経済的です： 統制された経路を最も容易な経路にすること。 追加料金を払い、手動で統合し、予算委員会に正当化しなければならない管理策は、ほとんどのチームがスキップする管理策です―そしてそれをスキップすることが、まさに組織がこの報告書があらかじめ説明したインシデント報告書を説明することになる方法です。

ですから、統合するものも購入するものもありません。既に使用しているキーにGuardrailsとファイアウォールポリシーをアタッチし、本番環境との接触に耐えるロールアウトに従います: 観察（監査モードで実行し、実際のトラフィックにベースラインを書き込ませる）、シャドウ（実際のポリシーをブロックモードで実行し、誤検知がゼロに近づくまで待つ）、そして実施（判定をライブで切り替え、真に不可逆的な操作には人間の承認を保留する）。ほとんどのチームは数週間で移行し—そして制御を維持します。

結論

2026年の脅威ランドスケープは、AI導入を遅らせる理由にはなりません。それはそれに対処するための運用マニュアルです。このレポートのすべての攻撃は、範囲外の権限を打ち負かし、範囲が定められ、監視され、監査された権限に対しては無力です。そして、その特性は今、ゲートウェイで、数週間で、無料で構築可能です。

レポート全文を読む： The AI Threat Report 2026 · オンにする： OrcaRouter 🐋