AI在2025年成为了攻击面。2026年,我们将让防御免费。

AI在2025年成为了攻击面。2026年,我们将让防御免费。

发布日期

返回全部文章

提示注入现已成为LLM应用的头号风险——且无法通过补丁修复。今天,OrcaRouter安全研究团队向所有用户免费发布我们的智能体防火墙及输入/输出护栏功能:使用同一API密钥,只需在控制台中切换一个开关,无需修改任何代码。这是令其成为不可妥协的安全底线所面临的威胁格局——也是得以遏制这一风险的架构体系。

由 OrcaRouter Security Research · 2026年6月


2025年6月,攻击者从Microsoft 365 Copilot中窃取了企业数据。受害者未做任何错事——没有点击链接、打开附件或批准提示。他们只是收到了一封邮件。随后,他们的AI助手读取了该邮件——并执行了其中隐藏的指令。这一攻击链由Aim Security披露为EchoLeak (CVE-2025-32711),它从邮件、文件和聊天记录中收集敏感上下文,并通过自动加载的图片URL将其偷偷传出。零点击。

EchoLeak 并非孤例,而是一场预演。一年后的今天,我们可以直言不讳地指出——公开事件记录已清晰表明:你的AI系统就是你的攻击面,而绝大多数组织甚至无法察觉针对它们的攻击。今天,我们发布《AI威胁报告2026》,同时开源我们为遏制这些攻击而构建的两项控制措施——面向所有OrcaRouter用户,在网关处免费提供。

攻击变得自主化的一年——而泄露变得工业化

2026年的事件记录读起来就像是对企业安全所依赖的每一个假设的压力测试:

- 聊天与问答AI 大约有 来自超过2500万用户的3亿条私密聊天消息 因Firebase配置错误而泄露(404 Media;Malwarebytes,2026年1月)。

- Sears Home Services曝光了370万个AI聊天记录和通话录音——包括姓名、地址、电子邮件——时间跨度2024年至2026年(ExpressVPN;Cybernews,2026年3月)。

- 攻击者将一个单一CVE(CVE-2026-39987marimo笔记本工具中的漏洞)链接到一个实时LLM代理,该代理提取了云凭证,从AWS Secrets Manager中提取了SSH密钥,并窃取了整个内部PostgreSQL数据库在不到两分钟内 (Sysdig;The Hacker News,2026年5月)。

- 微软和Salesforce均发布了针对AI智能体数据泄露漏洞的补丁。在CVE-2026-21520,一个被投毒的SharePoint字段引导Copilot将客户数据通过邮件发送给攻击者——且数据仍然被泄露,即使安全机制标记了该攻击后(Dark Reading)。

这些头条新闻背后的经济形势已逆转,对攻击者有利。来自生产级LLM应用的遥测数据显示,一次成功的平均攻击在42秒内完成,并且其中90%会泄露敏感数据(Pillar Security)。13%的组织已经通过AI模型或应用遭到入侵——而且其中97%缺乏基本的AI访问控制(IBM,2025年)。OWASP的2026年第一季度综述为这一趋势提供了数据:提示注入攻击同比增长了340%。

并且一种新的损失类别根本不需要泄露。 拒绝钱包 — 一个被劫持或失控的智能体仅仅消费 — 已被观察到每天烧掉每天$46,000 (Sysdig, "LLMjacking")。没有数据被窃取。只有一张账单。


为什么你当前的堆栈看不到任何内容?

传统安全假设存在一个边界:内部可信,外部不可信,在接缝处进行控制。语言模型消解了那个边界,因为一个模型的输入也即其编程指令。每个代理读取的电子邮件、文档、网页和工具结果都可能携带其会遵循的指令。目前没有可靠且通用的机制让当今的模型分离待处理的内容需遵守的命令。

这就是为什么提示注入占据了 #1位置在LLM应用OWASP Top 10中 — 以及为什么它不会像缓冲区溢出那样被“修复”。这是媒介的结构性属性。你的Web应用防火墙检查请求,看到的是一个完全有效的API调用;攻击存在于 词语中。 你的每次请求检查都会通过连锁攻击的每一步,因为损害存在于 序列 — 数量、重复和随时间的花费 — 而不在于任何一次调用中。

结论令人不安但很明确:AI安全不是模型训练问题,而是架构问题——并且可以用企业已经应用于其他生产系统的同样原则来解决。


防御是架构性的:两个平面,六个层面,在网关处。

上述每一种攻击对无范围权限都会成功,而对有范围、受监管、经过审计的权限则会失败。遏制它们需要控制 两个不同的平面

内容平面——模型读取和写入的内容。这是的工作Guardrails

行动平面——智能体所:它调用的工具、它触及的网络、它花费的资金。这就是Firewall的工作。

只盯着一个平面的防御会错过产生头条新闻的连锁攻击,因为最具破坏性的事件跨越了两者:注入作为内容到达,然后兑现为行动。OrcaRouter 在请求与遗憾之间放置了六个独立、可审计的层。

1. 作用域身份 — 每个代理通过自己的密钥进行调用,该密钥携带允许的模型、IP允许列表、硬性支出上限和有效期。超出范围的请求在读取任何内容之前就会终止。

2. 输入护栏 — 注入和越狱规则、PII检测与掩码、秘密屏蔽,以及一个语义LLM判断器,用于捕获正则表达式无法检测的内容。

3. 动作防火墙——每次工具调用、MCP 分发和网络出口都根据有序的默认拒绝策略进行判断,包含六个判定允许、审计、拒绝、清理(修订参数并继续)、待审批(为人类保留不可逆步骤),以及成本上限(在支出上限处硬性停止运行)。被劫持的代理无法访问你从未列出的工具、主机或一分钱。

4. 输出护栏— 回复在传出时会被筛查不安全输出、PII 和机密信息,并进行接地检查。这一层会捕获 EchoLeak 的泄密 URL 之前它离开。

5. 异常检测— 行为基线标记出静态规则无法预测的情况:同一调用在紧密时间窗口内频繁触发,支出相对于按小时-周学习到的基线出现峰值,工作空间从未进行过的工具间转换。

6. 签名审计 — 每场匹配、裁决、审批与策略变更均记录在防篡改追踪链中,关联至代理运行与会话,可导出作为证据。

决定性的属性是放置。这些控制位于网关,在请求路径中,因此它们绑定到凭据而非应用程序代码——可在所有团队和框架中执行,无需代理重写。

我们不批改自己的作业

安全声明的价值完全取决于其背后的证据,因此我们将其公开。OrcaRouter的护栏和防火墙附带一个评估工具,对它们进行评分依据超过80个开源红队语料库——每一个都有引用和许可:

HarmBench(MIT;ICML 2024),JailbreakBench(NeurIPS 2024)以及AdvBench(Zou et al., 2023)用于有害行为和越狱鲁棒性测试;

NVIDIA的garak(Apache-2.0),开源LLM漏洞扫描器,用于注入和编码攻击;

AgentDojo(NeurIPS 2024)——美英人工智能安全研究所联合开展红队测试时使用的主体提示注入基准——旨在专门评估行动计划防火墙;

TruthfulQA以及其他用于事实依据和幻觉。

OrcaRouter 本身直接集成开放工具:OSV用于依赖项的CVE,以及Semgrep用于处理提示的代码。没有黑箱。不需要“信任我们”。


专为即将到来的审计打造

2026年8月2日起,欧盟人工智能法案全面生效,“展示给我”取代“告诉我”成为监管基线。同样的证据化思维正在渗透至SOC 2范围、网络保险问卷及采购审查中。OrcaRouter提供36个合规框架包——包括OWASP LLM十大风险、NIST AI RMF、ISO/IEC 42001、欧盟人工智能法案、SOC 2、HIPAA、PCI DSS和GDPR——这些框架将控制措施具体化到您的工作空间中,并生成已签署的证据。一个精心设置的控制层即可同时为所有框架提供认证证明。


今天发布什么——以及为什么它是免费的

OrcaRouter 防火墙和护栏现在对所有用户免费。 使用相同的 API 密钥。控制台中的一键切换。无需更改代码。

我们刻意让它们免费。报告的数据在这一点上毫无歧义:在没有铺平道路的情况下进行禁令,只会产生更多的影子AI,而非更少——而影子AI已经导致了五分之一的安全事件,每次违规带来67万美元的额外损失(IBM,2025年)。有效的补救措施既涉及技术层面,也涉及经济层面:让受管控的路径成为最轻松的路径。一项需要额外付费、手动集成、并向预算委员会解释其合理性的控制措施,大多数团队会选择跳过——而正是这种跳过,让组织最终不得不解释本报告已提前描述的那些事件报告。

因此,不需要集成任何东西,也不需要购买任何东西。您将 Guardrails 和防火墙策略附加到您已有的密钥上,并遵循能够经受生产环境考验的发布流程:观察(以审计模式运行,让您的真实流量写入基线),影子(以“将阻止”模式运行真实策略,直到误报接近零),然后强制执行(实时翻转判决结果,将人工审批保留给真正不可逆的操作)。大多数团队在数周内完成转换——并保持控制开启。


底线

2026年的威胁格局不是减缓AI采用的理由。它是应对该格局的生存手册。本报告中的每一次攻击都击败了无界权限,却死于有界、受监管、被审计的权限——而这一特性现在就可以构建,在网关上,几周内,免费。

阅读完整报告: 2026年AI威胁报告 · 开启: OrcaRouter 🐋