
AI đã trở thành bề mặt tấn công vào năm 2025. Vào năm 2026, chúng tôi đang làm cho việc phòng thủ trở nên miễn phí.
Tiêm prompt hiện là rủi ro số 1 đối với các ứng dụng LLM — và không thể vá được. Hôm nay, OrcaRouter Security Research đang phát hành miễn phí tường lửa Agent và các lan can đầu vào/đầu ra cho mọi người dùng: cùng một khóa API, một công tắc trong bảng điều khiển của bạn, không cần thay đổi mã. Đây là bối cảnh mối đe dọa khiến điều này trở nên bắt buộc — và kiến trúc kiểm soát nó.
Bởi OrcaRouter Security Research · Tháng 6 năm 2026
Vào tháng 6 năm 2025, những kẻ tấn công đã đánh cắp dữ liệu doanh nghiệp từ Microsoft 365 Copilot. Nạn nhân không làm gì sai. Họ không nhấp vào liên kết, mở tệp đính kèm hoặc chấp thuận lời nhắc. Họ nhận được một email. Trợ lý AI của họ sau đó đã đọc nó — và làm theo những hướng dẫn ẩn bên trong.EchoLeak (CVE-2025-32711), đã thu thập bối cảnh nhạy cảm từ thư, tệp và lịch sử trò chuyện và vận chuyển nó ra ngoài qua một URL hình ảnh tự động tải. Không cần nhấp chuột.
EchoLeak không phải là một ngoại lệ. Đó là một dấu hiệu báo trước. Một năm sau, chúng tôi có thể nói thẳng thắn những gì hồ sơ sự cố công khai hiện cho thấy: hệ thống AI của bạn là bề mặt tấn công của bạn, và hầu hết các tổ chức không thể nhìn thấy các cuộc tấn công nhắm vào chúng. Hôm nay chúng tôi công bố The AI Threat Report 2026 và, cùng với đó, phát hành hai biện pháp kiểm soát mà chúng tôi đã xây dựng để ngăn chặn các cuộc tấn công này — miễn phí, tại cổng kết nối, cho mọi người dùng OrcaRouter.
Năm mà các cuộc tấn công trở nên có chủ đích — và các vụ rò rỉ trở nên công nghiệp hóa
Hồ sơ sự cố năm 2026 đọc như một bài kiểm tra căng thẳng đối với mọi giả định mà bảo mật doanh nghiệp được xây dựng dựa trên:
- Chat & Ask AI đã để lộ khoảng 300 triệu tin nhắn trò chuyện riêng tư từ hơn 25 triệu người dùng bị lộ thông qua một cấu hình sai của Firebase (404 Media; Malwarebytes, tháng 1 năm 2026).
- Sears Home Services đã bị lộ 3.7 triệu bản ghi chat AI và ghi âm cuộc gọi — tên, địa chỉ, email — trong khoảng thời gian 2024–2026 (ExpressVPN; Cybernews, tháng 3/2026).
- Một kẻ tấn công đã kết hợp một CVE duy nhất (CVE-2026-39987 trong công cụ notebook marimo) thành một tác nhân LLM trực tiếp để trích xuất thông tin đăng nhập đám mây, lấy khóa SSH từ AWS Secrets Manager, và lấy cắp toàn bộ cơ sở dữ liệu PostgreSQL nội bộ trong vòng chưa đầy hai phút (Sysdig; The Hacker News, tháng 5 năm 2026).
- Microsoft và Salesforcecả hai đã phát hành bản vá cho lỗ hổng rò rỉ dữ liệu AI-agent. Trong CVE-2026-21520, một trường SharePoint bị nhiễm độc đã hướng Copilot gửi email dữ liệu khách hàng cho kẻ tấn công — và dữ liệu đã rời khỏi ngay cả sau khi cơ chế an toàn đánh dấu cuộc tấn công (Dark Reading).
Nền kinh tế bên dưới những tiêu đề này đã đảo ngược theo hướng có lợi cho kẻ tấn công. Dữ liệu đo từ xa từ các ứng dụng LLM sản xuất cho thấy cuộc tấn công thành công trung bình hoàn thành trong 42 giây, với 90% trong số đó làm rò rỉ dữ liệu nhạy cảm (Pillar Security). 13% tổ chức đã bị xâm phạm thông qua mô hình hoặc ứng dụng AI — và 97% trong số đó thiếu kiểm soát truy cập AI cơ bản (IBM, 2025). Bản tổng kết Q1 2026 của OWASP đã đưa ra số liệu về xu hướng: các cuộc tấn công tiêm prompt đã tăng 340% so với cùng kỳ năm trước.
Và một lớp tổn thất mới không cần bất kỳ vi phạm nào. Từ chối ví — một tác nhân bị chiếm quyền hoặc chạy tự do chỉ đơn thuầntiêu tiền — đã được ghi nhận đốt cháy$46,000 một ngày (Sysdig, "LLMjacking"). Không có dữ liệu nào bị đánh cắp. Chỉ có một hóa đơn.

Tại sao stack hiện tại của bạn không thể thấy bất kỳ phần nào của nó?
Bảo mật truyền thống giả định một ranh giới: bên trong đáng tin cậy, bên ngoài không đáng tin cậy, kiểm soát tại điểm giao nhau. Các mô hình ngôn ngữ xóa bỏ ranh giới đó, bởi vì đầu vào của mô hình cũng chính là cách lập trình của nó. Mọi email, tài liệu, trang web và kết quả công cụ mà một tác nhân đọc đều có thể mang theo các chỉ dẫn mà nó sẽ tuân theo. Không có cơ chế chung đáng tin cậy nào để các mô hình ngày nay phân tách nội dung để xử lý khỏi các lệnh phải tuân theo.
Đó là lý do tại sao prompt injection giữ vị trí số 1 trong OWASP Top 10 cho các ứng dụng LLM — và tại sao nó sẽ không được "vá" theo cách mà lỗi tràn bộ đệm được vá. Đó là một thuộc tính cấu trúc của phương tiện. Tường lửa ứng dụng web của bạn kiểm tra yêu cầu và thấy một lời gọi API hoàn toàn hợp lệ; cuộc tấn công nằm ở từ. Các kiểm tra trên mỗi yêu cầu của bạn vượt qua từng bước của một cuộc tấn công dây chuyền, bởi vì thiệt hại nằm ở chuỗi — khối lượng, sự lặp lại và chi tiêu theo thời gian — không phải trong bất kỳ một lời gọi nào.
Kết luận thật khó chịu nhưng rõ ràng: Bảo mật AI không phải là vấn đề huấn luyện mô hình. Nó là vấn đề kiến trúc — và nó có thể giải quyết với cùng kỷ luật mà các doanh nghiệp đã áp dụng cho mọi hệ thống sản xuất khác.

Phòng thủ có tính kiến trúc: hai mặt phẳng, sáu lớp, tại cổng kết nối.
Mọi cuộc tấn công ở trên đều thành công với quyền hạn không có phạm vi và thất bại với quyền hạn có phạm vi, được kiểm soát, được kiểm toán. Để ngăn chặn chúng cần kiểm soát hai mặt phẳng riêng biệt:
Mặt phẳng nội dung — những gì mô hình đọc và viết. Đây là công việc của Guardrails.
Mặt phẳng hành động — những gì tác nhân làm: các công cụ nó gọi, các mạng nó tiếp cận, số tiền nó chi tiêu. Đây là nhiệm vụ của Firewall.
Một hệ thống phòng thủ chỉ theo dõi một mặt phẳng sẽ bỏ lỡ các cuộc tấn công chuỗi tạo ra tin tức, bởi vì các sự cố nguy hiểm nhất vượt qua cả hai: một injection đến dưới dạng nội dung, sau đó chuyển thành hành động. OrcaRouter đặt sáu lớp độc lập, có thể kiểm tra giữa một yêu cầu và một hối tiếc:
1. Danh tính có phạm vi — mọi tác nhân gọi qua khóa riêng của nó mang theo các mô hình được phép, danh sách cho phép IP, giới hạn chi tiêu cứng và thời hạn. Một yêu cầu ngoài phạm vi sẽ chết trước khi bất kỳ nội dung nào được đọc.
2. Rào chắn đầu vào — các quy tắc injection và jailbreak, phát hiện và che giấu PII, ngăn chặn bí mật và một bộ đánh giá ngữ nghĩa LLM để phát hiện những gì regex không thể.
3. Tường lửa hành động — mọi lời gọi công cụ, phân phối MCP và truy cập mạng ra ngoài đều được đánh giá dựa trên chính sách có thứ tự, mặc định từ chối với sáu phán quyết: cho phép, kiểm toán, từ chối, làm sạch (che đối số và tiếp tục), chờ phê duyệt (giữ các bước không thể đảo ngược cho con người), và giới hạn chi phí (dừng cứng một lần chạy tại một ngưỡng chi tiêu). Một tác nhân bị chiếm quyền không thể truy cập vào một công cụ, một máy chủ, hoặc một đồng đô la mà bạn chưa từng liệt kê.
4. Rào chắn đầu ra — phản hồi được kiểm tra khi ra ngoài để phát hiện đầu ra không an toàn, PII và bí mật, kèm kiểm tra căn cứ. Đây là lớp bắt được URL rò rỉ dữ liệu của EchoLeak trước khi nó rời đi.
5. Phát hiện bất thường — các đường cơ sở hành vi xác định những gì các quy tắc tĩnh không thể dự đoán: cùng một cuộc gọi được thực hiện nhiều lần trong một khoảng thời gian ngắn, chi tiêu tăng đột biến so với đường cơ sở đã học theo giờ trong tuần, một chuyển đổi công cụ-công cụ mà không gian làm việc chưa từng thực hiện.
6. Kiểm toán đã ký — mọi kết quả khớp, phán quyết, phê duyệt và thay đổi chính sách đều được ghi lại trong một dấu vết chống giả mạo, được tương quan theo lần chạy tác nhân và phiên, có thể xuất dưới dạng bằng chứng.
Thuộc tính quyết định là vị trí. Các điều khiển này nằm ở gateway, trong đường dẫn yêu cầu, do đó chúng liên kết với thông tin xác thực thay vì mã ứng dụng — có thể thực thi trên mọi nhóm và khung làm việc, không cần viết lại tác nhân.
Chúng tôi không tự chấm bài tập về nhà của mình.
Các tuyên bố về bảo mật chỉ có giá trị tương đương với bằng chứng đằng sau chúng, vì vậy chúng tôi công khai bằng chứng của mình. OrcaRouter's Guardrails and Firewall đi kèm với một bộ đánh giá (evaluation harness) chấm điểm chúng dựa trên hơn 80 kho ngữ liệu red-team mã nguồn mở — tất cả đều được trích dẫn và cấp phép:
HarmBench (MIT; ICML 2024), JailbreakBench (NeurIPS 2024), và AdvBench (Zou et al., 2023) để đánh giá độ bền vững trước hành vi gây hại và tấn công phá rào;
NVIDIA's garak (Apache-2.0), trình quét lỗ hổng LLM mã nguồn mở, dành cho các cuộc tấn công tiêm nhiễm và mã hóa;
AgentDojo (NeurIPS 2024) — benchmark tiêm kích prompt cho agent mà US và UK AI Safety Institutes đã dùng trong red-teaming chung — để đánh giá cụ thể action-plane firewall;
TruthfulQA và các công cụ khác để đảm bảo tính căn cứ và giảm ảo giác.
OrcaRouter tự nó tích hợp các công cụ mở trực tiếp: OSV cho các lỗ hổng bảo mật của dependency và Semgrep cho mã nguồn truyền tải prompt. Không có hộp đen. Không có "hãy tin chúng tôi".

Được xây dựng cho cuộc kiểm toán sắp tới
Vào ngày 2 tháng 8 năm 2026, Đạo luật AI của EU có hiệu lực đầy đủ, và 'show me' thay thế 'tell me' làm cơ sở quy định. Cùng bản năng chứng cứ đó đang lan rộng qua các phạm vi SOC 2, bảng câu hỏi bảo hiểm mạng và đánh giá mua sắm. OrcaRouter cung cấp 36 gói khung tuân thủ — bao gồm OWASP LLM Top 10, NIST AI RMF, ISO/IEC 42001, EU AI Act, SOC 2, HIPAA, PCI DSS và GDPR — giúp hiện thực hóa các biện pháp kiểm soát vào không gian làm việc của bạn và tạo ra bằng chứng đã ký. Một lớp kiểm soát được đặt đúng chỗ sẽ tạo ra chứng thực cho tất cả chúng cùng một lúc.
Hôm nay ra mắt cái gì — và tại sao nó miễn phí
OrcaRouter Firewall + Guardrails are now free for every user. Khóa API tương tự. Một công tắc trong bảng điều khiển của bạn. Không cần thay đổi mã.
Chúng tôi cố tình tạo ra chúng miễn phí. Dữ liệu của báo cáo rất rõ ràng về điểm này: cấm đoán mà không có con đường trải nhựa sẽ tạo ra nhiều hơn AI ngầm, chứ không phải ít hơn — và AI ngầm đã gây ra một trong năm vụ vi phạm với chi phí bảo hiểm 670.000 đô la (IBM, 2025). Biện pháp khắc phục hiệu quả vừa mang tính kinh tế vừa mang tính kỹ thuật: hãy biến con đường được quản lý trở thành con đường dễ dàng nhất. Một biện pháp kiểm soát mà bạn phải trả thêm tiền, tích hợp thủ công và phải giải trình với ủy ban ngân sách là một biện pháp mà hầu hết các nhóm sẽ bỏ qua — và việc bỏ qua đó chính là cách các tổ chức kết thúc bằng việc giải thích các báo cáo sự cố mà báo cáo này đã mô tả trước.
Vậy không có gì để tích hợp và không có gì để mua. Bạn gắn Guardrails và chính sách Firewall vào khóa bạn đã sử dụng và làm theo quy trình triển khai có thể tồn tại khi tiếp xúc với sản xuất: quan sát (chạy ở chế độ kiểm toán và để lưu lượng thực tế của bạn ghi đường cơ sở), giả lập (chạy chính sách thực tế ở chế độ would-block cho đến khi các dương tính giả tiến gần đến 0), sau đó thực thi (chuyển đổi phán quyết trực tiếp, với sự phê duyệt của con người dành cho những thứ thực sự không thể đảo ngược). Hầu hết các nhóm chuyển đổi trong vài tuần — và giữ các kiểm soát được bật.
Điểm mấu chốt
Bối cảnh mối đe dọa năm 2026 không phải là lý do để làm chậm quá trình áp dụng AI. Nó là sổ tay vận hành để tồn tại trước những mối đe dọa đó. Mọi cuộc tấn công trong báo cáo này đều đánh bại quyền hạn không được xác định phạm vi và chết trước quyền hạn được xác định phạm vi, giám sát và kiểm toán — và đặc tính đó có thể xây dựng ngay bây giờ, tại cổng kết nối, trong vài tuần, miễn phí.
Đọc báo cáo đầy đủ: Báo cáo Mối đe dọa AI 2026 · Bật: OrcaRouter 🐋
