✦

OrcaRouter: Fusion Flash

orcarouter/fusion-flash

Tiết kiệm

Văn bản vào · Văn bản ra · 200K ctx

Chất lượng đa mô hình trong tầm ngân sách.

Lấy khóa API →▶ Thử trong Playground </> Dùng qua API

Tổng quan

Đừng chờ mô hình tiếp theo — bước nhảy năng lực kế tiếp đến từ một nhóm mô hình, không phải một bản cập nhật. Fusion gửi các prompt khó nhất của bạn đến nhiều mô hình tiên tiến cùng lúc, rồi một trọng tài cân nhắc nơi chúng đồng thuận, phát hiện nơi chúng mâu thuẫn và trả về câu trả lời mạnh nhất — được đối chiếu chéo với những câu còn lại. Hãy dùng nó cho công việc thực sự quan trọng — suy luận sâu, lập trình khó, nghiên cứu, đánh giá chuyên gia — bất cứ nơi nào mà sai sót tốn kém hơn vài lần tạo thêm.

Cách hoạt động

Câu lệnh của bạn

Song song

Gemini 3.5 Flash

MiniMax M2.7

GLM 5.1

Claude Opus 4.8trọng tài

Câu trả lời tốt nhất

Định tuyến theo tác vụ

Trò chuyện thông thường được chuyển thẳng đến một mô hình mặc định rẻ hơn. Các yêu cầu lập trình, tác nhân và dùng công cụ mới được phân nhánh đến hội đồng — nơi ý kiến thứ hai thực sự xứng đáng.

Phân nhánh đến một hội đồng

Prompt của bạn đến với nhiều mô hình tiên tiến cùng lúc — những nỗ lực độc lập, mỗi cái bắt được điều mà những cái khác bỏ sót.

Chọn câu trả lời tốt nhất

Một trọng tài đọc mọi câu trả lời ứng viên và trả về câu mạnh nhất — được đối chiếu chéo với những câu còn lại, không phải bản đầu tiên của một mô hình đơn lẻ.

Chỉ khi thực sự cần thiết. Fusion gửi câu lệnh đến toàn bộ nhóm mô hình cho các tác vụ lập trình, tác nhân tự động, sử dụng công cụ và các câu lệnh phức tạp — trò chuyện thông thường đi thẳng đến mô hình mặc định rẻ hơn, vì vậy bạn chỉ trả tiền cho nhóm mô hình khi ý kiến thứ hai thực sự mang lại giá trị.

Tại sao một nhóm mô hình vượt trội hơn một mô hình đơn lẻ

Một mô hình đơn lẻ chỉ cho bạn một lần thử với câu lệnh — và không có cách nào phát hiện khi nó sai. Fusion chạy nhiều mô hình tiên tiến trên cùng một câu lệnh cùng lúc, sau đó một mô hình phán xét độc lập đọc toàn bộ câu trả lời và trả về câu trả lời mạnh nhất, được đối chiếu với các câu trả lời còn lại. Sự bất đồng giữa các mô hình mạnh là tín hiệu có giá trị: nó làm lộ ra những trường hợp khó mà chỉ một mô hình đơn lẻ sẽ âm thầm trả lời sai.

Mô hình đơn lẻ

Một mô hình, một câu trả lời. Không có ý kiến thứ hai — nếu sai, bạn sẽ dùng kết quả sai đó.

Bộ định tuyến tự động

Chọn một mô hình cho mỗi câu lệnh để tiết kiệm chi phí. Lựa chọn thông minh hơn — nhưng vẫn chỉ là một câu trả lời duy nhất.

Fusion

Một nhóm mô hình trả lời song song; mô hình phán xét trả về câu trả lời mạnh nhất, được đối chiếu với các câu trả lời còn lại.

Nhóm mô hình + phán xét (Mixture-of-Agents)65.1%

Mô hình hàng đầu đơn lẻ (GPT-4o)57.5%

Tỷ lệ thắng có kiểm soát độ dài AlpacaEval 2.0 — một nhóm mô hình với bộ tổng hợp đạt điểm cao hơn một mô hình hàng đầu đơn lẻ. Mixture-of-Agents, Wang et al. 2024

Các mô hình trong bộ định tuyến này

Mô hình	Vai trò	Ngữ cảnh
Gemini 3.5 Flash	Bảng phân tích	1M
MiniMax M2.7	Bảng phân tích	204K
GLM 5.1	Bảng phân tích	200K
Claude Opus 4.8	Trọng tài	1M

Muốn một tổ hợp khác? Tự tạo panel của bạn trong trình chỉnh sửa Routing DSL.

Xây dựng trên DSL định tuyến

Fusion không phải là trường hợp đặc biệt — đây là cấu hình tích hợp sẵn của DSL định tuyến, một ngôn ngữ nhỏ được sandbox hóa để định nghĩa chính xác cách mỗi yêu cầu được định tuyến. Sao chép mẫu "Fable 5 Level" và thay đổi nhóm mô hình, mô hình phán xét, quy tắc kiểm soát, hoặc cách chọn ra câu trả lời thắng.

Tốt nhất trong NMặc định Fusion

Mô hình phán xét xếp hạng mọi ứng viên và trả về câu trả lời mạnh nhất nguyên vẹn — không bao giờ là kết quả pha trộn bị loãng.

Bỏ phiếu đa số

Nhóm mô hình bỏ phiếu cho một câu trả lời có cấu trúc — không cần thêm lượt gọi mô hình phán xét.

Tổng hợp

Một mô hình tổng hợp kết hợp các ứng viên thành một câu trả lời cải tiến duy nhất (Mixture-of-Agents).

Vượt qua kiểm thử

Dành cho mã nguồn: ứng viên nào có bản vá thực sự vượt qua bộ kiểm thử của bạn sẽ thắng.

Đầu tiên

Một cuộc đua — nhánh có độ trễ thấp nhất thắng, dành cho khi tốc độ là ưu tiên hàng đầu.

Không có hộp đen. Xây dựng bộ định tuyến của riêng bạn trên DSL và mọi luồng song song đều được ghi lại — những mô hình nào đã cạnh tranh, độ trễ và trạng thái của từng chặng, cùng câu trả lời nào được bộ phán xét chọn — để bạn có thể thấy ngay trong bảng điều khiển tại sao một câu trả lời được chọn thắng.

Mở trình chỉnh sửa DSL định tuyến →

Mã ví dụ

import os

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key=os.environ["ORCAROUTER_API_KEY"],
)

response = client.chat.completions.create(
    model="orcarouter/fusion-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Tính phí

Vì fusion chạy mọi thành viên hội đồng cộng với một giám khảo, một yêu cầu phân nhánh được tính phí bằng tổng của các phần hoàn thành nền tảng đó thay vì một mô hình duy nhất — và chỉ trên các yêu cầu thực sự được phân nhánh. Không tính thêm phí.

Câu hỏi thường gặp

OrcaRouter: Fusion Flash là gì?

Một bộ định tuyến đa mô hình được tuyển chọn. Với công việc thực tế, nó chạy song song một nhóm mô hình và một trọng tài chọn câu trả lời tốt nhất, được đối chiếu chéo với những câu còn lại; các yêu cầu đơn giản đi đến mô hình mặc định rẻ hơn.

Tính phí như thế nào?

Bằng tổng các thành viên panel cộng với trọng tài thực sự đã chạy, chỉ trên các yêu cầu có fan-out. Không cộng phí.

Fusion có gộp các câu trả lời lại với nhau không?

Không. Mô hình phán xét chọn ứng viên mạnh nhất duy nhất và trả về nguyên vẹn — bạn luôn nhận được câu trả lời thực của một mô hình, không bao giờ là kết quả trung bình hay pha trộn.

Điều gì xảy ra nếu một trong các mô hình gặp lỗi?

Các nhánh còn lại vẫn tiếp tục chạy và mô hình phán xét chọn từ những nhánh thành công; hệ thống định tuyến cũng tự động chuyển sang triển khai tốt nhất tiếp theo, vì vậy một sự cố của nhà cung cấp không làm thất bại toàn bộ yêu cầu.

Mỗi yêu cầu có chạy toàn bộ bảng phân tích không?

Không — chỉ những yêu cầu liên quan đến lập trình, tác nhân tự động, sử dụng công cụ và câu lệnh phức tạp mới được phân tán ra toàn bảng. Trò chuyện thông thường sẽ dùng mô hình mặc định rẻ hơn, do đó bạn chỉ bị tính phí cho bảng phân tích khi ý kiến thứ hai thực sự có ích.