生產環境中的模型融合:深入探討 OrcaRouter Fusion 與路由 DSL
三個前沿模型並行運作,得到一個答案。用一行程式碼呼叫——或自行組合。
TL;DR.Claude Fable 5 已被下架。答案不是更大的模型——而是一個面板:並行運行多個前沿模型,並讓裁判返回最強的答案。OrcaRouter 以兩種方式提供這個功能:內建的 orcarouter/fusion 路由器你可以像調用任何模型一樣調用它們,以及一個Routing DSL來組合你自己的路由。這是這兩種方式的實地指南——包括可直接複製貼上的範例、五種仲裁者(包括 synthesize,即 Mixture-of-Agents 融合),以及如何在不賭上你的 SLA 的情況下推出。
第1部分 — 一句話概括:內建的 Fusion 路由器
Fable 5 已停用並受到限制,因此不再廣泛可調用。Fusion 從您仍可調用的模型重建該層級——一個即插即用、相容 OpenAI 的路由器,可平行執行一組前沿模型並回傳最強的答案。每個工作空間都配備三個精選層級:
三個Fusion層級 (面板組合 × 上下文窗口)
Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro
上下文窗口: 1,000,000
最適合:Fable-5 等級最高智能
Claude Opus 4.8 + GPT-5.5
上下文窗口: 1,000,000
最適合:Fable-5 層級平衡推理
Gemini 3.5 Flash + MiniMax M2.7 + GLM 5.1
上下文窗口:200,000
最適合:Fable-5 等級快速且廉價的推理
(上下文視窗 = 最小面板成員的——扇出的約束條件。)
這些不是行銷標語;它們是預先編譯的DSL路由器,並集中管理。以下是實際的orcarouter/fusion程式,原文如下:
version: 1
rules:
- id: hard_panel
when: task_class == "code" || task_class == "agent" || code_keyword_density >= 0.3 || has_tools || difficulty >= 0.3
use:
parallel:
- { model: "anthropic/claude-opus-4.8" }
- { model: "openai/gpt-5.5" }
- { model: "google/gemini-3.1-pro-preview" }
arbiter:
strategy: best_of_n
model: "anthropic/claude-opus-4.8"
template: best_answer_v1
max_latency_ms: 120000
default:
delegate: balanced兩個值得指出的設計選擇:
它只在实际工作中展開。 when: 閘門會針對代碼、代理、工具使用、代碼密集或高難度(difficulty >= 0.3)的提示觸發面板;其他所有內容則落入工作區的 balanced 預設。你只需在真正需要的地方支付面板價格,而不是在「hi」這類問題上。
The judge serves a real answer, verbatim. best_of_n runs an LLM judge (here, Opus 4.8 with the best_answer_v1 template) that picks the single strongest candidate and serves it as-is — never a diluted merge. The output is always a real model's answer.
第2部分 — 選擇與融合:best_of_n 與 synthesize 仲裁器
Fusion路由器選擇。但OrcaRouter也提供了一個融合策略——綜合,這個Mixture-of-Agents模式添加在路由引擎(service/dispatch_parallel/synthesize.go)。差異是關鍵:
附件2 — 選擇 vs. 融合
best_of_n (SELECT) synthesize (FUSE)
┌─ Opus 4.8 ─┐ ┌─ Opus 4.8 ─┐
├─ GPT-5.5 ─┼─► judge picks leg k ├─ GPT-5.5 ─┼─► aggregator LLM writes
└─ Gemini ─┘ └─► serve leg k verbatim └─ Gemini ─┘ ONE new fused answer
output = a real model's answer output = a new answer better than any leg真正融合的食譜:
use:
parallel:
- { model: "anthropic/claude-opus-4.8" }
- { model: "openai/gpt-5.5" }
- { model: "google/gemini-3.1-pro-preview" }
arbiter:
strategy: synthesize
model: "anthropic/claude-opus-4.8" # aggregator: fuses candidates into one new answer
template: synthesize_v1誠實的注意事項:
- 計費為 N+1 — 每一段線路均計費,再加上匯集器作為額外的通話。
- 僅在 V1 中為 OpenAI 聊天格式 — 聚合器輸出 OpenAI 聊天完成;Claude/Gemini 原生 客戶端降級為先成功即服務(分段仍計費)。
聚合器必須在路由器的授權候選集合中,否則它會降級。
何時該使用哪一種:best_of_n當單一模型的答案很可能完全正確(程式碼、事實性問答)— 你想要一個乾淨、真實的答案。synthesize當答案互補時(研究、分析、長篇)且合併優勢勝過任何單一見解。
第3部分 — 自行建立:路由 DSL 實戰手冊
不想要精选面板?從 "Claude Fable 5 Level" 模板在 Routing DSL 編輯器中(它們隨每個工作區提供,並鏡像 Fusion 路由器),然後進行定製。六個複製貼上模式:
1 — 實際運行的程式碼 → 分散,讓 測試 挑選優勝者:
- id: hard_code
when: task_class == "code" && difficulty > 0.6
use:
parallel:
- { model: "anthropic/claude-opus-4.8", thinking_budget_tokens: 16000 }
- { model: "openai/gpt-5.5", reasoning_effort: high }
- { model: "google/gemini-3.1-pro-preview" }
arbiter: { strategy: tests_pass }tests_pass 是以執行為基礎的——它服務於通過你測試框架的候選者,無需判斷 LLM。
2 — 停止為簡單的提示支付過多費用 → 難度門檻 (Fusion模式, 你的模型):
- id: easy
when: difficulty < 0.3
use: { delegate: cheapest }
- id: hard
when: difficulty >= 0.3
use:
parallel:
- { model: "anthropic/claude-opus-4.8" }
- { model: "openai/gpt-5.5" }
arbiter: { strategy: best_of_n, model: "anthropic/claude-opus-4.8", template: best_answer_v1 }3 — 保持長時間的代理運行在軌道上 → 僅在搖晃時升級:
- id: agent
when: task_class == "agent" && agent_state.consecutive_errors == 0
use: { model: "anthropic/claude-sonnet-4.6", affinity_ttl: "5m" }
on_low_confidence:
signals: [next_turn_test_failed, self_doubt]
use: { model: "anthropic/claude-opus-4.8", thinking_budget_tokens: 24000 }4 — 讓不穩定的輸出變得可預測 → 投票,在分裂時升級:
- id: extract
when: task_class == "rag"
use:
parallel:
- { model: "anthropic/claude-opus-4.8" }
- { model: "openai/gpt-5.5" }
- { model: "google/gemini-3.1-pro-preview" }
arbiter: { strategy: majority }
on_disagreement: { model: "anthropic/claude-opus-4.8", thinking_budget_tokens: 32000 }5 — 克服尾部延遲與提供商故障 → 競速,服務第一個回應者:
- id: race
when: request.stream == true && difficulty < 0.5
use:
parallel:
- { model: "google/gemini-3.5-flash" }
- { model: "minimax/minimax-m2.7" }
- { model: "z-ai/glm-5.1" }
arbiter: { strategy: first }6 — 在不押注SLA的情況下推出 → 影子(與即時流量一起評估,記錄它會選擇+成本差異,提供即時選擇) → 金絲雀 %(dsl_canary_pct 5 → 25 → 100,每個請求加密隨機)。在測量到差異時遷移,立即回滾。
速查表:五位仲裁者

經濟學與誠實
難度門控的扇出保持帳單平穩 (示意;成本 = 實際代幣價格計算) — 混合成本 = 簡單份額 × 便宜 + 困難份額 × 面板:

一個70%簡易的工作量可運行整個面板,費用為 全面板帳單的三分之一。
