生產環境中的模型融合：深入探討 OrcaRouter Fusion 與路由 DSL

發佈日期

Jun 15, 2026

基準測試：Artificial Analysis · 每日更新

三個前沿模型並行運作，得到一個答案。用一行程式碼呼叫——或自行組合。

TL;DR.Claude Fable 5 已被下架。答案不是更大的模型——而是一個面板：並行運行多個前沿模型，並讓裁判返回最強的答案。OrcaRouter 以兩種方式提供這個功能：內建的 orcarouter/fusion 路由器你可以像調用任何模型一樣調用它們，以及一個Routing DSL來組合你自己的路由。這是這兩種方式的實地指南——包括可直接複製貼上的範例、五種仲裁者（包括 synthesize，即 Mixture-of-Agents 融合），以及如何在不賭上你的 SLA 的情況下推出。

第1部分 — 一句話概括：內建的 Fusion 路由器

Fable 5 已停用並受到限制，因此不再廣泛可調用。Fusion 從您仍可調用的模型重建該層級——一個即插即用、相容 OpenAI 的路由器，可平行執行一組前沿模型並回傳最強的答案。每個工作空間都配備三個精選層級：

三個Fusion層級 (面板組合 × 上下文窗口)

orcarouter/fusion

Claude Opus 4.8 + GPT-5.5 + Gemini 3.1 Pro

上下文窗口: 1,000,000

最適合：Fable-5 等級最高智能

orcarouter/fusion-mini

Claude Opus 4.8 + GPT-5.5

上下文窗口: 1,000,000

最適合：Fable-5 層級平衡推理

orcarouter/fusion-flash

Gemini 3.5 Flash + MiniMax M2.7 + GLM 5.1

上下文窗口：200,000

最適合：Fable-5 等級快速且廉價的推理

(上下文視窗 = 最小面板成員的——扇出的約束條件。)

這些不是行銷標語；它們是預先編譯的DSL路由器，並集中管理。以下是實際的orcarouter/fusion程式，原文如下：

version: 1
rules:
  - id: hard_panel
    when: task_class == "code" || task_class == "agent" || code_keyword_density >= 0.3 || has_tools || difficulty >= 0.3
    use:
      parallel:
        - { model: "anthropic/claude-opus-4.8" }
        - { model: "openai/gpt-5.5" }
        - { model: "google/gemini-3.1-pro-preview" }
      arbiter:
        strategy: best_of_n
        model: "anthropic/claude-opus-4.8"
        template: best_answer_v1
      max_latency_ms: 120000
default:
  delegate: balanced

兩個值得指出的設計選擇：

它只在实际工作中展開。 when: 閘門會針對代碼、代理、工具使用、代碼密集或高難度（difficulty >= 0.3）的提示觸發面板；其他所有內容則落入工作區的 balanced 預設。你只需在真正需要的地方支付面板價格，而不是在「hi」這類問題上。

評判者原樣提供真實答案。 best_of_n 運行一個 LLM 評判者（此處為 Opus 4.8 搭配 best_answer_v1 模板），該評判者 選出最強的單一候選項並原樣輸出——絕非稀釋後的合併。輸出始終是某個真實模型的答案。

第2部分 — 選擇與融合：best_of_n 與 synthesize 仲裁器

Fusion路由器選擇。但OrcaRouter也提供了一個融合策略——綜合，這個Mixture-of-Agents模式添加在路由引擎（service/dispatch_parallel/synthesize.go）。差異是關鍵：

附件2 — 選擇 vs. 融合

best_of_n (SELECT)                         synthesize (FUSE)
 ┌─ Opus 4.8  ─┐                            ┌─ Opus 4.8  ─┐
 ├─ GPT-5.5   ─┼─► judge picks leg k        ├─ GPT-5.5   ─┼─► aggregator LLM writes
 └─ Gemini    ─┘   └─► serve leg k verbatim └─ Gemini    ─┘   ONE new fused answer
   output = a real model's answer             output = a new answer better than any leg

真正融合的食譜：

use:
  parallel:
    - { model: "anthropic/claude-opus-4.8" }
    - { model: "openai/gpt-5.5" }
    - { model: "google/gemini-3.1-pro-preview" }
  arbiter:
    strategy: synthesize
    model: "anthropic/claude-opus-4.8"   # aggregator: fuses candidates into one new answer
    template: synthesize_v1

誠實的注意事項：

- 計費為 N+1 — 每一段線路均計費，再加上匯集器作為額外的通話。

- 僅在 V1 中為 OpenAI 聊天格式 — 聚合器輸出 OpenAI 聊天完成；Claude/Gemini 原生客戶端降級為先成功即服務（分段仍計費）。

聚合器必須在路由器的授權候選集合中，否則它會降級。

何時該使用哪一種：best_of_n當單一模型的答案很可能完全正確（程式碼、事實性問答）— 你想要一個乾淨、真實的答案。synthesize當答案互補時（研究、分析、長篇）且合併優勢勝過任何單一見解。

第3部分 — 自行建立：路由 DSL 實戰手冊

不想要精选面板？從 "Claude Fable 5 Level" 模板在 Routing DSL 編輯器中（它們隨每個工作區提供，並鏡像 Fusion 路由器），然後進行定製。六個複製貼上模式：

1 — 實際運行的程式碼 → 分散，讓測試挑選優勝者：

- id: hard_code
  when: task_class == "code" && difficulty > 0.6
  use:
    parallel:
      - { model: "anthropic/claude-opus-4.8", thinking_budget_tokens: 16000 }
      - { model: "openai/gpt-5.5", reasoning_effort: high }
      - { model: "google/gemini-3.1-pro-preview" }
    arbiter: { strategy: tests_pass }

tests_pass 是以執行為基礎的——它服務於通過你測試框架的候選者，無需判斷 LLM。

2 — 停止為簡單的提示支付過多費用 → 難度門檻 (Fusion模式, 你的模型):

- id: easy
  when: difficulty < 0.3
  use: { delegate: cheapest }
- id: hard
  when: difficulty >= 0.3
  use:
    parallel:
      - { model: "anthropic/claude-opus-4.8" }
      - { model: "openai/gpt-5.5" }
    arbiter: { strategy: best_of_n, model: "anthropic/claude-opus-4.8", template: best_answer_v1 }

3 — 保持長時間的代理運行在軌道上 → 僅在搖晃時升級:

- id: agent
  when: task_class == "agent" && agent_state.consecutive_errors == 0
  use: { model: "anthropic/claude-sonnet-4.6", affinity_ttl: "5m" }
  on_low_confidence:
    signals: [next_turn_test_failed, self_doubt]
    use: { model: "anthropic/claude-opus-4.8", thinking_budget_tokens: 24000 }

4 — 讓不穩定的輸出變得可預測 → 投票，在分裂時升級：

- id: extract
  when: task_class == "rag"
  use:
    parallel:
      - { model: "anthropic/claude-opus-4.8" }
      - { model: "openai/gpt-5.5" }
      - { model: "google/gemini-3.1-pro-preview" }
    arbiter: { strategy: majority }
    on_disagreement: { model: "anthropic/claude-opus-4.8", thinking_budget_tokens: 32000 }

5 — 克服尾部延遲與提供商故障 → 競速，服務第一個回應者：

- id: race
  when: request.stream == true && difficulty < 0.5
  use:
    parallel:
      - { model: "google/gemini-3.5-flash" }
      - { model: "minimax/minimax-m2.7" }
      - { model: "z-ai/glm-5.1" }
    arbiter: { strategy: first }

6 — 在不押注SLA的情況下推出 → 影子（與即時流量一起評估，記錄它會選擇+成本差異，提供即時選擇） → 金絲雀 %（dsl_canary_pct 5 → 25 → 100，每個請求加密隨機）。在測量到差異時遷移，立即回滾。

速查表：五位仲裁者

經濟學與誠實

難度門控的扇出保持帳單平穩 (示意；成本 = 實際代幣價格計算) — 混合成本 = 簡單份額 × 便宜 + 困難份額 × 面板:

一個70%簡易的工作量可運行整個面板，費用為 全面板帳單的三分之一。

本文中的比較1

Anthropic: Claude Opus 4.8對陣OpenAI: GPT-5.556智能5574程式75$5.00每百萬輸入$5.00比較一併討論

根據本文內容識別 · 基準測試：Artificial Analysis · 每日更新