✦

OrcaRouter: Fusion Flash

orcarouter/fusion-flash

经济

文本输入 · 文本输出 · 200K ctx

以预算价获得多模型品质。

获取 API 密钥 →▶ 在 Playground 中试用 </> 通过 API 使用

概览

别再等下一个模型了——能力的下一跃来自一组模型的协作,而不是一次版本更新。Fusion 把你最难的 prompt 同时发给多个前沿模型,再由裁判权衡它们的共识、捕捉它们的分歧,返回其中最强的那一份答案——并与其余交叉核对。把它用在真正重要的工作上——深度推理、硬核编码、研究、专家评审——任何“答错的代价远高于多跑几次”的场景。

工作原理

您的提示词

并行处理

Gemini 3.5 Flash

MiniMax M2.7

GLM 5.1

Claude Opus 4.8裁判

最优答案

按任务路由

闲聊直接交给成本更低的默认模型。编程、智能体和调用工具的请求才会展开到组——在这些场景里第二意见才真正划算。

并行展开到一组模型

你的提示会同时命中多个前沿模型——彼此独立的尝试，各自补上其他模型漏掉的地方。

挑出最佳答案

裁判读完每一个候选答案,返回其中最强的那一份——与其余答案交叉核对,而不是单个模型的初版。

仅在必要时启用。 Fusion 会在编程、智能体、工具调用及高难度提示词场景下将请求分发至面板——普通闲聊则直接路由至更经济的默认模型，让您只在真正需要第二意见的请求上为面板付费。

为什么面板优于单一模型

单一模型只能对您的提示词给出一次尝试，且无法在出错时自我纠正。Fusion 会同时对同一提示词运行多个前沿模型，再由独立裁判模型读取所有答案，并将其与其他答案交叉验证后返回最优结果。强模型之间的分歧本身就是信号——它能暴露出单一模型会悄然答错的疑难案例。

单一模型

一个模型，一个答案。没有第二意见——答错了就直接输出错误结果。

自动路由

为每条提示词择优选取一个模型以降低成本。选择更智能，但答案仍然只有一个。

Fusion

面板并行作答，裁判模型交叉验证后返回最优答案。

面板 + 裁判（Mixture-of-Agents）65.1%

单一顶级模型（GPT-4o）57.5%

AlpacaEval 2.0 长度控制胜率——带聚合器的模型面板得分高于单一顶级模型。 Mixture-of-Agents，Wang et al. 2024

本路由器中的模型

模型	角色	上下文
Gemini 3.5 Flash	面板	1M
MiniMax M2.7	面板	204K
GLM 5.1	面板	200K
Claude Opus 4.8	评审	1M

想换个组合?在路由 DSL 编辑器里自建你的 panel。

基于路由 DSL 构建

Fusion 并非特殊处理——它是我们路由 DSL 的内置配置。路由 DSL 是一种小型沙箱语言，用于精确定义每条请求的路由方式。克隆"Fable 5 Level"模板，即可自由调整面板成员、裁判模型、触发规则或胜者选取方式。

N 选最优Fusion 默认配置

裁判模型对所有候选答案排名，原文返回最优结果——绝不输出稀释后的合并内容。

多数投票

面板对结构化答案进行投票，无需额外调用裁判模型。

综合归纳

由聚合器模型将候选答案融合为一个更优的结果（Mixture-of-Agents）。

测试通过

针对代码场景：补丁实际通过您测试套件的候选答案获胜。

最快响应

竞速模式——延迟最低的分支获胜，适用于速度优先的场景。

全程透明，没有黑箱。 在 DSL 上构建您自己的路由器，每次扇出都会被完整记录——包括参与竞速的模型、每一段的延迟与状态，以及评判器最终选择了哪个答案——让您在控制台中一目了然地看到某个答案胜出的确切原因。

打开路由 DSL 编辑器 →

代码示例

import os

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key=os.environ["ORCAROUTER_API_KEY"],
)

response = client.chat.completions.create(
    model="orcarouter/fusion-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

计费

由于 fusion 会运行每个组成员加一个裁判，一次并行展开的请求会按这些底层补全的总和计费，而非单个模型——且仅对真正展开的请求收费。零加价。

常见问题

什么是 OrcaRouter: Fusion Flash？

一个策展的多模型路由。处理真实工作时,它并行运行一组模型,再由裁判挑出最佳的那一份答案,并与其余交叉核对;简单请求走更便宜的默认模型。

如何计费？

按它实际跑过的 panel 成员 + 裁判求和计费,且只在扇出的请求上收费。零加价。

Fusion 会将答案合并在一起吗？

不会。裁判模型会选取唯一最优的候选答案并原文返回——您得到的始终是真实模型的输出，而非平均或混合后的结果。

如果其中一个模型失败了怎么办？

其他分支仍会继续运行，裁判模型从成功返回的结果中择优；路由系统也会自动故障转移至次优部署，确保单个服务商的异常不会导致整个请求失败。

每个请求都会调用整个模型组吗？

不会——只有编程、智能体、工具调用和高难度提示才会分发至多个模型。日常对话会路由到更经济的默认模型，因此只有在需要多方参考时，您才会被计费至模型组。