✦

OrcaRouter: Fusion Flash

orcarouter/fusion-flash

Económico

Texto de entrada · Texto de salida · 200K ctx

Calidad multimodelo con un presupuesto ajustado.

Obtener clave de API →▶ Probar en Playground </> Usar vía API

Resumen

Deja de esperar al próximo modelo: el siguiente salto de capacidad viene de un panel, no de un checkpoint. Fusion envía tus prompts más difíciles a varios modelos de vanguardia a la vez, y luego un juez sopesa dónde coinciden, detecta dónde se contradicen y devuelve la respuesta más sólida, contrastada con las demás. Recúrrelo para el trabajo que de verdad importa: razonamiento profundo, código difícil, investigación, crítica experta, allí donde equivocarse cuesta más que unas pocas generaciones extra.

Cómo funciona

Tu prompt

En paralelo

Gemini 3.5 Flash

MiniMax M2.7

GLM 5.1

Claude Opus 4.8juez

Mejor respuesta

Enrutar por tarea

La conversación informal va directamente a un modelo por defecto más económico. Las solicitudes de código, agente y uso de herramientas se distribuyen al panel: ahí es donde una segunda opinión realmente vale la pena.

Distribuir a un panel

Tu indicación llega a varios modelos de vanguardia a la vez: intentos independientes que captan, cada uno, lo que los demás pasan por alto.

Elegir la mejor respuesta

Un juez lee cada candidato y devuelve el más sólido — contrastado con los demás, no el primer intento de un solo modelo.

Solo cuando aporta valor. Fusion distribuye el panel en tareas de programación, agénticas, uso de herramientas y prompts complejos — la conversación casual va directamente a un modelo predeterminado más económico, así que pagas por el panel solo en las solicitudes donde una segunda opinión vale la pena.

Por qué un panel supera a un solo modelo

Un único modelo te da un solo intento con tu prompt — y ninguna forma de detectar cuándo se equivoca. Fusion ejecuta varios modelos de frontera sobre el mismo prompt a la vez, luego un juez independiente lee cada respuesta y devuelve la más sólida, verificándola contra las demás. El desacuerdo entre modelos potentes es una señal: pone en evidencia los casos difíciles donde un modelo por sí solo se equivocaría en silencio.

Modelo único

Un modelo, una respuesta. Sin segunda opinión — si está mal, lo publicas mal.

Enrutador automático

Elige un modelo por prompt para reducir costos. Selección más inteligente — pero sigue siendo una sola respuesta.

Fusion

Un panel responde en paralelo; un juez devuelve la más sólida, verificada contra el resto.

Panel + juez (Mixture-of-Agents)65.1%

Modelo único de primera línea (GPT-4o)57.5%

Tasa de victorias controlada por longitud en AlpacaEval 2.0 — un panel de modelos con un agregador supera a un único modelo de primera línea. Mixture-of-Agents, Wang et al. 2024

Modelos en este enrutador

Modelo	Rol	Contexto
Gemini 3.5 Flash	Panel	1M
MiniMax M2.7	Panel	204K
GLM 5.1	Panel	200K
Claude Opus 4.8	Juez	1M

¿Quieres otra combinación? Crea tu propio panel en el editor de Routing DSL.

Construido sobre el DSL de enrutamiento

Fusion no es un caso especial — es una configuración integrada de nuestro DSL de enrutamiento, un pequeño lenguaje en entorno controlado para definir exactamente cómo se enruta cada solicitud. Clona la plantilla «Fable 5 Level» y modifica el panel, el juez, la regla de habilitación o la forma en que se elige al ganador.

El mejor de NFusion predeterminado

Un modelo juez clasifica todos los candidatos y sirve el más sólido tal cual — nunca una fusión diluida.

Voto mayoritario

El panel vota sobre una respuesta estructurada — sin llamada adicional al juez.

Sintetizar

Un modelo agregador fusiona los candidatos en una respuesta mejorada (Mixture-of-Agents).

Pruebas superadas

Para código: gana el candidato cuyo parche realmente supera tu conjunto de pruebas.

Primero

Una carrera — gana el tramo de menor latencia, para cuando la velocidad es lo más importante.

Sin caja negra. Construye tu propio enrutador con el DSL y cada ramificación queda registrada — qué modelos compitieron, la latencia y el estado de cada tramo, y qué respuesta eligió el árbitro — para que puedas ver en la consola exactamente por qué ganó una respuesta.

Abrir el editor del DSL de enrutamiento →

Ejemplos de código

import os

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key=os.environ["ORCAROUTER_API_KEY"],
)

response = client.chat.completions.create(
    model="orcarouter/fusion-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Facturación

Como fusion ejecuta cada miembro del panel más un juez, una solicitud distribuida se factura como la suma de esas finalizaciones subyacentes en lugar de como un solo modelo, y solo en las solicitudes que realmente se distribuyen. Sin margen alguno.

Preguntas frecuentes

¿Qué es OrcaRouter: Fusion Flash?

Un enrutador multimodelo curado. En trabajo real ejecuta un panel de modelos en paralelo y un juez elige la mejor respuesta, contrastada con las demás; las solicitudes fáciles van a un modelo predeterminado más barato.

¿Cómo se factura?

Como la suma de los miembros del panel más el juez que realmente se ejecutó, solo en las solicitudes que se ramifican. Cero margen.

¿Fusion combina las respuestas entre sí?

No. El juez selecciona el candidato más sólido y lo devuelve tal cual — siempre obtienes la respuesta real de un modelo, nunca una versión promediada o mezclada.

¿Qué ocurre si uno de los modelos falla?

Los demás tramos siguen ejecutándose y el juez elige entre los que tuvieron éxito; el enrutamiento también hace failover al siguiente despliegue más adecuado, de modo que un problema puntual con un proveedor no hace fallar la solicitud.

¿Cada solicitud ejecuta el panel completo?

No — solo las tareas de programación, agénticas, uso de herramientas y prompts complejos se distribuyen al panel. El chat casual va a un modelo predeterminado más económico, por lo que se te factura el panel únicamente cuando una segunda opinión resulta útil.