✦

OrcaRouter: Fusion Flash

orcarouter/fusion-flash

Economico

Testo in ingresso · Testo in uscita · 200K ctx

Qualità multi-modello a basso costo.

Ottieni chiave API →▶ Prova in Playground </> Usa tramite API

Panoramica

Smetti di aspettare il prossimo modello: il prossimo salto di capacità viene da un panel, non da un checkpoint. Fusion invia i tuoi prompt più difficili a diversi modelli di frontiera contemporaneamente, poi un giudice valuta dove concordano, individua dove si contraddicono e restituisce la risposta più solida — verificata in modo incrociato con le altre. Usalo per il lavoro che conta davvero — ragionamento profondo, coding difficile, ricerca, revisione di esperti — ovunque sbagliare costi più di qualche generazione in più.

Come funziona

Il tuo prompt

In parallelo

Gemini 3.5 Flash

MiniMax M2.7

GLM 5.1

Claude Opus 4.8giudice

Risposta migliore

Instradare in base al compito

Le conversazioni informali vanno direttamente a un modello predefinito più economico. Le richieste di codice, agente e uso di strumenti si distribuiscono al panel: è qui che una seconda opinione conviene davvero.

Distribuire a un panel

Il tuo prompt raggiunge più modelli di frontiera contemporaneamente — tentativi indipendenti che colgono ciascuno ciò che gli altri tralasciano.

Scegli la risposta migliore

Un giudice legge ogni candidato e restituisce quello più solido — verificato in modo incrociato con gli altri, non il primo tentativo di un singolo modello.

Solo dove serve. Fusion distribuisce il prompt al pannello per richieste di programmazione, agentiche, con strumenti e complesse — le conversazioni semplici vanno direttamente a un modello predefinito più economico, così paghi il pannello solo per le richieste in cui un secondo parere vale la pena.

Perché un pannello supera un singolo modello

Un singolo modello ti offre un solo tentativo per il tuo prompt — e nessun modo per accorgertene quando sbaglia. Fusion esegue più modelli di frontiera sullo stesso prompt contemporaneamente, poi un giudice indipendente legge ogni risposta e restituisce la più valida, confrontandola con le altre. Il disaccordo tra modelli forti è un segnale: mette in evidenza i casi difficili in cui un singolo modello sbaglierebbe in silenzio.

Modello singolo

Un modello, una risposta. Nessun secondo parere — se sbaglia, pubblichi l'errore.

Router automatico

Sceglie un modello per ogni prompt per ridurre i costi. Selezione più intelligente — ma sempre una sola risposta.

Fusion

Un pannello risponde in parallelo; un giudice restituisce la risposta più valida, confrontata con le altre.

Pannello + giudice (Mixture-of-Agents)65.1%

Singolo modello di punta (GPT-4o)57.5%

Tasso di vittoria controllato per lunghezza AlpacaEval 2.0 — un pannello di modelli con un aggregatore supera un singolo modello di punta. Mixture-of-Agents, Wang et al. 2024

Modelli in questo router

Modello	Ruolo	Contesto
Gemini 3.5 Flash	Pannello	1M
MiniMax M2.7	Pannello	204K
GLM 5.1	Pannello	200K
Claude Opus 4.8	Giudice	1M

Vuoi una combinazione diversa? Crea il tuo panel nell'editor Routing DSL.

Basato sul DSL di instradamento

Fusion non è un caso speciale — è una configurazione integrata del nostro DSL di instradamento, un linguaggio sandbox ridotto per definire esattamente come viene instradata ogni richiesta. Clona il template «Fable 5 Level» e modifica il pannello, il giudice, la regola di attivazione o il criterio di selezione del vincitore.

Migliore su NImpostazione predefinita Fusion

Un modello giudice classifica ogni candidato e restituisce il più valido testualmente — mai una fusione annacquata.

Voto di maggioranza

Il pannello vota su una risposta strutturata — senza chiamata aggiuntiva al giudice.

Sintesi

Un modello aggregatore fonde i candidati in un'unica risposta migliorata (Mixture-of-Agents).

Test superati

Per il codice: vince il candidato la cui patch supera effettivamente il tuo test harness.

Primo

Una gara — vince il segmento con la latenza più bassa, per quando la velocità è prioritaria.

Nessuna scatola nera. Costruisci il tuo router sul DSL e ogni distribuzione parallela viene registrata — quali modelli hanno gareggiato, la latenza e lo stato di ogni segmento, e quale risposta ha selezionato il giudice — così puoi vedere nella console esattamente perché una risposta ha vinto.

Apri l'editor DSL di instradamento →

Esempi di codice

import os

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key=os.environ["ORCAROUTER_API_KEY"],
)

response = client.chat.completions.create(
    model="orcarouter/fusion-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Fatturazione

Poiché fusion esegue ogni membro del panel più un giudice, una richiesta distribuita viene fatturata come la somma di quei completamenti sottostanti anziché come un singolo modello, e solo sulle richieste che si distribuiscono davvero. Nessun margine.

FAQ

Che cos'è OrcaRouter: Fusion Flash?

Un router multi-modello curato. Sul lavoro reale esegue un panel di modelli in parallelo e un giudice sceglie la risposta migliore, verificata in modo incrociato con le altre; le richieste semplici vanno a un modello predefinito più economico.

Come viene fatturato?

Come la somma dei membri del panel più il giudice effettivamente eseguito, solo sulle richieste che si diramano. Zero ricarico.

Fusion combina le risposte tra loro?

No. Il giudice sceglie il singolo candidato più valido e lo restituisce testualmente — ricevi sempre la risposta di un modello reale, mai una media o una fusione.

Cosa succede se uno dei modelli fallisce?

Gli altri segmenti continuano a girare e il giudice sceglie tra quelli riusciti; l'instradamento esegue anche il failover alla distribuzione successiva migliore, così un problema temporaneo di un provider non fa fallire la richiesta.

Ogni richiesta coinvolge l'intero pannello?

No — solo le richieste di codice, agentiche, che utilizzano strumenti e i prompt complessi vengono distribuite al pannello. Le conversazioni semplici vengono indirizzate a un modello predefinito più economico, quindi il pannello viene addebitato solo dove un secondo parere è utile.