✦

OrcaRouter: Fusion Flash

orcarouter/fusion-flash

Économique

Texte en entrée · Texte en sortie · 200K ctx

La qualité multi-modèles à petit prix.

Obtenir une clé API →▶ Essayer dans le Playground </> Utiliser via API

Aperçu

N'attendez plus le prochain modèle — le prochain bond de capacité vient d'un panel, pas d'un point de contrôle. Fusion envoie vos requêtes les plus difficiles à plusieurs modèles de pointe à la fois, puis un juge pèse leurs accords, repère leurs contradictions et renvoie la réponse la plus solide — vérifiée par recoupement avec les autres. Utilisez-le pour le travail qui compte vraiment — raisonnement approfondi, code difficile, recherche, critique d'expert — partout où se tromper coûte plus que quelques générations supplémentaires.

Comment ça marche

Votre prompt

En parallèle

Gemini 3.5 Flash

MiniMax M2.7

GLM 5.1

Claude Opus 4.8juge

Meilleure réponse

Router selon la tâche

Une conversation informelle va directement vers un modèle par défaut moins coûteux. Les requêtes de code, d'agent et utilisant des outils se déploient vers le panel — là où un deuxième avis paie vraiment.

Déployer vers un panel

Votre prompt atteint plusieurs modèles de pointe à la fois — des tentatives indépendantes qui rattrapent chacune ce que les autres manquent.

Choisir la meilleure réponse

Un juge lit chaque candidat et renvoie le plus solide d'entre eux — vérifié par recoupement avec les autres, pas le premier jet d'un seul modèle.

Uniquement là où c'est utile. Fusion sollicite le panel pour les prompts de code, agentiques, utilisant des outils ou complexes — les conversations légères sont dirigées directement vers un modèle par défaut moins coûteux, vous ne payez le panel que pour les requêtes où un second avis vaut vraiment la peine.

Pourquoi un panel surpasse un seul modèle

Un seul modèle vous donne une unique tentative sur votre prompt — sans aucun moyen de détecter une erreur. Fusion exécute plusieurs modèles de pointe sur le même prompt simultanément, puis un juge indépendant lit chaque réponse et retourne la plus solide, vérifiée par recoupement avec les autres. Le désaccord entre des modèles performants est un signal : il fait remonter les cas difficiles où un seul modèle se serait silencieusement trompé.

Modèle unique

Un modèle, une réponse. Aucun second avis — si c'est faux, vous livrez quelque chose de faux.

Routeur automatique

Choisit un modèle par prompt pour réduire les coûts. Sélection plus intelligente — mais toujours une seule réponse.

Fusion

Un panel répond en parallèle ; un juge retourne la réponse la plus solide, vérifiée par recoupement avec les autres.

Panel + juge (Mixture-of-Agents)65.1%

Modèle unique de pointe (GPT-4o)57.5%

Taux de victoire contrôlé par la longueur sur AlpacaEval 2.0 — un panel de modèles avec agrégateur surpasse un modèle unique de pointe. Mixture-of-Agents, Wang et al. 2024

Modèles de ce routeur

Modèle	Rôle	Contexte
Gemini 3.5 Flash	Panel	1M
MiniMax M2.7	Panel	204K
GLM 5.1	Panel	200K
Claude Opus 4.8	Juge	1M

Vous voulez une autre combinaison ? Créez votre propre panel dans l'éditeur Routing DSL.

Construit sur le DSL de routage

Fusion n'est pas un cas particulier — c'est une configuration intégrée de notre DSL de routage, un petit langage isolé permettant de définir précisément comment chaque requête est acheminée. Clonez le modèle «Fable 5 Level» et modifiez le panel, le juge, la règle de déclenchement ou le mode de sélection du gagnant.

Meilleur sur NFusion par défaut

Un modèle juge classe chaque candidat et retourne le plus solide tel quel — jamais une fusion diluée.

Vote majoritaire

Le panel vote sur une réponse structurée — sans appel supplémentaire au juge.

Synthèse

Un modèle agrégateur fusionne les candidats en une réponse améliorée (Mixture-of-Agents).

Tests réussis

Pour le code : le candidat dont le correctif passe effectivement votre suite de tests l'emporte.

Premier

Une course — le tronçon le plus rapide l'emporte, pour les cas où la vitesse prime.

Aucune boîte noire. Construisez votre propre routeur avec le DSL et chaque diffusion parallèle est enregistrée — quels modèles ont concouru, la latence et le statut de chaque segment, et quelle réponse le juge a retenue — afin de voir dans la console exactement pourquoi une réponse a été sélectionnée.

Ouvrir l'éditeur DSL de routage →

Exemples de code

import os

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key=os.environ["ORCAROUTER_API_KEY"],
)

response = client.chat.completions.create(
    model="orcarouter/fusion-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Facturation

Parce que fusion exécute chaque membre du panel plus un juge, une requête déployée est facturée comme la somme de ces complétions sous-jacentes plutôt que comme un seul modèle — et uniquement sur les requêtes qui se déploient réellement. Zéro majoration.

FAQ

Qu'est-ce que OrcaRouter: Fusion Flash ?

Un routeur multi-modèle organisé. Sur du vrai travail, il exécute un panel de modèles en parallèle et un juge choisit la meilleure réponse, vérifiée par recoupement avec les autres ; les requêtes simples vont vers un modèle par défaut moins cher.

Comment est-il facturé ?

Comme la somme des membres du panel plus le juge réellement exécutés, uniquement sur les requêtes qui se déploient. Zéro marge.

Fusion fusionne-t-elle les réponses entre elles ?

Non. Le juge sélectionne le candidat le plus solide et le retourne tel quel — vous obtenez toujours la réponse d'un vrai modèle, jamais une réponse moyennée ou mixée.

Que se passe-t-il si l'un des modèles échoue ?

Les autres tronçons continuent de s'exécuter et le juge choisit parmi ceux qui ont réussi ; le routage bascule également vers le déploiement suivant le plus pertinent, de sorte qu'une défaillance d'un fournisseur ne fait pas échouer la requête.

Chaque requête sollicite-t-elle l'ensemble du panel ?

Non — seuls le code, les tâches agentiques, l'utilisation d'outils et les requêtes complexes sont distribués au panel. Les conversations courantes sont acheminées vers un modèle par défaut moins coûteux, vous n'êtes donc facturé pour le panel que là où un second avis est réellement utile.