OrcaRouter — Un AI gateway: routing LLM adattivo e governance

Il gateway AI per la produzione

Routing intelligente e failover automatico su ogni richiesta.

Un routing misurabilmente più accurato.

Ogni prompt viene trasformato in embedding e instradato da un modello che continua a imparare online dal traffico reale. Nella classifica pubblica RouterArena (Jun 2026) è in testa per accuratezza — davanti a GPT-5, Azure, Martian e NotDiamond — al 75.5%.

contextual embeddingsonline learning<1ms overheadRouterArena

* In base ai dati della classifica RouterArena, giugno 2026.

Un provider va giù. Nessuno se ne accorge.

Quando un provider limita il traffico o restituisce 5xx, OrcaRouter ritenta la richiesta su un modello integro tra oltre 200 opzioni prima che la risposta inizi — i guasti temporanei a monte non raggiungono i tuoi utenti.

200+ modelsauto-failoverno 429

Il routing alle tue condizioni.

orcarouter/auto è un'impostazione predefinita intelligente, non una scatola nera. Orienta ogni spazio di lavoro verso l'obiettivo che preferisci — il modello più economico che supera la tua soglia di qualità, la qualità più alta o un equilibrio tra i due — oppure lascia che impari il compromesso dal tuo stesso traffico. Non sei mai vincolato a un solo comportamento.

per-workspaceno markup either way<1ms overhead

Vedi e dimostra ogni chiamata — costo, modello, latenza e perché.

Vedi tutto. Dimostra tutto.

Vedi esattamente quanto è costata ogni richiesta, quale modello l'ha servita, quanto tempo ha richiesto e perché ha fallito — log strutturati completi che puoi filtrare, riprodurre e copiare come cURL eseguibile. Una rotta non è mai una scatola nera.

Per-request logsgrade · model · costcopy-as-cURL

Zero ricarico. Zero scatole nere.

Paghi a ciascun provider il suo prezzo esatto — aggiungiamo $0 per token, sempre. Ogni richiesta mostra la classificazione, il modello scelto, il provider, la latenza e il prezzo, così il costo è una scatola di vetro, non una tariffa miscelata e opaca.

$0 / tokenprovider costglass-box receipt

Prompt versionati e caching — senza redeploy.

Cambia i prompt. Non il codice.

Versiona i prompt dietro label con nome, con split A/B e rollback con un clic. Sposta una label e ogni richiesta la adotta all'istante — nessun redeploy, nessuna modifica al codice, nessun aggiornamento del client.

VersionedA/BInstant rollbackNo deploy

Paghi una volta. Riusi gratis.

I token di prompt ripetuti e in cache vengono fatturati alla tariffa di cache del provider — spesso una frazione del prezzo di input — su finestre effimere da 5 minuti e 1 ora. Stesse risposte, meno spesa, con cached_tokens su ogni ricevuta.

cache_controlcached_tokens5m / 1h windows

Guardrail, budget e un agent firewall che fa rispettare le regole.

Guardrail che bloccano davvero.

PII Shield e le policy sui contenuti vengono eseguite prima che la chiamata upstream venga fatturata. Una richiesta bloccata restituisce un 400 pulito e non viene mai addebitata — guardrail applicati inline, non registrati a posteriori.

PII Shieldenforced pre-billingclean 400

Sicuro per il tuo team. E per i tuoi agenti.

Budget e ruoli per le persone; un firewall con punteggio di rischio per gli agenti. Ogni chiamata a tool e MCP viene classificata ALLOW, REVIEW o BLOCK prima dell'esecuzione, e il rilevamento anomalie segnala picchi di frequenza e costo rispetto a baseline apprese per ora-della-settimana.

ALLOW · REVIEW · BLOCKMCP gatinganomaly detection

Creato per l'era degli agenti. Prima che ne avessi bisogno.

Controllo totale

Ti serve più di una modalità? Scrivi la regola.

Quando l'impostazione predefinita non basta, esprimi il routing come codice — versionato, revisionabile e attivo in pochi secondi. Senza ridistribuzioni né modifiche al client.

routing.yaml

version: 1
rules:
  - id: hard_agent_task
    when: task_class == "agent" && difficulty >= 0.6
    use:
      model: "claude-opus-4-7"
      reasoning_effort: high   # spend where it matters
  - id: short_prompts
    when: request.input_tokens < 500
    use: { delegate: cheapest }
default:
  delegate: balanced   # fall back to the chosen mode

YAML + CELversion-controlledlive in seconds

Esplora la documentazione sul routing

Configurazione

Live in 60 secondi.

Un cambio di URL. SDK, nomi modello e streaming funzionano come prima.

Passo 1

🔗

Punta il tuo SDK a noi

Imposta base_url su api.orcarouter.ai/v1 e cambia la tua chiave API. Nessun altro cambiamento di codice necessario.

→

Passo 2

⚡

Noi instradiamo, proteggiamo e osserviamo

Ogni chiamata viene instradata al modello migliore, verificata rispetto ai tuoi guardrail e contabilizzata — valutata in meno di 1ms, con failover, caching e log completi integrati.

→

Passo 3

✓

Tu fai il deploy, su un solo endpoint

Il traffico va diretto all'API first-party di ogni provider alla tariffa ufficiale — noi aggiungiamo $0 per token. Un unico endpoint compatibile con OpenAI per routing, osservabilità e governance.

Ogni modello. Un solo listino.

200+ modelli con prezzi live, affiancati — quanto pagheresti direttamente al provider. Aggiungiamo $0 in più.

Vedi tutti i 200+ modelli →

Modello	Instradato a	Input /M	Output /M	Contesto	Qualità
obsidian/Qwen3.6-35B-A3BNUOVO	—	$0.310	$4.21	262K	4.0
obsidian/gemma-4-26B-A4BNUOVO	—	$0.250	$2.90	262K	4.0
anthropic/claude-sonnet-5NUOVO	Anthropic Direct	$2.00	$10.00	1M	9.0
kling/kling-3-turboNUOVO	—	$0.112 /call	—	—	—
z-ai/glm-5.2NUOVO	Zhipu AI	$1.40	$4.40	1M	9.0
kimi/kimi-k2.7-codeNUOVO	Moonshot	$0.950	$4.00	262K	8.0
anthropic/claude-fable-5NUOVO	Anthropic Direct	$10.00	$50.00	1M	10.0
qwen/qwen3.7-plus	Alibaba Cloud	$0.350	$1.42	1M	8.0
minimax/minimax-m3	—	$0.300	$1.20	1M	9.0
anthropic/claude-opus-4.8	Anthropic Direct	$5.00	$25.00	1M	10.0
google/gemini-3.5-flash	Google Direct	$1.50	$9.00	1M	9.0
qwen/qwen3.7-max	Alibaba Cloud	$1.25	$3.75	1M	5.0
qwen/qwen3.7-max-2026-05-20	Alibaba Cloud	$1.25	$3.75	1M	5.0
qwen/qwen3.6-flash	Alibaba Cloud	$0.250	$1.50	1M	7.0
qwen/qwen3.6-35b-a3b	Alibaba Cloud	$0.248	$1.48	262K	8.0
+ 194 modelli in più · Prezzi aggiornati ogni 60 secondi

Tutto ciò che il tuo client OpenAI già chiama.

Streaming, tool call, output strutturati, vision, embedding e audio — instradati invariati su ogni modello.

Modello	Streaming	Tool	Strutturato	Vision	Embedding	Audio
google/gemini-3.1-pro-preview	supportato	supportato	supportato	supportato	non supportato	supportato
anthropic/claude-opus-4.7	supportato	supportato	supportato	supportato	non supportato	non supportato
grok/grok-4.3	supportato	supportato	supportato	supportato	non supportato	non supportato
anthropic/claude-opus-4.8	supportato	supportato	supportato	supportato	non supportato	non supportato
anthropic/claude-fable-5	supportato	supportato	supportato	supportato	non supportato	non supportato

Prezzi

Il routing è gratis.
Paghi per le funzionalità.

Non prendiamo mai una quota della tua spesa in token. I ricavi vengono da funzionalità team opzionali.

Garanzia zero ricarico

Paghi i fornitori direttamente alle loro tariffe pubblicate. Non aggiungiamo nulla sui costi dei token. Il routing è gratuito; il piano Team opzionale finanzia la piattaforma.

$0.00tariffa di routing

Hacker

Gratis

Per sempre. Zero ricarico su tutti i token.

✓ Instrada — 200+ modelli, auto-failover

✓ Osserva — dashboard base

✓ Gestisci — versioning dei prompt

✓ 3 chiavi API · 0% markup sui token

Inizia gratis

Team

$499/mo

Sempre zero ricarico. Paga per le funzionalità.

✓ Tutto di Hacker

✓ Fino a 10 postazioni team

✓ Applicazione conformità e report

✓ Chiavi API illimitate

✓ Supporto prioritario

Inizia →

Enterprise

Personalizzato

Impegni SLA + deployment privato.

✓ Tutto di Team

✓ Deployment privato / on-prem

✓ SLA uptime 99.99%

✓ Infrastruttura dedicata

✓ Supporto dedicato e prezzi su misura

Un Gateway. Ogni Modello. Routing più intelligente. Deploy più sicuri. Spesa più bassa.

Funziona con gli strumenti che usi già

Un routing misurabilmente più accurato.

Un provider va giù. Nessuno se ne accorge.

Il routing alle tue condizioni.

Vedi tutto. Dimostra tutto.

Zero ricarico. Zero scatole nere.

Cambia i prompt. Non il codice.

Paghi una volta. Riusi gratis.

Guardrail che bloccano davvero.

Sicuro per il tuo team. E per i tuoi agenti.

Ti serve più di una modalità? Scrivi la regola.

Live in 60 secondi.

Punta il tuo SDK a noi

Noi instradiamo, proteggiamo e osserviamo

Tu fai il deploy, su un solo endpoint

Ogni modello. Un solo listino.

Tutto ciò che il tuo client OpenAI già chiama.

Il routing è gratis.
Paghi per le funzionalità.

Hacker

Team

Enterprise

Verificato in modo indipendente. Sempre conforme.

Più intelligente, più sicuro, conveniente.

Prodotto

Risorse

Legale

Seguici

Un Gateway. Ogni Modello. Routing più intelligente. Deploy più sicuri. Spesa più bassa.

Funziona con gli strumenti che usi già

Un routing misurabilmente più accurato.

Un provider va giù. Nessuno se ne accorge.

Il routing alle tue condizioni.

Vedi tutto. Dimostra tutto.

Zero ricarico. Zero scatole nere.

Cambia i prompt. Non il codice.

Paghi una volta. Riusi gratis.

Guardrail che bloccano davvero.

Sicuro per il tuo team. E per i tuoi agenti.

Ti serve più di una modalità? Scrivi la regola.

Live in 60 secondi.

Punta il tuo SDK a noi

Noi instradiamo, proteggiamo e osserviamo

Tu fai il deploy, su un solo endpoint

Ogni modello. Un solo listino.

Tutto ciò che il tuo client OpenAI già chiama.

Il routing è gratis.Paghi per le funzionalità.

Hacker

Team

Enterprise

Verificato in modo indipendente. Sempre conforme.

Più intelligente, più sicuro, conveniente.

Prodotto

Risorse

Legale

Seguici

Il routing è gratis.
Paghi per le funzionalità.