OrcaRouter — Um gateway de IA: roteamento e governança de LLM

O gateway de IA para produção

Roteamento inteligente e failover automático em cada requisição.

Roteamento comprovadamente mais preciso.

Cada prompt é vetorizado e roteado por um modelo que aprende online a partir do tráfego real. No ranking público RouterArena (Jun 2026) ele lidera em precisão — à frente de GPT-5, Azure, Martian e NotDiamond — com 75.5%.

contextual embeddingsonline learning<1ms overheadRouterArena

* Com base nos dados do ranking RouterArena, junho de 2026.

Um provedor cai. Ninguém percebe.

Quando um provedor limita a taxa ou retorna 5xx, a OrcaRouter tenta novamente a solicitação em um modelo saudável entre mais de 200 opções antes de a resposta começar — falhas temporárias do provedor não chegam aos seus usuários.

200+ modelsauto-failoverno 429

Roteamento nos seus termos.

orcarouter/auto é um padrão inteligente, não uma caixa-preta. Direcione cada espaço de trabalho para o objetivo que você quer — o modelo mais barato que atinge seu limiar de qualidade, a qualidade mais alta ou um equilíbrio entre os dois — ou deixe-o aprender o compromisso a partir do seu próprio tráfego. Você nunca fica preso a um único comportamento.

per-workspaceno markup either way<1ms overhead

Veja e comprove cada chamada — custo, modelo, latência e o porquê.

Veja tudo. Comprove qualquer coisa.

Veja exatamente quanto cada requisição custou, qual modelo a atendeu, quanto tempo levou e por que falhou — logs estruturados completos que você pode filtrar, reproduzir e copiar como um cURL executável. Uma rota nunca é uma caixa-preta.

Per-request logsgrade · model · costcopy-as-cURL

Zero markup. Zero caixas-pretas.

Você paga a cada provedor exatamente o preço dele — nós adicionamos $0 por token, sempre. Cada requisição mostra a classificação, o modelo escolhido, o provedor, a latência e o preço, então o custo é transparente, não uma taxa combinada opaca.

$0 / tokenprovider costglass-box receipt

Prompts versionados e cache — sem novo deploy.

Mude prompts. Não código.

Versione prompts por trás de labels nomeados, com divisões A/B e rollback em um clique. Mova um label e cada requisição passa a usá-lo instantaneamente — sem redeploy, sem mudança de código, sem atualização de cliente.

VersionedA/BInstant rollbackNo deploy

Pague uma vez. Reutilize de graça.

Tokens de prompt repetidos e em cache são cobrados à taxa de cache do provedor — muitas vezes uma fração do preço de entrada — em janelas efêmeras de 5 minutos e 1 hora. Mesmas respostas, menos gasto, com cached_tokens em cada recibo.

cache_controlcached_tokens5m / 1h windows

Guardrails, orçamentos e um firewall de agentes que impõe regras.

Guardrails que realmente barram.

PII Shield e políticas de conteúdo são executados antes de a chamada upstream ser cobrada. Uma requisição bloqueada retorna um 400 limpo e nunca é cobrada — guardrails aplicados inline, não registrados depois do fato.

PII Shieldenforced pre-billingclean 400

Seguro para o seu time. E para seus agentes.

Orçamentos e papéis para pessoas; um firewall com pontuação de risco para agentes. Cada chamada de ferramenta e MCP é classificada como ALLOW, REVIEW ou BLOCK antes de ser executada, e a detecção de anomalias sinaliza picos de taxa e custo em relação a baselines de hora-da-semana aprendidos.

ALLOW · REVIEW · BLOCKMCP gatinganomaly detection

Feito para a era dos agentes. Antes de você precisar.

Controle total

Precisa de mais que um modo? Escreva a regra.

Quando o padrão não basta, expresse o roteamento como código — versionado, revisável e no ar em segundos. Sem reimplantar, sem alterar o cliente.

routing.yaml

version: 1
rules:
  - id: hard_agent_task
    when: task_class == "agent" && difficulty >= 0.6
    use:
      model: "claude-opus-4-7"
      reasoning_effort: high   # spend where it matters
  - id: short_prompts
    when: request.input_tokens < 500
    use: { delegate: cheapest }
default:
  delegate: balanced   # fall back to the chosen mode

YAML + CELversion-controlledlive in seconds

Explorar a documentação de roteamento

Configuração

No ar em 60 segundos.

Uma mudança de URL. Seu SDK, nomes de modelos e streaming funcionam como antes.

Passo 1

🔗

Aponte seu SDK para nós

Defina base_url para api.orcarouter.ai/v1 e troque sua chave API. Nenhuma outra mudança de código necessária.

→

Passo 2

⚡

Nós roteamos, protegemos e observamos

Cada chamada é roteada para o melhor modelo, verificada contra seus guardrails e medida — avaliada em menos de 1ms, com failover, cache e logs completos embutidos.

→

Passo 3

✓

Você lança, em um só endpoint

O tráfego vai direto para a API first-party de cada provedor pela tarifa publicada — adicionamos $0 por token. Um endpoint compatível com OpenAI para roteamento, observabilidade e governança.

Todos os modelos. Uma lista de preços.

200+ modelos com preços ao vivo, lado a lado — o que você pagaria direto ao provedor. Adicionamos $0 por cima.

Ver todos os 200+ modelos →

Modelo	Roteado para	Entrada /M	Saída /M	Contexto	Qualidade
obsidian/Qwen3.6-35B-A3BNOVO	—	$0.310	$4.21	262K	4.0
obsidian/gemma-4-26B-A4BNOVO	—	$0.250	$2.90	262K	4.0
anthropic/claude-sonnet-5NOVO	Anthropic Direct	$2.00	$10.00	1M	9.0
kling/kling-3-turboNOVO	—	$0.112 /call	—	—	—
z-ai/glm-5.2NOVO	Zhipu AI	$1.40	$4.40	1M	9.0
kimi/kimi-k2.7-codeNOVO	Moonshot	$0.950	$4.00	262K	8.0
anthropic/claude-fable-5NOVO	Anthropic Direct	$10.00	$50.00	1M	10.0
qwen/qwen3.7-plus	Alibaba Cloud	$0.350	$1.42	1M	8.0
minimax/minimax-m3	—	$0.300	$1.20	1M	9.0
anthropic/claude-opus-4.8	Anthropic Direct	$5.00	$25.00	1M	10.0
google/gemini-3.5-flash	Google Direct	$1.50	$9.00	1M	9.0
qwen/qwen3.7-max	Alibaba Cloud	$1.25	$3.75	1M	5.0
qwen/qwen3.7-max-2026-05-20	Alibaba Cloud	$1.25	$3.75	1M	5.0
qwen/qwen3.6-flash	Alibaba Cloud	$0.250	$1.50	1M	7.0
qwen/qwen3.6-35b-a3b	Alibaba Cloud	$0.248	$1.48	262K	8.0
+ Mais 194 modelos · Preços atualizados a cada 60 s

Tudo o que seu cliente OpenAI já chama.

Streaming, tool calls, saídas estruturadas, visão, embeddings e áudio — roteados sem alterações por todos os modelos.

Modelo	Streaming	Ferramentas	Estruturado	Visão	Embeddings	Áudio
grok/grok-4.3	compatível	compatível	compatível	compatível	não compatível	não compatível
openai/gpt-5.5-pro	compatível	compatível	compatível	compatível	não compatível	não compatível
anthropic/claude-opus-4.7	compatível	compatível	compatível	compatível	não compatível	não compatível
google/gemini-3.1-pro-preview	compatível	compatível	compatível	compatível	não compatível	compatível
anthropic/claude-opus-4.8	compatível	compatível	compatível	compatível	não compatível	não compatível

Preços

O roteamento é grátis.
Pague pelas funcionalidades.

Nunca tiramos uma parcela do seu gasto com tokens. Nossa receita vem de recursos de equipe opcionais.

Garantia de zero markup

Você paga aos provedores diretamente nas tarifas publicadas. Não adicionamos nada ao custo dos tokens. O roteamento é gratuito; o plano Team opcional financia a plataforma.

$0.00taxa de roteamento

Hacker

Grátis

Para sempre. Zero markup em todos os tokens.

✓ Roteie — 200+ modelos, failover automático

✓ Observe — dashboard básico

✓ Gerencie — versionamento de prompts

✓ 3 chaves de API · 0% de markup por token

Começar grátis

Equipe

$499/mo

Ainda zero markup. Pague pelas funcionalidades.

✓ Tudo do Hacker

✓ Até 10 assentos de equipe

✓ Aplicação de conformidade e relatórios

✓ Chaves de API ilimitadas

✓ Suporte prioritário

Começar →

Enterprise

Personalizado

Compromissos de SLA + implantação privada.

✓ Tudo do Team

✓ Deploy privado / on-premise

✓ SLA de 99.99% de uptime

✓ Infraestrutura dedicada

✓ Suporte dedicado e preços personalizados

Um Gateway. Todos os Modelos. Roteie melhor. Lance com segurança. Gaste menos.

Funciona com as ferramentas que você já usa

Roteamento comprovadamente mais preciso.

Um provedor cai. Ninguém percebe.

Roteamento nos seus termos.

Veja tudo. Comprove qualquer coisa.

Zero markup. Zero caixas-pretas.

Mude prompts. Não código.

Pague uma vez. Reutilize de graça.

Guardrails que realmente barram.

Seguro para o seu time. E para seus agentes.

Precisa de mais que um modo? Escreva a regra.

No ar em 60 segundos.

Aponte seu SDK para nós

Nós roteamos, protegemos e observamos

Você lança, em um só endpoint

Todos os modelos. Uma lista de preços.

Tudo o que seu cliente OpenAI já chama.

O roteamento é grátis.
Pague pelas funcionalidades.

Hacker

Equipe

Enterprise

Auditado de forma independente. Conformidade contínua.

Mais inteligente, mais seguro, econômico.

Produto

Recursos

Jurídico

Siga-nos

Um Gateway. Todos os Modelos. Roteie melhor. Lance com segurança. Gaste menos.

Funciona com as ferramentas que você já usa

Roteamento comprovadamente mais preciso.

Um provedor cai. Ninguém percebe.

Roteamento nos seus termos.

Veja tudo. Comprove qualquer coisa.

Zero markup. Zero caixas-pretas.

Mude prompts. Não código.

Pague uma vez. Reutilize de graça.

Guardrails que realmente barram.

Seguro para o seu time. E para seus agentes.

Precisa de mais que um modo? Escreva a regra.

No ar em 60 segundos.

Aponte seu SDK para nós

Nós roteamos, protegemos e observamos

Você lança, em um só endpoint

Todos os modelos. Uma lista de preços.

Tudo o que seu cliente OpenAI já chama.

O roteamento é grátis.Pague pelas funcionalidades.

Hacker

Equipe

Enterprise

Auditado de forma independente. Conformidade contínua.

Mais inteligente, mais seguro, econômico.

Produto

Recursos

Jurídico

Siga-nos

O roteamento é grátis.
Pague pelas funcionalidades.