OrcaRouter — Ein AI-Gateway: adaptives LLM-Routing & Governance

Das KI-Gateway für die Produktion

Jede Anfrage trifft das richtige Modell und übersteht Ausfälle – smartes Routing plus automatisches Failover.

Routing, das messbar genauer ist.

Jeder Prompt wird eingebettet und von einem Modell geroutet, das online aus echtem Traffic weiterlernt. Im öffentlichen RouterArena-Leaderboard (Jun 2026) führt es bei der Genauigkeit – vor GPT-5, Azure, Martian und NotDiamond – mit 75,5 %.

contextual embeddingsonline learning<1ms overheadRouterArena

* Basierend auf RouterArena-Leaderboard-Daten, Juni 2026.

Ein Anbieter fällt aus. Niemand merkt es.

Wenn ein Anbieter drosselt oder 5xx liefert, wiederholt OrcaRouter die Anfrage vor dem Start der Antwort an ein gesundes Modell aus 200+ Optionen – vorübergehende Upstream-Ausfälle erreichen deine Nutzer nicht.

200+ modelsauto-failoverno 429

Routing zu Ihren Bedingungen.

orcarouter/auto ist eine intelligente Voreinstellung, keine Blackbox. Richten Sie jeden Arbeitsbereich auf das gewünschte Ziel aus – das günstigste Modell, das Ihre Qualitätsschwelle erreicht, die höchste Qualität oder eine Balance aus beidem – oder lassen Sie es den Kompromiss aus Ihrem eigenen Traffic lernen. Sie sind nie auf ein einziges Verhalten festgelegt.

per-workspaceno markup either way<1ms overhead

Jeder Call – sichtbar und belegbar: Kosten, Modell, Latenz und Grund.

Sieh alles. Beweise alles.

Sieh genau, was jede Anfrage gekostet hat, welches Modell sie bedient hat, wie lange sie gedauert hat und warum sie fehlgeschlagen ist – vollständige strukturierte Logs, die du filtern, erneut abspielen und als lauffähigen cURL kopieren kannst. Eine Route ist niemals eine Blackbox.

Per-request logsgrade · model · costcopy-as-cURL

Null Aufschlag. Null Blackbox.

Du zahlst jedem Anbieter genau seinen Preis – wir schlagen $0 pro Token auf, immer. Jede Anfrage zeigt die Bewertung, das gewählte Modell, den Anbieter, die Latenz und den Preis, sodass die Kosten gläsern sind und keine undurchsichtige Mischrate.

$0 / tokenprovider costglass-box receipt

Prompts ändern, Caching aktivieren – sofort wirksam, ganz ohne Redeploy.

Ändere Prompts. Nicht Code.

Versioniere Prompts hinter benannten Labels mit A/B-Splits und Rollback per Klick. Verschiebe ein Label und jede Anfrage übernimmt es sofort – kein Redeploy, keine Codeänderung, kein Client-Update.

VersionedA/BInstant rollbackNo deploy

Einmal zahlen. Kostenlos wiederverwenden.

Wiederholte und gecachte Prompt-Tokens werden zum Cache-Tarif des Anbieters abgerechnet – oft ein Bruchteil des Eingabepreises – über ephemere Fenster von 5 Minuten und 1 Stunde. Gleiche Antworten, weniger Ausgaben, mit cached_tokens auf jedem Beleg.

cache_controlcached_tokens5m / 1h windows

Guardrails, Budgets und eine Agent-Firewall – verbindlich durchgesetzt, Risiko stets unter Kontrolle.

Guardrails, die wirklich stoppen.

PII Shield und Content-Richtlinien laufen, bevor der Upstream-Aufruf abgerechnet wird. Eine blockierte Anfrage gibt einen sauberen 400 zurück und wird nie berechnet – Guardrails werden inline durchgesetzt, nicht erst nachträglich protokolliert.

PII Shieldenforced pre-billingclean 400

Sicher für dein Team. Und deine Agents.

Budgets und Rollen für Menschen; eine risikobewertete Firewall für Agenten. Jeder Tool- und MCP-Aufruf wird vor der Ausführung mit ALLOW, REVIEW oder BLOCK bewertet, und die Anomalieerkennung meldet Raten- und Kostenspitzen gegen erlernte Stunde-der-Woche-Baselines.

ALLOW · REVIEW · BLOCKMCP gatinganomaly detection

Gebaut für die Agent-Ära. Bevor du sie brauchtest.

Volle Kontrolle

Mehr als ein Modus nötig? Schreiben Sie die Regel.

Wenn die Voreinstellung nicht ausreicht, beschreiben Sie das Routing als Code – versioniert, überprüfbar und in Sekunden aktiv. Ohne erneutes Deployment, ohne Client-Änderung.

routing.yaml

version: 1
rules:
  - id: hard_agent_task
    when: task_class == "agent" && difficulty >= 0.6
    use:
      model: "claude-opus-4-7"
      reasoning_effort: high   # spend where it matters
  - id: short_prompts
    when: request.input_tokens < 500
    use: { delegate: cheapest }
default:
  delegate: balanced   # fall back to the chosen mode

YAML + CELversion-controlledlive in seconds

Routing-Doku erkunden

Einrichtung

In 60 Sekunden live.

Eine URL-Änderung. Dein SDK, deine Modellnamen und Streaming funktionieren genau wie zuvor.

Schritt 1

🔗

SDK auf uns zeigen

Setze base_url auf api.orcarouter.ai/v1 und tausche deinen API-Schlüssel aus. Keine weiteren Codeänderungen nötig.

→

Schritt 2

⚡

Wir routen, schützen & beobachten

Jeder Call wird ans beste Modell geroutet, gegen deine Guardrails geprüft und gemessen – bewertet in unter 1ms, mit Failover, Caching und vollständigen Logs inklusive.

→

Schritt 3

✓

Du shippst, über einen Endpunkt

Der Traffic geht direkt an die First-Party-API jedes Anbieters zum veröffentlichten Tarif – wir berechnen $0 pro Token. Ein OpenAI-kompatibler Endpunkt für Routing, Observability und Governance.

Jedes Modell. Eine Preisliste.

200+ Modelle mit Live-Preisen im direkten Vergleich – was du dem Anbieter direkt zahlen würdest. Wir schlagen $0 obendrauf.

Alle 200+ Modelle ansehen →

Modell	Weitergeleitet an	Eingabe /M	Ausgabe /M	Kontext	Qualität
obsidian/gemma-4-26B-A4BNEU	—	$0.250	$2.90	262K	4.0
obsidian/Qwen3.6-35B-A3BNEU	—	$0.310	$4.21	262K	4.0
anthropic/claude-sonnet-5NEU	Anthropic Direct	$2.00	$10.00	1M	9.0
kling/kling-3-turboNEU	—	$0.112 /call	—	—	—
z-ai/glm-5.2NEU	Zhipu AI	$1.40	$4.40	1M	9.0
kimi/kimi-k2.7-codeNEU	Moonshot	$0.950	$4.00	262K	8.0
anthropic/claude-fable-5NEU	Anthropic Direct	$10.00	$50.00	1M	10.0
qwen/qwen3.7-plus	Alibaba Cloud	$0.350	$1.42	1M	8.0
minimax/minimax-m3	—	$0.300	$1.20	1M	9.0
anthropic/claude-opus-4.8	Anthropic Direct	$5.00	$25.00	1M	10.0
google/gemini-3.5-flash	Google Direct	$1.50	$9.00	1M	9.0
qwen/qwen3.7-max	Alibaba Cloud	$1.25	$3.75	1M	5.0
qwen/qwen3.7-max-2026-05-20	Alibaba Cloud	$1.25	$3.75	1M	5.0
qwen/qwen3.6-flash	Alibaba Cloud	$0.250	$1.50	1M	7.0
qwen/qwen3.6-35b-a3b	Alibaba Cloud	$0.248	$1.48	262K	8.0
+ 194 weitere Modelle · Preise alle 60 Sek. aktualisiert

Alles, was dein OpenAI-Client bereits aufruft.

Streaming, Tool-Calls, strukturierte Ausgaben, Vision, Embeddings und Audio – unverändert über jedes Modell geroutet.

Modell	Streaming	Tools	Strukturiert	Vision	Embeddings	Audio
google/gemini-3.1-pro-preview	unterstützt	unterstützt	unterstützt	unterstützt	nicht unterstützt	unterstützt
grok/grok-4.3	unterstützt	unterstützt	unterstützt	unterstützt	nicht unterstützt	nicht unterstützt
anthropic/claude-opus-4.7	unterstützt	unterstützt	unterstützt	unterstützt	nicht unterstützt	nicht unterstützt
openai/gpt-5.5-pro	unterstützt	unterstützt	unterstützt	unterstützt	nicht unterstützt	nicht unterstützt
anthropic/claude-fable-5	unterstützt	unterstützt	unterstützt	unterstützt	nicht unterstützt	nicht unterstützt

Preise

Routing ist kostenlos.
Bezahl für Features.

Von deinen Token-Ausgaben nehmen wir keinen Cent – unser Umsatz kommt allein aus optionalen Team-Features. So ziehen wir immer am selben Strang wie du.

Null-Aufschlag-Garantie

Du zahlst Anbietern direkt deren veröffentlichte Preise. Auf die Token-Kosten schlagen wir nichts auf. Routing ist kostenlos; der optionale Team-Plan finanziert die Plattform.

$0.00Routing-Gebühr

Hacker

Kostenlos

Für immer. Null Aufschlag auf alle Token.

✓ Routen – 200+ Modelle, Auto-Failover

✓ Beobachten – Basis-Dashboard

✓ Verwalten – Prompt-Versionierung

✓ 3 API-Keys · 0 % Token-Aufschlag

Kostenlos starten

Team

$499/mo

Weiterhin null Aufschlag. Bezahl für Features.

✓ Alles aus Hacker

✓ Bis zu 10 Team-Sitze

✓ Compliance-Durchsetzung & Berichte

✓ Unbegrenzte API-Keys

✓ Priority-Support

Loslegen →

Enterprise

Individuell

99,99 % SLA und private Bereitstellung – Enterprise-Absicherung inklusive.

✓ Alles aus Team

✓ Private / On-Prem-Bereitstellung

✓ 99,99 % Uptime-SLA

✓ Dedizierte Infrastruktur

✓ Dedizierter Support & individuelle Preise

Ein Gateway. Jedes Modell. Klüger routen. Sicherer shippen. Weniger zahlen.

Nutze deine bestehende Toolchain weiter – ohne Migrationsaufwand.

Routing, das messbar genauer ist.

Ein Anbieter fällt aus. Niemand merkt es.

Routing zu Ihren Bedingungen.

Sieh alles. Beweise alles.

Null Aufschlag. Null Blackbox.

Ändere Prompts. Nicht Code.

Einmal zahlen. Kostenlos wiederverwenden.

Guardrails, die wirklich stoppen.

Sicher für dein Team. Und deine Agents.

Mehr als ein Modus nötig? Schreiben Sie die Regel.

In 60 Sekunden live.

SDK auf uns zeigen

Wir routen, schützen & beobachten

Du shippst, über einen Endpunkt

Jedes Modell. Eine Preisliste.

Alles, was dein OpenAI-Client bereits aufruft.

Routing ist kostenlos.
Bezahl für Features.

Hacker

Team

Enterprise

Unabhängig auditiert. Durchgängig compliant.

Klüger, sicherer, kosteneffizient.

Produkt

Ressourcen

Rechtliches

Folgen

Ein Gateway. Jedes Modell. Klüger routen. Sicherer shippen. Weniger zahlen.

Nutze deine bestehende Toolchain weiter – ohne Migrationsaufwand.

Routing, das messbar genauer ist.

Ein Anbieter fällt aus. Niemand merkt es.

Routing zu Ihren Bedingungen.

Sieh alles. Beweise alles.

Null Aufschlag. Null Blackbox.

Ändere Prompts. Nicht Code.

Einmal zahlen. Kostenlos wiederverwenden.

Guardrails, die wirklich stoppen.

Sicher für dein Team. Und deine Agents.

Mehr als ein Modus nötig? Schreiben Sie die Regel.

In 60 Sekunden live.

SDK auf uns zeigen

Wir routen, schützen & beobachten

Du shippst, über einen Endpunkt

Jedes Modell. Eine Preisliste.

Alles, was dein OpenAI-Client bereits aufruft.

Routing ist kostenlos.Bezahl für Features.

Hacker

Team

Enterprise

Unabhängig auditiert. Durchgängig compliant.

Klüger, sicherer, kosteneffizient.

Produkt

Ressourcen

Rechtliches

Folgen

Routing ist kostenlos.
Bezahl für Features.