Kein Aufschlag. Höhere Verfügbarkeit. Bessere Preise.

Ein Gateway. Jedes Modell. Klüger routen. Sicherer shippen. Weniger zahlen.

Jeder Aufruf geht an das passendste Modell – Frontier-Qualität bei bis zu 40 % geringeren Kosten. Adaptives Routing, Lastausgleich, Guardrails, Agent-Firewall, Observability und Governance – alles über einen einzigen OpenAI-kompatiblen Endpunkt, ohne Code-Umbau und ohne Anbieterbindung.

Keine Kreditkarte · in 60 Sek. startklar

Schlägt GPT-5 und Azure auf RouterArenaGestützt durch veröffentlichte Forschung
- client = OpenAI(api_key="sk-...")
+ client = OpenAI(
+ base_url="https://api.orcarouter.ai/v1",
+ api_key="sk-orca-..."
+ )
 
# Everything else stays the same.
response = client.chat.completions.create(
model="orcarouter/auto", # router picks the best model per request
messages=[{"role": "user", "content": "..."}]
)
# → orcarouter/auto grades the prompt → frontier or open-source, zero token markup ✓

Nur eine Zeile Code – und du nutzt 200+ Modelle. Wir wählen je nach Schwierigkeit Frontier oder OSS; die Plattform schlägt keinen Cent auf.

Anthropic: Claude Opus 4.8$5.00 in·$25.00 outAnthropic Direct
grok/grok-4.3$1.25 in·$2.50 out
OpenAI: GPT-5.5 Pro$30.00 in·$180.00 outOpenAI Direct
Google: Gemini 3.1 Pro Preview$2.00 in·$12.00 outGoogle Direct
Anthropic: Claude Opus 4.7$5.00 in·$25.00 outAnthropic Direct
Anthropic: Claude Opus 4.8$5.00 in·$25.00 outAnthropic Direct
grok/grok-4.3$1.25 in·$2.50 out
OpenAI: GPT-5.5 Pro$30.00 in·$180.00 outOpenAI Direct
Google: Gemini 3.1 Pro Preview$2.00 in·$12.00 outGoogle Direct
Anthropic: Claude Opus 4.7$5.00 in·$25.00 outAnthropic Direct
200+
Modelle, ein Endpunkt
0%
Token-Aufschlag, niemals
75.5%
Routing-Genauigkeit
<50ms
Failover mitten im Stream
Baust du damit? Sag uns Bescheid.
Dein Feedback formt das nächste Release.
Integrationen

Nutze deine bestehende Toolchain weiter – ohne Migrationsaufwand.

Direkt OpenAI-kompatibel; Agents bindest du über den OrcaRouter-MCP-Server ein – dein SDK, Framework und Editor bleiben, wie sie sind.

OrcaRouter MCP-ServerOpenAI SDKGoogle GenAI SDKAnthropic SDKLangChainLlamaIndexVercel AI SDKCamelAIDifyCursorOpenCodePromptfooOpenClawOpenHumanGitHubcURLund mehr
Das KI-Gateway für die Produktion

Jede Anfrage trifft das richtige Modell und übersteht Ausfälle – smartes Routing plus automatisches Failover.

Routing, das messbar genauer ist.

Jeder Prompt wird eingebettet und von einem Modell geroutet, das online aus echtem Traffic weiterlernt. Im öffentlichen RouterArena-Leaderboard (Jun 2026) führt es bei der Genauigkeit – vor GPT-5, Azure, Martian und NotDiamond – mit 75,5 %.

contextual embeddingsonline learning<1ms overheadRouterArena
* Basierend auf RouterArena-Leaderboard-Daten, Juni 2026.

Ein Anbieter fällt aus. Niemand merkt es.

Wenn ein Anbieter drosselt oder 5xx liefert, wiederholt OrcaRouter die Anfrage vor dem Start der Antwort an ein gesundes Modell aus 200+ Optionen – vorübergehende Upstream-Ausfälle erreichen deine Nutzer nicht.

200+ modelsauto-failoverno 429

Routing zu Ihren Bedingungen.

orcarouter/auto ist eine intelligente Voreinstellung, keine Blackbox. Richten Sie jeden Arbeitsbereich auf das gewünschte Ziel aus – das günstigste Modell, das Ihre Qualitätsschwelle erreicht, die höchste Qualität oder eine Balance aus beidem – oder lassen Sie es den Kompromiss aus Ihrem eigenen Traffic lernen. Sie sind nie auf ein einziges Verhalten festgelegt.

per-workspaceno markup either way<1ms overhead

Jeder Call – sichtbar und belegbar: Kosten, Modell, Latenz und Grund.

Sieh alles. Beweise alles.

Sieh genau, was jede Anfrage gekostet hat, welches Modell sie bedient hat, wie lange sie gedauert hat und warum sie fehlgeschlagen ist – vollständige strukturierte Logs, die du filtern, erneut abspielen und als lauffähigen cURL kopieren kannst. Eine Route ist niemals eine Blackbox.

Per-request logsgrade · model · costcopy-as-cURL

Null Aufschlag. Null Blackbox.

Du zahlst jedem Anbieter genau seinen Preis – wir schlagen $0 pro Token auf, immer. Jede Anfrage zeigt die Bewertung, das gewählte Modell, den Anbieter, die Latenz und den Preis, sodass die Kosten gläsern sind und keine undurchsichtige Mischrate.

$0 / tokenprovider costglass-box receipt

Prompts ändern, Caching aktivieren – sofort wirksam, ganz ohne Redeploy.

Ändere Prompts. Nicht Code.

Versioniere Prompts hinter benannten Labels mit A/B-Splits und Rollback per Klick. Verschiebe ein Label und jede Anfrage übernimmt es sofort – kein Redeploy, keine Codeänderung, kein Client-Update.

VersionedA/BInstant rollbackNo deploy

Einmal zahlen. Kostenlos wiederverwenden.

Wiederholte und gecachte Prompt-Tokens werden zum Cache-Tarif des Anbieters abgerechnet – oft ein Bruchteil des Eingabepreises – über ephemere Fenster von 5 Minuten und 1 Stunde. Gleiche Antworten, weniger Ausgaben, mit cached_tokens auf jedem Beleg.

cache_controlcached_tokens5m / 1h windows

Guardrails, Budgets und eine Agent-Firewall – verbindlich durchgesetzt, Risiko stets unter Kontrolle.

Guardrails, die wirklich stoppen.

PII Shield und Content-Richtlinien laufen, bevor der Upstream-Aufruf abgerechnet wird. Eine blockierte Anfrage gibt einen sauberen 400 zurück und wird nie berechnet – Guardrails werden inline durchgesetzt, nicht erst nachträglich protokolliert.

PII Shieldenforced pre-billingclean 400

Sicher für dein Team. Und deine Agents.

Budgets und Rollen für Menschen; eine risikobewertete Firewall für Agenten. Jeder Tool- und MCP-Aufruf wird vor der Ausführung mit ALLOW, REVIEW oder BLOCK bewertet, und die Anomalieerkennung meldet Raten- und Kostenspitzen gegen erlernte Stunde-der-Woche-Baselines.

ALLOW · REVIEW · BLOCKMCP gatinganomaly detection
Gebaut für die Agent-Ära. Bevor du sie brauchtest.

Volle Kontrolle

Mehr als ein Modus nötig? Schreiben Sie die Regel.

Wenn die Voreinstellung nicht ausreicht, beschreiben Sie das Routing als Code – versioniert, überprüfbar und in Sekunden aktiv. Ohne erneutes Deployment, ohne Client-Änderung.

routing.yaml
version: 1
rules:
- id: hard_agent_task
when: task_class == "agent" && difficulty >= 0.6
use:
model: "claude-opus-4-7"
reasoning_effort: high # spend where it matters
- id: short_prompts
when: request.input_tokens < 500
use: { delegate: cheapest }
default:
delegate: balanced # fall back to the chosen mode
YAML + CELversion-controlledlive in seconds

Einrichtung

In 60 Sekunden live.

Eine URL-Änderung. Dein SDK, deine Modellnamen und Streaming funktionieren genau wie zuvor.

Schritt 1
🔗

SDK auf uns zeigen

Setze base_url auf api.orcarouter.ai/v1 und tausche deinen API-Schlüssel aus. Keine weiteren Codeänderungen nötig.

Schritt 2

Wir routen, schützen & beobachten

Jeder Call wird ans beste Modell geroutet, gegen deine Guardrails geprüft und gemessen – bewertet in unter 1ms, mit Failover, Caching und vollständigen Logs inklusive.

Schritt 3

Du shippst, über einen Endpunkt

Der Traffic geht direkt an die First-Party-API jedes Anbieters zum veröffentlichten Tarif – wir berechnen $0 pro Token. Ein OpenAI-kompatibler Endpunkt für Routing, Observability und Governance.


Jedes Modell. Eine Preisliste.

200+ Modelle mit Live-Preisen im direkten Vergleich – was du dem Anbieter direkt zahlen würdest. Wir schlagen $0 obendrauf.

Alle 200+ Modelle ansehen →
ModellWeitergeleitet anEingabe /MAusgabe /MKontextQualität
obsidian/gemma-4-26B-A4BNEU$0.250$2.90262K4.0
obsidian/Qwen3.6-35B-A3BNEU$0.310$4.21262K4.0
anthropic/claude-sonnet-5NEUAnthropic Direct$2.00$10.001M9.0
kling/kling-3-turboNEU$0.112 /call
z-ai/glm-5.2NEUZhipu AI$1.40$4.401M9.0
kimi/kimi-k2.7-codeNEUMoonshot$0.950$4.00262K8.0
anthropic/claude-fable-5NEUAnthropic Direct$10.00$50.001M10.0
qwen/qwen3.7-plusAlibaba Cloud$0.350$1.421M8.0
minimax/minimax-m3$0.300$1.201M9.0
anthropic/claude-opus-4.8Anthropic Direct$5.00$25.001M10.0
google/gemini-3.5-flashGoogle Direct$1.50$9.001M9.0
qwen/qwen3.7-maxAlibaba Cloud$1.25$3.751M5.0
qwen/qwen3.7-max-2026-05-20Alibaba Cloud$1.25$3.751M5.0
qwen/qwen3.6-flashAlibaba Cloud$0.250$1.501M7.0
qwen/qwen3.6-35b-a3bAlibaba Cloud$0.248$1.48262K8.0
+ 194 weitere Modelle · Preise alle 60 Sek. aktualisiert

Alles, was dein OpenAI-Client bereits aufruft.

Streaming, Tool-Calls, strukturierte Ausgaben, Vision, Embeddings und Audio – unverändert über jedes Modell geroutet.

ModellStreamingToolsStrukturiertVisionEmbeddingsAudio
anthropic/claude-opus-4.8unterstütztunterstütztunterstütztunterstütztnicht unterstütztnicht unterstützt
grok/grok-4.3unterstütztunterstütztunterstütztunterstütztnicht unterstütztnicht unterstützt
openai/gpt-5.5-prounterstütztunterstütztunterstütztunterstütztnicht unterstütztnicht unterstützt
google/gemini-3.1-pro-previewunterstütztunterstütztunterstütztunterstütztnicht unterstütztunterstützt
anthropic/claude-opus-4.7unterstütztunterstütztunterstütztunterstütztnicht unterstütztnicht unterstützt
Preise

Routing ist kostenlos.
Bezahl für Features.

Von deinen Token-Ausgaben nehmen wir keinen Cent – unser Umsatz kommt allein aus optionalen Team-Features. So ziehen wir immer am selben Strang wie du.

Null-Aufschlag-Garantie
Du zahlst Anbietern direkt deren veröffentlichte Preise. Auf die Token-Kosten schlagen wir nichts auf. Routing ist kostenlos; der optionale Team-Plan finanziert die Plattform.
$0.00Routing-Gebühr

Hacker

Kostenlos
Für immer. Null Aufschlag auf alle Token.
✓ Routen – 200+ Modelle, Auto-Failover
✓ Beobachten – Basis-Dashboard
✓ Verwalten – Prompt-Versionierung
✓ 3 API-Keys · 0 % Token-Aufschlag
Kostenlos starten

Enterprise

Individuell
99,99 % SLA und private Bereitstellung – Enterprise-Absicherung inklusive.
✓ Alles aus Team
✓ Private / On-Prem-Bereitstellung
✓ 99,99 % Uptime-SLA
✓ Dedizierte Infrastruktur
✓ Dedizierter Support & individuelle Preise
Vertrauen & Compliance

Unabhängig auditiert. Durchgängig compliant.

Auditberichte werden unter NDA bereitgestellt – fordere unten eine Kopie an.

Klüger, sicherer, kosteneffizient.

Tausche eine Zeile. Das ist die Migration.

Mit GitHub registrieren – $5 an Tokens gratis. Keine Kreditkarte nötig. In unter einer Minute live.