Google Gemini 3.1 Pro Preview Custom Tools – 1M Kontext, 95.6 τ²-Bench, multimodal via OrcaRouter.
Google Gemini 3.1 Pro Preview Custom Tools ist ein Sprachmodell der Vorschauphase, das von Google entwickelt wurde. Es ist für Aufgaben konzipiert, die langes Denken, große Kontextfenster und die Integration mit externen Tools erfordern. Das Modell akzeptiert Eingaben in den Formaten Text, Audio, Bild, Video und Datei und ist damit eine multimodale Lösung sowohl für das Verständnis als auch für die Generierung von Inhalten. Über OrcaRouter können Sie das Modell mit einer OpenAI-kompatiblen API unter der Basis-URL https://api.orcarouter.ai/v1 mit der Modell-ID „google/gemini-3.1-pro-preview-customtools“ aufrufen. Diese Kompatibilität erleichtert die Integration für Teams, die bereits mit dem OpenAI SDK oder ähnlichen Clients vertraut sind. Als Vorschaumodell kann es im Vergleich zu stabilen Versionen Einschränkungen bei der Verfügbarkeit oder Leistung aufweisen.
Dieses Modell eignet sich für Entwickler, Datenwissenschaftler und Unternehmensteams, die sehr lange Dokumente (bis zu 1 Million Token) verarbeiten oder mehrere Eingabemodalitäten (Text, Audio, Bild, Video, Dateien) in einem einzigen Reasoning-Schritt kombinieren müssen. Besonders wertvoll ist es für Aufgaben, die die Nutzung benutzerdefinierter Tools erfordern – bei denen das Modell entscheiden muss, wann und wie externe Funktionen oder APIs aufgerufen werden. Teams, die in den Bereichen Forschung, Rechtsanalyse, Medienverarbeitung oder fortgeschrittener Automatisierung tätig sind, werden von dem großen Kontext und der starken Benchmark-Leistung profitieren. Da es sich um eine Vorschauversion handelt, eignet es sich möglicherweise ideal für Prototyping und Evaluierung, weniger jedoch für Produktionssysteme, die garantierte Verfügbarkeit oder niedrige Latenz erfordern.
Das Modell bietet ein Kontextfenster von 1.048.576 Tokens und eine maximale Ausgabe von 65.536 Tokens. Die Eingabemodalitäten umfassen Text, Audio, Bild, Video und Datei-Uploads. Der Spitzen-Benchmark-Score beträgt 95,6 auf τ²-Bench, einem Test zur Werkzeugnutzungslogik. Die Preise betragen 4,00 $ pro 1M Eingabe-Tokens und 18,00 $ pro 1M Ausgabe-Tokens, mit einem Nullaufschlag bei Zugriff über OrcaRouter. Die API ist OpenAI‑kompatibel, und die Modell-ID lautet "google/gemini-3.1-pro-preview-customtools". Als Vorschau spiegelt es die neuesten Fähigkeiten wider, kann jedoch Änderungen unterliegen.
Gemini 3.1 Pro Preview Custom Tools akzeptiert Eingaben in Text-, Audio-, Bild-, Video- und Dateiformaten. So können Sie Audiomitschnitte, Fotos, Videoclips und hochgeladene Dokumente zusammen mit Textanfragen in einer einzigen Anfrage übermitteln. Das Modell kann über diese Modalitäten hinweg schlussfolgern, um Textausgaben zu erzeugen. Diese multimodale Fähigkeit ermöglicht es, ein Bild zu beschreiben und eine Frage dazu zu stellen, Audio zu transkribieren und gleichzeitig Analysen durchzuführen oder ein Video mit einer textuellen Anweisung zu kombinieren. Die genauen Grenzen für Auflösung, Codec oder Dateigröße sind in den verfügbaren Fakten nicht angegeben, aber das Modell kann verschiedene Medien nativ verarbeiten.
Die Bezeichnung "Custom Tools" bedeutet, dass das Modell optimiert ist, um benutzerdefinierte Funktionen oder APIs als Teil seiner Argumentation aufzurufen. In einem typischen Arbeitsablauf stellen Sie eine Reihe von Funktionsdefinitionen bereit (einschließlich Namen, Parameter und Beschreibungen), und das Modell entscheidet, wann es sie aufruft, um eine Anfrage zu erfüllen. Diese Fähigkeit ermöglicht autonome Arbeitsabläufe wie das Abfragen einer Datenbank, das Senden einer E-Mail oder das Ausführen eines Code-Snippets. Das Modell kann mehrere Werkzeugaufrufe miteinander verketten. Der hohe τ²-Bench-Wert (95.6) deutet auf eine starke Leistung bei Aufgaben hin, die Planung und Werkzeugorchestrierung erfordern.
Das Modell unterstützt ein Kontextfenster von 1,048,576 Token (entspricht ungefähr 1 Million Token). Dies ermöglicht es Ihnen, ganze Bücher, lange Codebasen, mehrstufige Gespräche oder umfangreiche Protokolle als Kontext zu übergeben. Die maximale Ausgabe beträgt 65,536 Token pro Anfrage. Diese Größen gehören zu den größten, die in der aktuellen Modelllandschaft verfügbar sind. Der große Kontext ist nützlich für Aufgaben wie das Zusammenfassen eines vollständigen Transkripts, das Beantworten von Fragen zu einem großen Dokumentensatz oder das Aufrechterhalten eines sehr langen Gesprächsverlaufs ohne Kürzung.
Da Gemini 3.1 Pro Preview Custom Tools mit 4,00 $ pro 1M Input-Tokens und 18,00 $ pro 1M Output-Tokens bepreist ist, handelt es sich um ein Premium-Angebot. Für einfachere Aufgaben – wie Kurztext-Klassifikation, grundlegende Zusammenfassungen oder Einzelschritt-Chats – kann ein kleineres, günstigeres Modell kosteneffizienter sein. Ziehen Sie Alternativen von OrcaRouter in Betracht, wie z. B. Gemini 1.5 Flash (geringere Kosten, geringere Latenz) oder andere leichte Modelle, wenn Sie das 1M-Kontextfenster, multimodale Eingaben oder die Tool-Use-Benchmark-Leistung nicht benötigen. Verwenden Sie dieses Modell, wenn die Aufgabenkomplexität die höheren Kosten pro Token rechtfertigt.
Das Modell erreichte eine Headline-Bewertung von 95,6 auf τ²-Bench (τ²-Bench). Dieser Benchmark bewertet die Fähigkeit eines Modells, Tool‑Use‑Reasoning durchzuführen: Planung und Ausführung von Sequenzen von Funktionsaufrufen, um eine realistische Aufgabe zu bewältigen. Die hohe Punktzahl deutet auf eine starke Kompetenz bei der autonomen Aufgabenerfüllung und Entscheidungsfindung hin. τ²-Bench ist ein neuerer Benchmark, der sich auf die Komplexität realer Szenarien konzentriert. Eine Punktzahl von 95,6 gilt als sehr hoch, obwohl zu beachten ist, dass kein einzelner Benchmark alle Aspekte der Modellqualität vollständig erfasst. Das Modell kann bei anderen hier nicht aufgeführten Benchmarks eine andere Leistung aufweisen.
Auf der Grundlage des τ²-Bench-Ergebnisses ist das Modell hervorragend geeignet für Aufgaben, die strukturiertes Denken und Werkzeugorchestrierung erfordern. Dazu gehören mehrstufiger Abruf, Datentransformation und API-Aufrufe. Der große Kontextbereich ermöglicht es dem Modell zudem, sehr lange Anweisungen oder externe Daten zu verarbeiten, ohne die Kohärenz zu verlieren. Die multimodale Eingabefähigkeit ist eine weitere Stärke, die es dem Modell ermöglicht, über verschiedene Medientypen hinweg zu schlussfolgern. Für Anwendungsfälle wie die Analyse eines Videoclips und die Beantwortung von Fragen dazu oder die Verarbeitung einer Audiodatei zusammen mit einer Textabfrage ist dieses Modell im Vergleich zu rein textbasierten Alternativen gut positioniert.
Kein Benchmark oder Modell ist perfekt. Der τ²-Bench-Score von 95.6 garantiert nicht die gleiche Leistung bei jeder realen Aufgabe, insbesondere bei Aufgaben außerhalb des Anwendungsbereichs des Benchmarks. Das Modell kann bei Aufgaben, die sehr spezifisches Fachwissen erfordern, oder bei sicherheitsorientierten Bewertungen, die nicht von τ²-Bench abgedeckt werden, schlechter abschneiden. Als Vorschaumodell kann es eine höhere Latenz oder geringere Zuverlässigkeit aufweisen als ein vollständig veröffentlichtes Modell. Die verfügbaren Fakten enthalten keine Latenzzahlen, daher sollten Sie mit Ihren eigenen Arbeitslasten testen. Darüber hinaus kann das große Kontextfenster die Verarbeitungszeit und die Kosten erhöhen, und nicht alle Aufgaben profitieren von der vollen Million-Token-Kapazität.
Exakte Latenzzahlen werden in den verfügbaren Fakten für Gemini 3.1 Pro Preview Custom Tools nicht angegeben. Im Allgemeinen können Modelle mit einem sehr großen Kontextfenster (über 1 Million Token) länger für die Verarbeitung von Anfragen benötigen, insbesondere solche, die den gesamten Kontext nutzen. Die Latenz hängt auch von der Komplexität der Anfrage, der Anzahl der Tool‑Aufrufe und der aktuellen Serverlast ab. OrcaRouter bietet möglicherweise Streaming‑Antworten, um die Zeit bis zum ersten Token zu verkürzen. Für Echtzeitanwendungen sollten Sie die Leistung mit kleineren Modellen vergleichen. Erwägen Sie, eigene Latenztests mit typischen Eingabeaufforderungen durchzuführen, um festzustellen, ob die Geschwindigkeit Ihren Anforderungen entspricht.
Die Preise für Gemini 3.1 Pro Preview Custom Tools betragen 4,00 $ pro 1 Million Input-Token und 18,00 $ pro 1 Million Output-Token. Diese Tarife werden zum Anbietertarif ohne Aufschlag berechnet, wenn die Preise über OrcaRouter abgerufen werden. Das bedeutet, der angezeigte Preis ist der Preis, den Google verlangt, ohne zusätzliche Gebühren von OrcaRouter. Input-Token umfassen alle Token im Prompt (Text-, Bild-, Audio-Token usw.). Output-Token sind die generierte Antwort. Die maximale Ausgabe des Modells beträgt 65.536 Token, sodass eine einzelne Anfrage bis zu 65.536 / 1.000.000 * 18,00 = etwa 1,18 $ an Output-Token kosten könnte, zuzüglich der Kosten für Input-Token.
"Nullaufschlag" bedeutet, dass OrcaRouter die genauen Kosten pro Token vom Anbieter (Google) ohne jeden Aufschlag an Sie weitergibt. Sie zahlen $4.00 pro 1 Million Eingabe-Token und $18.00 pro 1 Million Ausgabe-Token – derselbe Preis, als ob Sie die Google-API direkt aufrufen würden. OrcaRouter kann separate Abonnement- oder Nutzungsgebühren für den Gateway-Dienst erheben, aber der Preis pro Token des Modells wird nicht erhöht. Diese Preisstruktur ist transparent und hilft Ihnen, Ihr Budget genau zu planen. Überprüfen Sie stets die aktuellen Bedingungen von OrcaRouter auf etwaige zusätzliche Gebühren.
Die hohen Kosten pro Token bedeuten, dass Sie Ihre Nutzung sorgfältig abschätzen sollten. Bei Prompts, die das volle 1M-Kontextfenster nutzen, können die Eingabekosten bis zu 4,00 $ pro Anfrage betragen. Wenn Ihre Aufgabe mit einem kleineren Kontext erledigt werden kann, sollten Sie eine Kürzung oder die Verwendung eines günstigeren Modells in Betracht ziehen. Caching wird in den verfügbaren Fakten nicht erwähnt; falls OrcaRouter Prompt-Caching anbietet, könnte dies die Kosten für wiederholte Eingaben senken. Da es sich außerdem um ein Vorschaumodell handelt, können sich die Preise ändern, sobald eine stabile Version veröffentlicht wird. Bewerten Sie die typische Token-Anzahl Ihres Workloads, um zu entscheiden, ob die Kosten gerechtfertigt sind.
Sie greifen auf das Modell über die OpenAI-kompatible API von OrcaRouter zu. Setzen Sie Ihre Basis-URL auf `https://api.orcarouter.ai/v1` und verwenden Sie die Modell-ID `google/gemini-3.1-pro-preview-customtools`. Die API akzeptiert die üblichen Anfrageformate von OpenAI. Ein Beispiel mit der openai-Bibliothek von Python: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` Sie benötigen einen gültigen OrcaRouter-API-Schlüssel. Die Authentifizierung erfolgt über den `Authorization`-Header.
Da die API OpenAI‑kompatibel ist, können Sie Standardparameter wie `temperature`, `top_p`, `max_tokens`, `stop`, `frequency_penalty`, `presence_penalty` und `stream` verwenden. Für multimodale Anfragen können Sie Bilder, Audio, Video oder Dateien im Nachrichteninhalt im Array-Format einfügen. Für die Tool‑Nutzung definieren Sie Funktionen im `tools`-Parameter als Liste von JSON‑Objekten. Das Modell kann `tool_calls` in der Antwort zurückgeben. Parameter, die für Googles eigene API spezifisch sind (wie `safetySettings`), sind möglicherweise verfügbar oder nicht; konsultieren Sie die Dokumentation von OrcaRouter für Details. Die genaue Parameterunterstützung kann für Vorschaumodelle variieren.
Die Migration von der standardmäßigen OpenAI-API ist unkompliziert. Ändern Sie die `base_url` auf `https://api.orcarouter.ai/v1` und aktualisieren Sie den Parameter `model` auf `google/gemini-3.1-pro-preview-customtools`. Ersetzen Sie Ihren API-Schlüssel durch einen OrcaRouter-Schlüssel. Der meiste Code, der `openai.ChatCompletion.create` oder das neuere `client.chat.completions.create` verwendet, funktioniert mit minimalen Änderungen. Wenn Sie Tool-Aufrufe verwenden, ist das Format identisch mit dem von OpenAI. Beachten Sie jedoch, dass dieses Modell einen anderen Tokenizer hat und bei gleichem Prompt möglicherweise andere Ausgaben liefert. Testen Sie gründlich, bevor Sie umstellen.
OrcaRouter verwendet die Authentifizierung über einen API-Schlüssel. Fügen Sie Ihren Schlüssel in den Request-Header ein als `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`. Sie erhalten einen Schlüssel, indem Sie sich bei OrcaRouter anmelden. Der Schlüssel sollte geheim gehalten und nicht im clientseitigen Code offengelegt werden. Die genaue Authentifizierungsmethode kann variieren; konsultieren Sie stets die aktuelle API-Dokumentation von OrcaRouter. Einige Endpunkte unterstützen möglicherweise zusätzliche Authentifizierungsmethoden, aber der OpenAI-kompatible Endpunkt verwendet das Standard-Bearer-Token-Muster. Stellen Sie sicher, dass Ihre Anfragen über HTTPS gesendet werden.
Gemini 1.5 Pro unterstützt ebenfalls ein Kontextfenster von 1 M Token und multimodale Eingaben, aber das 3.1 Pro Preview Custom Tools erreichte einen τ²-Bench-Wert von 95,6, was eine deutliche Verbesserung gegenüber der 1.5-Serie darstellt (genaue Zahlen für 1.5 werden nicht angegeben). Die Optimierung der „Custom Tools“ ist der entscheidende Unterschied und deutet auf eine bessere Leistung bei Tool‑Use-Aufgaben hin. Die Preisgestaltung ist für das Vorschaumodell höher: Gemini 1.5 Pro ist in der Regel günstiger. Wenn Sie nicht die neueste Tool‑Use-Leistung benötigen, ist Gemini 1.5 Pro möglicherweise die kostengünstigere Wahl. Da es sich bei 3.1 Pro um eine Vorschau handelt, kann es eine geringere Stabilität oder Betriebszeitgarantie als das stabile 1.5 Pro aufweisen.
GPT‑4o unterstützt ebenfalls multimodale Eingaben und die Nutzung von Tools, aber sein Kontextfenster beträgt typischerweise 128k Token – viel kleiner als die 1M Token dieses Modells. Der τ²-Bench-Wert für GPT‑4o ist in den verfügbaren Fakten nicht angegeben, daher ist ein direkter Vergleich nicht möglich. Im Allgemeinen bietet Gemini 3.1 Pro Preview Custom Tools ein deutlich größeres Kontextfenster, was es besser für Aufgaben mit langen Dokumenten geeignet macht. GPT‑4o könnte bei bestimmten Sprach-Benchmarks oder durch breitere Ökosystemunterstützung eine bessere Leistung erbringen. Die Preisgestaltung für GPT‑4o ist ebenfalls anders; vergleichen Sie die Kosten pro Token, beachten Sie jedoch, dass die Ausgabekosten dieses Modells ($18/M) relativ hoch sind.
Claude 3 Opus unterstützt ein Kontextfenster von 200.000 Tokens, weit weniger als die 1 Million von Gemini 3.1 Pro Preview. Benchmarks wie τ²-Bench werden für Claude normalerweise nicht gemeldet, daher sind direkte Vergleiche spekulativ. Claude ist für starkes logisches Denken und Befolgen von Anweisungen bekannt. Die Wahl zwischen ihnen hängt von Ihrem Bedarf an einem 1-Millionen-Kontext und multimodaler Eingabe gegenüber spezifischen Stärken in Sicherheit, Schreibstil oder Ökosystem ab. Wenn Ihr Anwendungsfall die Verarbeitung sehr großer Dokumente oder mehrerer Medientypen erfordert, sind der größere Kontext und die multimodale Unterstützung des Gemini-Modells Vorteile. Kosten und Verfügbarkeit über OrcaRouter sind ebenfalls Faktoren.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Eingabe / 1M Tokens | $4.00 |
| Ausgabe / 1M Tokens | $18.00 |
| Cache-Lesen / 1M | $0.400 |
| Währung | USD |