Google Gemini 3.1 Pro Preview: Flaggschiff-Multimodalmodell mit 1M Kontextfenster und 95.6 τ²-Bench Score, zugänglich über die OrcaRouter API.
Google Gemini 3.1 Pro Preview ist ein Flaggschiff-Modell von Google, das in einer Vorschauversion angeboten wird. Es handelt sich um ein multimodales Modell, das Text-, Bild-, Video-, Audio- und Dateieingaben verarbeiten kann. Das Modell wird als Flaggschiff-Kategorie eingestuft, was bedeutet, dass es für anspruchsvolle, komplexe Anwendungen entwickelt wurde, bei denen Leistung und Kapazität entscheidend sind. Als Vorschauversion kann es im Vergleich zu stabilen Versionen Einschränkungen in der Stabilität oder Verfügbarkeit aufweisen. Der Zugriff erfolgt über die OrcaRouter-API.
Dieses Modell richtet sich an Entwickler und Unternehmen, die große Kontextfenster von bis zu 1.048.576 Token verarbeiten müssen und multimodales Verständnis benötigen. Anwendungsfälle umfassen die Analyse langer Dokumente, Videomoderation, fortschrittliche Chatbots mit Gedächtnis für ganze Gespräche sowie komplexe Datenextraktion aus gemischten Medien. Der Vorschau-Status macht es für Experimente und frühe Integration geeignet, aber Produktionsbereitstellungen sollten die Stabilität bewerten. Es ist auch ideal für Teams, die bereits die OpenAI-kompatible API von OrcaRouter nutzen und die neuesten Flaggschiff-Funktionen von Google testen möchten.
Das Modell unterstützt ein Kontextfenster von 1.048.576 Tokens (Eingabe) und eine maximale Ausgabe von 65.536 Tokens. Es akzeptiert Eingaben in mehreren Modalitäten: Audio, Dateien (z. B. PDF, Codedateien), Bilder, Text und Video. Der Benchmark-Spitzenwert liegt bei 95,6 auf τ²-Bench, einer Metrik, die die Aufgabenerfüllungsleistung misst. Das Modell wird von seinem Anbieter Google als Flaggschiff-Kategorie eingestuft. Es wird über die API von OrcaRouter unter der Basis-URL https://api.orcarouter.ai/v1 mit der Modell-ID "google/gemini-3.1-pro-preview" aufgerufen.
Als Vorschauversion von Gemini 3.1 Pro steht dieses Modell an der Spitze der aktuellen Google-Reihe unter den Vorabveröffentlichungen. Es bietet einen deutlich größeren Kontextbereich (1M Tokens) und höhere Ausgabelimits (65K Tokens) im Vergleich zu früheren Gemini 2.0-Modellen oder Gemini 3.0-Vorschauen. Der τ²-Bench-Score von 95,6 bietet einen quantitativen Maßstab für aufgabenorientierte Leistung. Im Vergleich zu anderen Vorschaumodellen von Google richtet sich dieses an die anspruchsvollsten Anwendungsfälle, bei denen sowohl die Breite des Kontexts als auch die Tiefe des Denkens erforderlich sind.
Gemini 3.1 Pro Preview ist multimodal und kann Audio, Dateien (einschließlich Dokumente, Code und Tabellenkalkulationen), Bilder, Texte und Videoeingaben verarbeiten. Dadurch kann es innerhalb eines einzigen Gesprächs über verschiedene Datentypen hinweg schlussfolgern. Sie können beispielsweise ein Bild zusammen mit einer Textaufforderung hochladen, in der nach dessen Inhalt gefragt wird, oder ein Video zusammen mit einem Transkript analysieren. Die Dateieingabemodalität unterstützt strukturierte und unstrukturierte Daten, was sie für Aufgaben der Dokumentenanalyse und Datenextraktion nützlich macht.
Das Modell unterstützt einen Kontextfenster von 1.048.576 Tokens für die Eingabe. Dies ist eines der größten verfügbaren Kontextfenster in einem Flaggschiff-Modell. Es ermöglicht die Verarbeitung sehr langer Dokumente, ganzer Codebasen oder stundenlanger Video-Transkripte in einer einzigen Anfrage. In Kombination mit dem Ausgabelimit von 65.536 Token ermöglicht es die umfangreiche Erstellung von Berichten, Zusammenfassungen oder mehrstufigen Argumentationsketten, ohne dass eine Seitenaufteilung oder Aufteilung der Eingaben erforderlich ist.
Ideale Anwendungsfälle umfassen die Zusammenfassung langer Dokumente, mehrschrittige Konversationsagenten mit Gedächtnis für vollständige Benutzerverläufe, Videoinhaltsanalyse, komplexe Datenextraktion aus gemischten Medien sowie agentische Aufgaben, die hohe Genauigkeit erfordern (wie im τ²-Bench-Score widergespiegelt). Das Modell zeichnet sich auch bei Aufgaben aus, die mehrere Eingabetypen kombinieren, wie etwa die Analyse eines Diagramms in einem Bild während des Lesens eines zugehörigen Textabschnitts. Für einfachere Aufgaben kann ein günstigeres Modell kosteneffizienter sein, aber der Overhead des großen Kontexts ist für anspruchsvolle Anwendungen gerechtfertigt.
Für Aufgaben, die nur kurze Textgenerierung, einfache Klassifizierung oder Reaktionen mit niedriger Latenz erfordern, kann ein kleineres oder nicht-Flaggschiff-Modell angemessener sein. Das große Kontextfenster und die multimodale Kapazität von Gemini 3.1 Pro Preview sind mit höheren Rechenkosten pro Anfrage verbunden. Wenn Ihr Anwendungsfall nicht den vollen 1M Token-Kontext oder die Ausgabe von 65K Token benötigt, erwägen Sie die Verwendung eines leichteren Modells, das über OrcaRouter verfügbar ist, wie z.B. Gemini 2.0 Flash oder andere kosteneffiziente Alternativen. Bewerten Sie stets den Kosten-Leistungs-Kompromiss basierend auf Ihrer durchschnittlichen Eingabe- und Ausgabe-Token-Nutzung.
Das Modell erreichte eine Punktzahl von 95,6 im τ²-Bench. τ²-Bench ist ein Benchmark, der die Leistung bei der Aufgabenerfüllung in einer Vielzahl von agentischen, reasoning- und planungsbasierten Aufgaben bewertet. Eine Punktzahl von 95,6 deutet auf eine hohe Genauigkeit bei der Durchführung solcher Aufgaben hin. Obwohl die genaue Zusammensetzung des τ²-Bench nicht angegeben ist, positioniert die Punktzahl dieses Modell als starken Leistungsträger für strukturierte Entscheidungsfindung und mehrschrittige Reasoning-Herausforderungen. Sie dient als quantitativer Indikator für die Fähigkeiten des Modells im Vergleich zu anderen großen Modellen.
Die Latenzdetails für Gemini 3.1 Pro Preview sind in den verfügbaren Fakten nicht enthalten. Aufgrund der Flaggschiff-Kategorie und des großen Kontextfensters (1M Tokens) sowie des Ausgabelimits (65K Tokens) variieren die Antwortzeiten jedoch je nach Eingabelänge, angefordertem Output und Serverauslastung. Die Verarbeitung sehr langer Eingaben oder die Generierung großer Ausgaben dauert länger als bei kleineren Modellen. Für Echtzeitanwendungen sollten Sie ein schnelleres Modell in Betracht ziehen. Die API von OrcaRouter bietet keine spezifischen Latenzgarantien für dieses Vorschaumodell.
Die Stärken des Modells, abgeleitet aus seinen Spezifikationen, umfassen eine sehr große Kontextkapazität (1,048,576 Tokens), ein hohes Ausgabetoken-Limit (65,536 Tokens), Unterstützung für multimodale Eingaben und einen starken τ²-Bench-Wert (95.6). Diese Eigenschaften machen es geeignet für komplexe Aufgaben, die ein Denken über lange Kontexte und mehrere Datentypen erfordern. Der Vorschau-Status ermöglicht möglicherweise einen frühen Zugang zu erweiterten Fähigkeiten vor der stabilen Veröffentlichung. Die Einstufung als Flaggschiff-Tier deutet darauf hin, dass es für Anwendungen mit hohem Bedarf konzipiert ist.
Als Vorschaumodell bietet Gemini 3.1 Pro Preview möglicherweise nicht dieselbe Stabilität, Verfügbarkeit oder denselben Support wie eine stabile Version. Es kann ohne Vorankündigung zu Änderungen oder zur Einstellung kommen. Es werden keine spezifischen Latenz- oder Durchsatzzahlen genannt, daher ist das Verhalten unter Last unbekannt. Der Benchmark-Wert auf τ²-Bench ist eine einzelne Metrik und spiegelt möglicherweise nicht die Leistung bei allen Aufgaben wider. Darüber hinaus kann das große Kontextfenster die Kosten und die Antwortzeit erhöhen. Benutzer sollten vor dem Produktionseinsatz gründlich testen.
Einzelheiten zur Preisgestaltung für das Gemini 3.1 Pro Preview sind in den verfügbaren Fakten nicht enthalten. Als Flaggschiff-Modell ist es in der Regel teurer als kleinere oder nicht zum Flaggschiff gehörende Varianten, wobei die Kosten typischerweise auf der Anzahl der Eingabe- und Ausgabe-Tokens basieren. Das große Kontextfenster (1M Token) und das Ausgabelimit (65K Token) können zu einem erheblichen Token-Verbrauch pro Anfrage führen. OrcaRouter kann tokenbasierte Preise für Eingabe und Ausgabe anwenden, mit möglichen Zuschlägen für multimodale Eingaben. Benutzer sollten die Preisseite von OrcaRouter für aktuelle Tarife konsultieren.
Bei der Verwendung von Gemini 3.1 Pro Preview ist der größte Kostenfaktor der Token-Verbrauch. Eine einzelne Anfrage, die den gesamten Kontext von 1 Mio. Token nutzt, verursacht hohe Kosten für die Eingabe-Token. Ebenso erhöht die Generierung von bis zu 65K Ausgabe-Token die Ausgabekosten. Für Anwendungsfälle, die nicht den gesamten Kontext oder die gesamte Ausgabe benötigen, können Benutzer möglicherweise Kosten senken, indem sie die Eingaben kürzen oder ein niedrigeres max_tokens festlegen. Caching (falls von OrcaRouter unterstützt) könnte redundante Eingabekosten reduzieren, es werden jedoch keine Details zum Caching bereitgestellt. Bewerten Sie die durchschnittlichen Nutzungsmuster, um zu entscheiden, ob ein günstigeres Modell wirtschaftlicher ist.
Die verfügbaren Informationen geben nicht an, ob OrcaRouter Caching für Gemini 3.1 Pro Preview anbietet. Viele API-Anbieter bieten Token-Caching für wiederholte Eingabepräfixe an, was Kosten senken und die Latenz verbessern kann. Falls Caching verfügbar ist, wäre es vorteilhaft für Anwendungsfälle mit häufigen wiederholten Anweisungen oder Systemaufforderungen. Benutzer sollten die Dokumentation von OrcaRouter auf Caching-Unterstützung prüfen. Ohne Caching fallen bei jeder Anfrage die vollen Kosten für die Eingabe-Token an.
Es werden keine spezifischen Preisvergleiche angegeben. Allgemein sind Flaggschiffmodelle pro Token teurer als kleinere Modelle. Gemini 3.1 Pro Preview, als Flaggschiff-Vorschau, hat wahrscheinlich höhere Kosten pro Token als Gemini 2.0 Flash oder Gemini 2.0 Pro. Da es sich jedoch um eine Vorschau handelt, können die Preise werblich oder änderbar sein. Benutzer sollten die von OrcaRouter gelisteten Preise für jedes Google-Modell vergleichen, um die kosteneffektivste Option für ihre Arbeitslast zu ermitteln.
Um Gemini 3.1 Pro Preview auf OrcaRouter zu verwenden, senden Sie Anfragen an den OpenAI-kompatiblen API-Endpunkt unter https://api.orcarouter.ai/v1/chat/completions. Setzen Sie den Modellparameter auf "google/gemini-3.1-pro-preview". Die API akzeptiert Standardparameter wie messages, max_tokens, temperature und top_p. Verwenden Sie für multimodale Eingaben das content-Array mit dem entsprechenden Typ (text, image_url usw.). Beispielcode und SDKs sind in der OrcaRouter-Dokumentation verfügbar.
Sie können die maximale Anzahl von Ausgabe-Tokens auf bis zu 65,536 konfigurieren, indem Sie den Parameter max_tokens verwenden. Das Modell unterstützt temperature, top_p und andere gängige Sampling-Parameter. Geben Sie bei multimodaler Eingabe den Inhaltstyp im messages-Array an. Das Kontextfenster von 1,048,576 Token gilt für alle eingegebenen Token zusammen. Alle Parameter folgen der OpenAI Chat Completions Spezifikation. Beziehen Sie sich auf die API-Referenz von OrcaRouter für etwaige modellspezifische Einschränkungen oder zusätzliche Parameter.
Die Migration zu OrcaRouter ist unkompliziert, da es eine OpenAI-kompatible API verwendet. Ändern Sie einfach die Basis-URL auf https://api.orcarouter.ai/v1 und aktualisieren Sie die Modell-ID auf "google/gemini-3.1-pro-preview". Die Authentifizierungsmethoden (API-Key) sind ähnlich. Falls Sie ein anderes Google-Modell genutzt haben, müssen Sie möglicherweise Anpassungen für unterschiedliche Fähigkeiten vornehmen (z. B. Kontextfenstergröße, multimodale Verarbeitung). Testen Sie mit Beispielanfragen, um die Kompatibilität sicherzustellen. Die Dokumentation von OrcaRouter bietet Migrationsleitfäden für gängige Konfigurationen.
Als Vorschaumodell kann Gemini 3.1 Pro Preview niedrigere Ratenlimits, geringere Zuverlässigkeit aufweisen oder ohne Vorankündigung geändert werden. Es ist für Tests und Evaluierungen vorgesehen. Wenn Sie ein stabiles Produktionsmodell benötigen, ziehen Sie ein Nicht-Vorschaumodell in Betracht. Die API kann je nach Auslastung schneller oder langsamer antworten. Überwachen Sie die Leistung und halten Sie ein Fallback-Modell bereit. OrcaRouter kann die Modell-ID aktualisieren oder Vorschauversionen einstellen; planen Sie entsprechend.
Im Vergleich zu früheren Google-Modellen wie Gemini 2.0 Pro bietet diese Vorschau ein wesentlich größeres Kontextfenster (1M vs. 32K Tokens) und eine höhere Ausgabelimit (65K vs. 8K Tokens). Sie unterstützt außerdem zusätzliche Eingabemodalitäten wie Video und Dateien auf integriertere Weise. Der τ²-Bench-Score von 95,6 ist spezifisch für dieses Modell und weist auf eine starke Aufgabenleistung hin. Allerdings kann es als Vorschauversion an der Stabilität der stabilen Veröffentlichungen von Gemini 2.0 oder Gemini 3.0 mangeln. Die Flaggschiff-Stufe platziert es in Bezug auf Leistungsfähigkeit und Kosten über Gemini 2.0 Flash.
Es werden keine direkten Benchmark-Vergleiche bereitgestellt. Das 1-Millionen-Token-Kontextfenster des Modells gehört zu den größten verfügbaren und übertrifft oder erreicht viele Mitbewerber. Die Unterstützung für multimodale Eingaben ist breit gefächert (Audio, Datei, Bild, Text, Video). Der τ²-Bench-Score von 95,6 bietet einen Vergleichspunkt für agentische Aufgaben, aber ohne die Ergebnisse anderer Modelle im selben Benchmark ist ein vollständiger Vergleich nicht möglich. Benutzer sollten basierend auf ihren spezifischen Anwendungsanforderungen bewerten.
Wählen Sie dieses Modell, wenn Ihre Aufgabe einen möglichst großen Kontextfenster (bis zu 1M Tokens) und eine hohe Ausgabegenerierung (bis zu 65K Tokens) erfordert. Es ist auch die beste Wahl, wenn Sie mehrere Eingabemodalitäten – insbesondere Dateien und Videos – in einem einzigen Reasoning-Durchlauf verarbeiten müssen. Die hohe τ²-Bench-Punktzahl deutet darauf hin, dass es sich hervorragend für komplexe agentische Aufgaben eignet. Wenn Sie bereits OrcaRouter verwenden und die neuesten Flaggschifffähigkeiten von Google testen möchten, ist diese Vorschau ein guter Ausgangspunkt.
Greifen Sie auf ein alternatives Modell zurück, wenn Sie ein stabiles, produktionserprobtes Modell benötigen (da es sich hier um eine Vorschau handelt). Falls Ihr Anwendungsfall geringe Latenzanforderungen oder eine kleine Token-Nutzung hat, wäre ein günstigeres Modell wie Gemini 2.0 Flash oder ein Nicht-Google-Modell kosteneffizienter. Auch wenn Ihre Aufgabe nicht den vollen 1-Million-Token-Kontext oder multimodale Eingaben erfordert, kann ein kleineres Modell schnellere und günstigere Antworten liefern. Bewerten Sie die Abwägungen zwischen Leistungsfähigkeit, Kosten und Zuverlässigkeit für Ihre spezifische Anwendung.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Stufe | Eingabe / 1M Tokens | Ausgabe / 1M Tokens | Cache-Lesen / 1M | Cache-Schreiben / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| Stufe wird durch die Eingabe-Token-Anzahl jeder Anfrage bestimmt | ||||