Gemini 3.5 Flash

google/gemini-3.5-flash
von google · 2026-05-23

Googles effizientes multimodales Modell mit 1M Kontext, hohem Output und kosteneffizienter Preisgestaltung über OrcaRouter.

Ktx1.05M Tokens
Eingabetext + image + video + file + audio
Ausgabetext
p50 TTFT10.00 s
EINGABE$1.50/ 1M Tokens
AUSGABE$9.00/ 1M Tokens
p50 TTFT10.00 s7 T
p95 TTFT10.00 s7 T
DATENVERKEHR4.5MTokens / 7 T

Modelldetails

Was ist Gemini 3.5 Flash?

Gemini 3.5 Flash ist ein großes Sprachmodell, das von Google entwickelt und für Geschwindigkeit und Effizienz optimiert wurde. Es gehört zur Gemini-Familie und ist darauf ausgelegt, multimodale Eingaben – Text, Bild, Video, Datei und Audio – zu verarbeiten und dabei schnelle Antworten zu liefern. Das Modell unterstützt ein Kontextfenster von 1.048.576 Token, sodass es sehr lange Sequenzen wie ganze Bücher, stundenlange Videos oder umfangreiche Code-Repositories verarbeiten kann. Die maximale Ausgabelänge von 65.536 Token ermöglicht umfangreiche Generierungen, darunter vollständige Berichte oder umfangreiche Codedateien. Gemini 3.5 Flash wird über die OpenAI-kompatible API von OrcaRouter bereitgestellt, was bedeutet, dass Sie es mit minimalen Codeänderungen in bestehende Anwendungen integrieren können.

Wer sollte Gemini 3.5 Flash verwenden?

Gemini 3.5 Flash ist ideal für Entwickler und Organisationen, die ein Gleichgewicht zwischen hohem Durchsatz, geringer Latenz und Kosten benötigen. Es eignet sich besonders für Produktionsumgebungen, in denen die Inferenzgeschwindigkeit wichtig ist, wie z. B. Echtzeit-Chatbots, Content-Moderation-Pipelines oder automatisierter Kundensupport. Das großzügige Kontextfenster kommt Nutzern zugute, die große Datensätze, lange Dokumente oder umfangreiche Gesprächsverläufe ohne Aufteilung analysieren müssen. Darüber hinaus können Teams, die multimodale Anwendungen entwickeln – wie Bildbeschriftung, Videozusammenfassung oder Audiotranskription – die native Unterstützung für mehrere Eingabetypen nutzen. Wenn Ihre Arbeitslast extrem hohe Denkfähigkeit oder komplexe Mathematik erfordert, sollten Sie stattdessen ein leistungsstärkeres, langsameres Modell in Betracht ziehen.

Welche Eingabemodalitäten unterstützt Gemini 3.5 Flash?

Gemini 3.5 Flash akzeptiert fünf Eingabemodalitäten: Text, Bild, Video, Datei und Audio. Texteingaben können einfache Zeichenfolgen oder strukturierte Nachrichten sein. Bilder können als base64-kodierte Daten oder URLs übergeben werden; das Modell kann visuelle Inhalte wie Diagramme, Schaubilder oder Fotografien interpretieren. Videoeingaben werden als Bildfolgen oder komprimierte Videodateien unterstützt, sodass das Modell Bewegungen und zeitliche Veränderungen analysieren kann. Dateieingaben umfassen gängige Formate wie PDF, DOCX oder Codedateien; das Modell kann deren Inhalt extrahieren und darüber schlussfolgern. Audioeingaben können roh oder komprimiert sein (z.B. MP3, WAV) und ermöglichen Spracherkennung und Klanganalyse. Alle Modalitäten können in einer einzigen Anfrage kombiniert werden, was Gemini 3.5 Flash zu einem vielseitigen Werkzeug für multimodale Aufgaben macht.

Wie wird auf Gemini 3.5 Flash über OrcaRouter zugegriffen?

OrcaRouter stellt Gemini 3.5 Flash über seine OpenAI-kompatible API zur Verfügung. Die Basis-URL ist https://api.orcarouter.ai/v1, und die spezifische Modell-ID ist "google/gemini-3.5-flash". Sie können es mit jedem OpenAI SDK oder direkten HTTP-Anfragen aufrufen, indem Sie einfach die Basis-URL und den Modellnamen ändern. Die Authentifizierung erfolgt über einen API-Schlüssel, der von OrcaRouter bereitgestellt wird. Die API unterstützt standardmäßige Chat-Completions-Endpunkte, Streaming und optionale Parameter wie temperature, top_p und max_tokens. OrcaRouter erhebt keinen Aufschlag auf den Anbieterpreis, sodass Sie genau $1.50 pro 1M Eingabe-Tokens und $9.00 pro 1M Ausgabe-Tokens zahlen. Es fallen keine zusätzlichen Gateway-Gebühren an.

Code-Beispiele

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Preise

Eingabe / 1M Tokens$1.50
Ausgabe / 1M Tokens$9.00
Cache-Lesen / 1M$0.150
Cache-Schreiben / 1M$0.083
WährungUSD

Leistung

p50 TTFT
10.00 s
Ausgabegeschwindigkeit
10766 tok/s
p95 TTFT
10.00 s
Fehlerquote
0.44%

Öffentliche Benchmarks

49.0
AA Coding
Besser als 68 % der verglichenen Modelle
47.0
AA Intelligence
Besser als 58 % der verglichenen Modelle
51.0
AA Math
Besser als 27 % der verglichenen Modelle
GPQA Diamond
45.0 index
MMLU-Pro
59.0 index
τ²-Bench
42.0 index
Quelle: artificialanalysis.ai

FAQ

Wie viel kostet Gemini 3.5 Flash bei OrcaRouter?
Eingabe-Tokens kosten $1,50 pro 1 Million Tokens; Ausgabe-Tokens kosten $9,00 pro 1 Million Tokens. OrcaRouter berechnet den Anbieterpreis ohne Aufschlag. Es fallen keine zusätzlichen Gebühren an.
Wie groß ist das Kontextfenster von Gemini 3.5 Flash?
Es unterstützt ein Kontextfenster von 1,048,576 Token (etwa 1 Million Token). Dies umfasst sowohl Eingabe- als auch Ausgabe-Token zusammen.
Was sind die Hauptstärken von Gemini 3.5 Flash?
Es ist für geringe Latenz, hohen Durchsatz und Kosteneffizienz optimiert. Es unterstützt multimodale Eingaben (Text, Bild, Video, Datei, Audio) und ein großes Kontextfenster, was es ideal für Echtzeitanwendungen und die Verarbeitung langer Dokumente macht.
Wie schneidet Gemini 3.5 Flash im Vergleich zu Gemini 3.5 Pro ab?
Flash ist schneller und günstiger, hat aber eine geringere Benchmark-Leistung bei komplexen Denkaufgaben und mathematischen Aufgaben. Pro ist genauer, aber langsamer und teurer. Flash eignet sich besser für Anwendungen mit hohem Volumen und Latenzempfindlichkeit.
Wie werden Daten bei der Nutzung von Gemini 3.5 Flash über OrcaRouter gehandhabt?
OrcaRouter fungiert als Proxy und speichert Ihre Daten nicht. Googles Datenverarbeitungsrichtlinien gelten jedoch für das zugrunde liegende Modell. OrcaRouter empfiehlt, Googles Bedingungen zur Datenspeicherung und zum Datenschutz zu überprüfen.
Wie rufe ich Gemini 3.5 Flash mit einer OpenAI-kompatiblen API auf?
Verwende die Basis-URL https://api.orcarouter.ai/v1, die Modell-ID "google/gemini-3.5-flash" und übergib einen OrcaRouter-API-Schlüssel im Authorization-Header. Die API unterstützt standardmäßige Chat Completions und Streaming.
Welche Ausgabelänge kann Gemini 3.5 Flash generieren?
Es kann bis zu 65.536 Token pro Antwort generieren. Dies ist deutlich größer als viele Modelle und ermöglicht Langtext-Inhalte, Code oder erweitertes Denken.
Gibt es einen Rabatt für wiederholte oder zwischengespeicherte Token?
Basierend auf den angegebenen Fakten bietet OrcaRouter kein Caching oder Mengenrabatte an. Jeder Token wird unabhängig von der Wiederverwendung zum Standardsatz abgerechnet.

Dieses Abzeichen einbetten

Gemini 3.5 Flash$1.50/M in10000ms p50via OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash auf OrcaRouter" /> </a>
Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)