Gemini 3.5 Flash

google/gemini-3.5-flash
par google · 2026-05-23

Le modèle multimodal efficace de Google avec un contexte de 1M, une sortie élevée, et une tarification avantageuse via OrcaRouter.

ctx1.05M tokens
Entréetext + image + video + file + audio
Sortietext
p50 TTFT10.00 s
ENTRÉE$1.50/ 1M tokens
SORTIE$9.00/ 1M tokens
p50 TTFT10.00 s7 j
TTFT p9510.00 s7 j
TRAFIC4.5Mtokens / 7 j

Détails du modèle

Qu'est-ce que Gemini 3.5 Flash ?

Gemini 3.5 Flash est un grand modèle de langage développé par Google, optimisé pour la rapidité et l'efficacité. Il appartient à la famille Gemini et est conçu pour traiter des entrées multimodales — texte, image, vidéo, fichier et audio — tout en fournissant des réponses rapides. Le modèle prend en charge une fenêtre de contexte de 1 048 576 tokens, ce qui lui permet de traiter de très longues séquences, comme des livres entiers, des vidéos d'une heure ou de vastes dépôts de code. Sa longueur de sortie maximale de 65 536 tokens permet des générations longues, notamment des rapports complets ou des fichiers de code étendus. Gemini 3.5 Flash est accessible via l'API compatible OpenAI d'OrcaRouter, ce qui signifie que vous pouvez l'intégrer dans des applications existantes avec un minimum de modifications de code.

Qui devrait utiliser Gemini 3.5 Flash ?

Gemini 3.5 Flash est idéal pour les développeurs et les organisations qui ont besoin d'un équilibre entre débit élevé, faible latence et coût. Il est particulièrement adapté aux environnements de production où la vitesse d'inférence est importante, comme les chatbots en temps réel, les pipelines de modération de contenu ou le support client automatisé. La généreuse fenêtre de contexte profite aux utilisateurs qui doivent analyser de grands ensembles de données, de longs documents ou des historiques de conversation étendus sans avoir à les découper. De plus, les équipes construisant des applications multimodales—comme le sous-titrage d'images, le résumé vidéo ou la transcription audio—peuvent tirer parti de sa prise en charge native de plusieurs types d'entrée. Si votre charge de travail exige des capacités de raisonnement extrêmement élevées ou des mathématiques complexes, envisagez plutôt un modèle plus puissant et plus lent.

Quelles modalités d’entrée Gemini 3.5 Flash prend-il en charge ?

Gemini 3.5 Flash accepte cinq modalités d'entrée : texte, image, vidéo, fichier et audio. Les entrées textuelles peuvent être des chaînes simples ou des messages structurés. Les images peuvent être transmises sous forme de données encodées en base64 ou d'URL ; le modèle peut interpréter le contenu visuel comme des graphiques, des diagrammes ou des photographies. Les entrées vidéo sont prises en charge sous forme de séquences d'images ou de fichiers vidéo compressés, ce qui permet au modèle d'analyser les mouvements et les changements temporels. Les entrées de fichiers couvrent des formats courants tels que PDF, DOCX ou des fichiers de code ; le modèle peut extraire et raisonner sur leur contenu. Les entrées audio peuvent être brutes ou compressées (par exemple, MP3, WAV), permettant la transcription de la parole et l'analyse sonore. Toutes les modalités peuvent être combinées dans une seule requête, faisant de Gemini 3.5 Flash un outil polyvalent pour les tâches multimodales.

Comment accède-t-on à Gemini 3.5 Flash via OrcaRouter ?

OrcaRouter expose Gemini 3.5 Flash via son API compatible OpenAI. L’URL de base est https://api.orcarouter.ai/v1 et l’ID de modèle spécifique est « google/gemini-3.5-flash ». Vous pouvez l’appeler avec n’importe quel SDK OpenAI ou via des requêtes HTTP directes, en changeant simplement l’URL de base et le nom du modèle. L’authentification se fait via une clé API fournie par OrcaRouter. L’API prend en charge les endpoints standard de complétion de chat, le streaming et les paramètres optionnels comme temperature, top_p et max_tokens. OrcaRouter n’applique aucune majoration sur le tarif du fournisseur, vous payez donc exactement $1.50 par million de tokens en entrée et $9.00 par million de tokens en sortie. Aucuns frais de passerelle supplémentaires ne sont facturés.

Exemples de code

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Tarifs

Entrée / 1M tokens$1.50
Sortie / 1M tokens$9.00
Lecture cache / 1M$0.150
Écriture cache / 1M$0.083
DeviseUSD

Performances

p50 TTFT
10.00 s
Vitesse de sortie
10766 tok/s
TTFT p95
10.00 s
Taux d'erreur
0.44%

Benchmarks publics

49.0
AA Coding
Meilleur que 68 % des modèles comparés
47.0
AA Intelligence
Meilleur que 58 % des modèles comparés
51.0
AA Math
Meilleur que 27 % des modèles comparés
GPQA Diamond
45.0 index
MMLU-Pro
59.0 index
τ²-Bench
42.0 index
Source: artificialanalysis.ai

FAQ

Combien coûte Gemini 3.5 Flash sur OrcaRouter ?
Les tokens d'entrée sont à 1,50 $ pour 1 million de tokens ; les tokens de sortie sont à 9,00 $ pour 1 million de tokens. OrcaRouter facture au tarif du fournisseur sans marge bénéficiaire. Il n'y a pas de frais supplémentaires.
Quelle est la taille de la fenêtre de contexte de Gemini 3.5 Flash ?
Il prend en charge une fenêtre de contexte de 1 048 576 tokens (environ 1 million de tokens). Cela inclut à la fois les tokens d'entrée et de sortie combinés.
Quelles sont les principales forces de Gemini 3.5 Flash ?
Il est optimisé pour une faible latence, un débit élevé et une rentabilité. Il prend en charge les entrées multimodales (texte, image, vidéo, fichier, audio) et une grande fenêtre de contexte, ce qui le rend idéal pour les applications en temps réel et le traitement de longs documents.
Comment Gemini 3.5 Flash se compare-t-il à Gemini 3.5 Pro ?
Flash est plus rapide et moins cher mais offre des performances de benchmark inférieures sur les tâches de raisonnement complexe et mathématiques. Pro est plus précis mais plus lent et plus cher. Flash est meilleur pour les applications à volume élevé et sensibles à la latence.
Comment les données sont-elles traitées lors de l'utilisation de Gemini 3.5 Flash via OrcaRouter ?
OrcaRouter agit comme un proxy et ne stocke pas vos données. Cependant, les politiques de traitement des données de Google s'appliquent au modèle sous-jacent. OrcaRouter recommande de consulter les conditions de Google concernant la conservation des données et la confidentialité.
Comment appeler Gemini 3.5 Flash via une API compatible OpenAI ?
Utilisez l'URL de base https://api.orcarouter.ai/v1, l'ID du modèle "google/gemini-3.5-flash", et transmettez une clé API OrcaRouter dans l'en-tête Authorization. L'API prend en charge les complétions de chat standard et le streaming.
Quelle longueur de sortie Gemini 3.5 Flash peut-il générer ?
Il peut générer jusqu'à 65 536 jetons par réponse. C'est considérablement plus que de nombreux modèles, permettant du contenu de longue forme, du code ou un raisonnement étendu.
Y a-t-il une réduction pour les jetons répétés ou mis en cache ?
D'après les faits fournis, OrcaRouter n'offre pas de mise en cache ni de remises sur le volume. Chaque jeton est facturé au tarif standard, indépendamment de la réutilisation.

Intégrer ce badge

Gemini 3.5 Flash$1.50/M in10000ms p50via OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash sur OrcaRouter" /> </a>
Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)