Gemini 3.5 Flash

Name: Gemini 3.5 Flash API
Brand: google

google/gemini-3.5-flash

par google · 2026-05-23

Le modèle multimodal efficace de Google avec un contexte de 1M, une sortie élevée, et une tarification avantageuse via OrcaRouter.

Points de terminaison:/v1/chat/completions /v1beta/models/{model}:generateContent

ctx1.05M tokens

Entréetext + image + video + file + audio

Sortietext

p50 TTFT10.00 s

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

ENTRÉE$1.50/ 1M tokens

SORTIE$9.00/ 1M tokens

p50 TTFT10.00 s7 j

TTFT p9510.00 s7 j

TRAFIC4.5Mtokens / 7 j

Obtenir l'API Gemini 3.5 Flash →▶ Essayer dans le Playground </> Utiliser via API

Qu'est-ce que Gemini 3.5 Flash ?

Gemini 3.5 Flash est un grand modèle de langage développé par Google, optimisé pour la rapidité et l'efficacité. Il appartient à la famille Gemini et est conçu pour traiter des entrées multimodales — texte, image, vidéo, fichier et audio — tout en fournissant des réponses rapides. Le modèle prend en charge une fenêtre de contexte de 1 048 576 tokens, ce qui lui permet de traiter de très longues séquences, comme des livres entiers, des vidéos d'une heure ou de vastes dépôts de code. Sa longueur de sortie maximale de 65 536 tokens permet des générations longues, notamment des rapports complets ou des fichiers de code étendus. Gemini 3.5 Flash est accessible via l'API compatible OpenAI d'OrcaRouter, ce qui signifie que vous pouvez l'intégrer dans des applications existantes avec un minimum de modifications de code.

Qui devrait utiliser Gemini 3.5 Flash ?

Gemini 3.5 Flash est idéal pour les développeurs et les organisations qui ont besoin d'un équilibre entre débit élevé, faible latence et coût. Il est particulièrement adapté aux environnements de production où la vitesse d'inférence est importante, comme les chatbots en temps réel, les pipelines de modération de contenu ou le support client automatisé. La généreuse fenêtre de contexte profite aux utilisateurs qui doivent analyser de grands ensembles de données, de longs documents ou des historiques de conversation étendus sans avoir à les découper. De plus, les équipes construisant des applications multimodales—comme le sous-titrage d'images, le résumé vidéo ou la transcription audio—peuvent tirer parti de sa prise en charge native de plusieurs types d'entrée. Si votre charge de travail exige des capacités de raisonnement extrêmement élevées ou des mathématiques complexes, envisagez plutôt un modèle plus puissant et plus lent.

Quelles modalités d’entrée Gemini 3.5 Flash prend-il en charge ?

Gemini 3.5 Flash accepte cinq modalités d'entrée : texte, image, vidéo, fichier et audio. Les entrées textuelles peuvent être des chaînes simples ou des messages structurés. Les images peuvent être transmises sous forme de données encodées en base64 ou d'URL ; le modèle peut interpréter le contenu visuel comme des graphiques, des diagrammes ou des photographies. Les entrées vidéo sont prises en charge sous forme de séquences d'images ou de fichiers vidéo compressés, ce qui permet au modèle d'analyser les mouvements et les changements temporels. Les entrées de fichiers couvrent des formats courants tels que PDF, DOCX ou des fichiers de code ; le modèle peut extraire et raisonner sur leur contenu. Les entrées audio peuvent être brutes ou compressées (par exemple, MP3, WAV), permettant la transcription de la parole et l'analyse sonore. Toutes les modalités peuvent être combinées dans une seule requête, faisant de Gemini 3.5 Flash un outil polyvalent pour les tâches multimodales.

Comment accède-t-on à Gemini 3.5 Flash via OrcaRouter ?

OrcaRouter expose Gemini 3.5 Flash via son API compatible OpenAI. L’URL de base est https://api.orcarouter.ai/v1 et l’ID de modèle spécifique est « google/gemini-3.5-flash ». Vous pouvez l’appeler avec n’importe quel SDK OpenAI ou via des requêtes HTTP directes, en changeant simplement l’URL de base et le nom du modèle. L’authentification se fait via une clé API fournie par OrcaRouter. L’API prend en charge les endpoints standard de complétion de chat, le streaming et les paramètres optionnels comme temperature, top_p et max_tokens. OrcaRouter n’applique aucune majoration sur le tarif du fournisseur, vous payez donc exactement $1.50 par million de tokens en entrée et $9.00 par million de tokens en sortie. Aucuns frais de passerelle supplémentaires ne sont facturés.

Exemples de code

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Tarifs

Entrée / 1M tokens	$1.50
Sortie / 1M tokens	$9.00
Lecture cache / 1M	$0.150
Écriture cache / 1M	$0.083
Devise	USD

Performances

7 derniers jours

p50 TTFT

10.00 s

Vitesse de sortie

10766 tok/s

TTFT p95

10.00 s

Taux d'erreur

0.44%

Benchmarks publics

Dernière évaluation 2026-06-25

49.0

AA Coding

Meilleur que 68 % des modèles comparés

47.0

AA Intelligence

Meilleur que 58 % des modèles comparés

51.0

AA Math

Meilleur que 27 % des modèles comparés

GPQA Diamond

45.0 index

MMLU-Pro

59.0 index

τ²-Bench

42.0 index

Source: artificialanalysis.ai

Plus de google

Voir tous les modèles de google →

Gemini 3.1 Pro PreviewPhare

google/gemini-3.1-pro-preview

$2.00 entrée · $12.00 sortie / 1M

1.05M ctx· qualité 10/10

Gemini 3.1 Pro Preview Custom Tools

google/gemini-3.1-pro-preview-customtools

$4.00 entrée · $18.00 sortie / 1M

1.05M ctx· qualité 10/10

Gemini 3 Flash PreviewLe moins cher

google/gemini-3-flash-preview

$0.50 entrée · $3.00 sortie / 1M

1.05M ctx· qualité 9/10

FAQ

Combien coûte Gemini 3.5 Flash sur OrcaRouter ?

Les tokens d'entrée sont à 1,50 $ pour 1 million de tokens ; les tokens de sortie sont à 9,00 $ pour 1 million de tokens. OrcaRouter facture au tarif du fournisseur sans marge bénéficiaire. Il n'y a pas de frais supplémentaires.

Quelle est la taille de la fenêtre de contexte de Gemini 3.5 Flash ?

Il prend en charge une fenêtre de contexte de 1 048 576 tokens (environ 1 million de tokens). Cela inclut à la fois les tokens d'entrée et de sortie combinés.

Quelles sont les principales forces de Gemini 3.5 Flash ?

Il est optimisé pour une faible latence, un débit élevé et une rentabilité. Il prend en charge les entrées multimodales (texte, image, vidéo, fichier, audio) et une grande fenêtre de contexte, ce qui le rend idéal pour les applications en temps réel et le traitement de longs documents.

Comment Gemini 3.5 Flash se compare-t-il à Gemini 3.5 Pro ?

Flash est plus rapide et moins cher mais offre des performances de benchmark inférieures sur les tâches de raisonnement complexe et mathématiques. Pro est plus précis mais plus lent et plus cher. Flash est meilleur pour les applications à volume élevé et sensibles à la latence.

Comment les données sont-elles traitées lors de l'utilisation de Gemini 3.5 Flash via OrcaRouter ?

OrcaRouter agit comme un proxy et ne stocke pas vos données. Cependant, les politiques de traitement des données de Google s'appliquent au modèle sous-jacent. OrcaRouter recommande de consulter les conditions de Google concernant la conservation des données et la confidentialité.

Comment appeler Gemini 3.5 Flash via une API compatible OpenAI ?

Utilisez l'URL de base https://api.orcarouter.ai/v1, l'ID du modèle "google/gemini-3.5-flash", et transmettez une clé API OrcaRouter dans l'en-tête Authorization. L'API prend en charge les complétions de chat standard et le streaming.

Quelle longueur de sortie Gemini 3.5 Flash peut-il générer ?

Il peut générer jusqu'à 65 536 jetons par réponse. C'est considérablement plus que de nombreux modèles, permettant du contenu de longue forme, du code ou un raisonnement étendu.

Y a-t-il une réduction pour les jetons répétés ou mis en cache ?

D'après les faits fournis, OrcaRouter n'offre pas de mise en cache ni de remises sur le volume. Chaque jeton est facturé au tarif standard, indépendamment de la réutilisation.

Intégrer ce badge

Coller dans votre article de blog

Gemini 3.5 Flash•$1.50/M in•10000ms p50•via OrcaRouter

HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash sur OrcaRouter" /> </a>

Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)

Gemini 3.5 Flash

Qu'est-ce que Gemini 3.5 Flash ?

Qui devrait utiliser Gemini 3.5 Flash ?

Quelles modalités d’entrée Gemini 3.5 Flash prend-il en charge ?

Comment accède-t-on à Gemini 3.5 Flash via OrcaRouter ?

Pour quelles tâches Gemini 3.5 Flash est-il le mieux adapté ?

Quand devriez-vous choisir un modèle moins cher plutôt que Gemini 3.5 Flash ?

Est-ce que Gemini 3.5 Flash peut gérer le streaming et les interactions en temps réel ?

Quelles sont les meilleures pratiques pour utiliser la fenêtre de contexte de Gemini 3.5 Flash ?

Quelles sont les forces connues de Gemini 3.5 Flash ?

Quelles sont les limitations honnêtes de Gemini 3.5 Flash ?

Comment la latence se compare-t-elle aux autres modèles ?

Quelle est la qualité de sortie du modèle pour le code et les données structurées ?

Comment Gemini 3.5 Flash est-il tarifé sur OrcaRouter ?

Quels sont les compromis de coût entre les jetons d'entrée et de sortie ?

Est-ce qu'OrcaRouter propose des fonctionnalités de mise en cache ou de réduction ?

Comment les coûts se comparent-ils aux autres modèles sur OrcaRouter?

Comment appeler Gemini 3.5 Flash via l'API d'OrcaRouter ?

Quels paramètres sont disponibles pour Gemini 3.5 Flash ?

Puis-je migrer de l'API Google AI ou Vertex AI vers OrcaRouter ?

Quelle gestion des erreurs dois-je m'attendre à rencontrer lors de l'utilisation de l'API ?

Comment Gemini 3.5 Flash se compare-t-il à Gemini 3.5 Pro ?

Comment se compare Gemini 3.5 Flash à GPT-4o Mini ?

Comment Gemini 3.5 Flash se compare-t-il à Claude 3 Haiku ?

Quel est le principal avantage de Gemini 3.5 Flash par rapport aux modèles open-source ?

Exemples de code

Tarifs

Performances

Benchmarks publics

Plus de google

FAQ

Intégrer ce badge

Gemini 3.5 Flash

Détails du modèle

Qu'est-ce que Gemini 3.5 Flash ?

Qui devrait utiliser Gemini 3.5 Flash ?

Quelles modalités d’entrée Gemini 3.5 Flash prend-il en charge ?

Comment accède-t-on à Gemini 3.5 Flash via OrcaRouter ?

Pour quelles tâches Gemini 3.5 Flash est-il le mieux adapté ?

Quand devriez-vous choisir un modèle moins cher plutôt que Gemini 3.5 Flash ?

Est-ce que Gemini 3.5 Flash peut gérer le streaming et les interactions en temps réel ?

Quelles sont les meilleures pratiques pour utiliser la fenêtre de contexte de Gemini 3.5 Flash ?

Quelles sont les forces connues de Gemini 3.5 Flash ?

Quelles sont les limitations honnêtes de Gemini 3.5 Flash ?

Comment la latence se compare-t-elle aux autres modèles ?

Quelle est la qualité de sortie du modèle pour le code et les données structurées ?

Comment Gemini 3.5 Flash est-il tarifé sur OrcaRouter ?

Quels sont les compromis de coût entre les jetons d'entrée et de sortie ?

Est-ce qu'OrcaRouter propose des fonctionnalités de mise en cache ou de réduction ?

Comment les coûts se comparent-ils aux autres modèles sur OrcaRouter?

Comment appeler Gemini 3.5 Flash via l'API d'OrcaRouter ?

Quels paramètres sont disponibles pour Gemini 3.5 Flash ?

Puis-je migrer de l'API Google AI ou Vertex AI vers OrcaRouter ?

Quelle gestion des erreurs dois-je m'attendre à rencontrer lors de l'utilisation de l'API ?

Comment Gemini 3.5 Flash se compare-t-il à Gemini 3.5 Pro ?

Comment se compare Gemini 3.5 Flash à GPT-4o Mini ?

Comment Gemini 3.5 Flash se compare-t-il à Claude 3 Haiku ?

Quel est le principal avantage de Gemini 3.5 Flash par rapport aux modèles open-source ?

Exemples de code

Tarifs

Performances

Benchmarks publics

Plus de google

FAQ

Intégrer ce badge