Google Gemini 3 Flash Preview – Modèle multimodal avec un contexte de 1M tokens, 88.2 MMLU-Pro, accessible via OrcaRouter.
Google Gemini 3 Flash Preview est un modèle multimodal développé par Google, optimisé pour la vitesse et le traitement de grands contextes. Il accepte des entrées au format texte, image, fichier, audio et vidéo, et peut générer jusqu'à 65 536 tokens de sortie. Le modèle dispose d'une fenêtre de contexte de 1 048 576 tokens, lui permettant de raisonner sur de très longues séquences. Il obtient un score de 88,2 au benchmark MMLU-Pro, ce qui indique de solides performances dans un large éventail de tâches académiques et de raisonnement. Cette version d'aperçu est disponible via l'API compatible OpenAI d'OrcaRouter sous l'ID de modèle google/gemini-3-flash-preview.
Gemini 3 Flash Preview cible les développeurs et les organisations qui construisent des applications nécessitant un raisonnement multimodal rapide avec un large contexte. Il est bien adapté à des cas d'utilisation comme l'analyse vidéo, le digest de longs documents et la compréhension audio-vidéo en temps réel. La tarification du modèle — 0,50 $ par million de tokens en entrée et 3,00 $ par million de tokens en sortie — le rend accessible aussi bien aux startups qu'aux grandes entreprises. Comme il s'agit d'un aperçu, les premiers adoptants peuvent évaluer ses capacités avant une version stable. OrcaRouter offre un accès transparent à ce modèle, y compris des points de terminaison compatibles OpenAI et aucune majoration sur les tarifs des fournisseurs.
Gemini 3 Flash Preview prend en charge cinq modalités d’entrée : texte, image, fichier, audio et vidéo. Le texte peut être simple ou structuré ; les images peuvent inclure des photos, des diagrammes et des captures d’écran ; les fichiers couvrent des formats comme PDF et documents ; l’audio inclut la parole et la musique ; la vidéo peut être traitée avec des pistes visuelles et audio. Le modèle peut combiner plusieurs modalités dans une seule requête—par exemple, analyser une vidéo tout en lisant un PDF joint. Cette polyvalence lui permet de gérer des tâches complexes multimédia sans nécessiter de pipelines séparés. Les tokens d’entrée sont comptés selon les règles spécifiques de tokenisation de chaque modalité.
Gemini 3 Flash Preview est une version préliminaire du modèle Flash de troisième génération de Google. En tant qu'aperçu, il peut subir des changements de comportement, de performance et de disponibilité. Google met généralement à jour les modèles d'aperçu en fonction des retours des utilisateurs, et ils peuvent éventuellement remplacer les points de terminaison d'aperçu par des versions stables. Bien que le modèle soit fonctionnel et adapté aux tests et au développement, les déploiements en production doivent surveiller les mises à jour. OrcaRouter reflète le point de terminaison du fournisseur, garantissant que tout changement de Google est reflété rapidement. L'ID du modèle google/gemini-3-flash-preview restera cohérent à moins que Google ne modifie son nom.
Le modèle peut traiter à la fois du texte et des images pour des tâches telles que le sous-titrage, la réponse à des questions visuelles et l'extraction de documents. Il peut lire du texte à partir de documents scannés, interpréter des graphiques et répondre à des questions sur le contenu. Pour les entrées textuelles uniquement, il prend en charge la compréhension du langage, le résumé, la traduction et la génération de code. La grande fenêtre de contexte (1 048 576 tokens) lui permet de gérer de très longues conversations, des livres entiers ou des bases de code étendues. Son score MMLU-Pro de 88,2 suggère un raisonnement solide dans un large éventail de domaines, y compris les sciences, les mathématiques et les sciences humaines.
L'entrée audio peut être de la parole directe ou un fichier audio enregistré ; le modèle peut transcrire, traduire ou analyser le contenu. L'entrée vidéo combine des images visuelles et une piste audio — adaptée pour résumer le contenu vidéo, détecter des objets ou comprendre des scènes avec une narration parlée. La fenêtre de contexte signifie que de longues vidéos ou fichiers audio peuvent être ingérés en une seule interaction, tant que le nombre de jetons ne dépasse pas la limite. La sortie est textuelle ; le modèle ne génère ni audio ni vidéo. L'API d'OrcaRouter permet d'envoyer des fichiers audio (ex. MP3, WAV) et des fichiers vidéo (ex. MP4) dans le contenu du message.
La variante Flash est optimisée pour la vitesse et le coût, ce qui la rend idéale pour les applications en temps réel : transcription en direct, chatbots multimodaux interactifs, résumé rapide de documents et modération de contenu sur différents types de médias. Elle excelle également dans les scénarios nécessitant un large contexte, comme l'analyse de comptes rendus de réunions entiers ou le traitement de longs documents de recherche avec figures intégrées. Les cas d'usage qui bénéficient à la fois de la vitesse et du raisonnement multimodal — tels que le sous-titrage vidéo ou l'examen de documents juridiques — sont particulièrement adaptés. Cependant, pour les tâches nécessitant un raisonnement plus approfondi sur une seule modalité (par exemple, la génération de code pur), un modèle spécialisé pourrait donner de meilleurs résultats.
Gemini 3 Flash Preview est proposé à 0,50 $/1M d’entrées et 3,00 $/1M de sorties, ce qui est bas pour un modèle multimodal mais pas le plus bas disponible. Si votre cas d’utilisation est purement textuel et nécessite une latence ou un coût encore plus faibles, envisagez des modèles textuels dédiés comme Gemini 2.0 Flash (si disponible) ou des alternatives à prix similaire. En revanche, si vous avez besoin d’un raisonnement supérieur sur des benchmarks complexes (par exemple MATH, GPQA) et disposez d’un budget plus important, vous pouvez opter pour un modèle plus grand comme Gemini 3 Pro ou GPT-4o. Pour les charges de travail multimodales à volume élevé et sensibles à la latence, ce modèle Flash offre un bon équilibre.
MMLU-Pro est une version élargie du benchmark Massive Multitask Language Understanding, couvrant 57 sujets avec des questions plus difficiles. Un score de 88.2 indique que le modèle a correctement répondu à 88.2% des questions, le plaçant parmi les modèles les plus performants de cette évaluation. Il reflète une solide connaissance et un raisonnement dans divers domaines, du droit à la physique. Ce score est compétitif avec d'autres modèles de pointe, d'autant plus que les modèles Flash sont optimisés pour la vitesse plutôt que pour la précision maximale. Le score fourni est le fait principal du benchmark pour ce modèle et doit être interprété comme un indicateur général de capacité, et non comme une garantie pour chaque tâche spécifique.
Bien que des chiffres de latence spécifiques ne soient pas fournis, les modèles Flash de Google sont conçus pour un débit élevé et une faible latence. Le modèle est censé être plus rapide que ses homologues plus grands comme Gemini 3 Pro, ce qui le rend adapté aux interactions en temps réel. Les utilisateurs peuvent s'attendre à des temps par requête plus faibles par rapport aux variantes non Flash, bien que la vitesse réelle dépende de facteurs tels que la longueur de l'entrée, la longueur de la sortie et l'utilisation simultanée. OrcaRouter n'introduit pas de latence supplémentaire au-delà de l'API du fournisseur. Pour des performances optimales, gardez les prompts concis et utilisez les réponses en streaming. La grande limite de sortie (65 536 tokens) peut augmenter le temps de génération pour les réponses plus longues.
Le score MMLU-Pro (88.2) suggère un raisonnement solide et une connaissance générale. La capacité du modèle à gérer un contexte de 1M tokens et plusieurs modalités d'entrée (texte, image, fichier, audio, vidéo) lui confère un avantage dans les tâches multimodales par rapport aux modèles qui ne supportent que le texte. Les modèles Flash excellent traditionnellement en termes de vitesse et de rentabilité. La limite élevée de tokens en sortie (65,536) permet la génération de résumés longs ou d'analyses étendues. Ces atouts en font une option polyvalente pour les applications qui doivent traiter rapidement et à grande échelle des types de données variés.
En tant qu'aperçu Flash, il peut ne pas atteindre la précision des modèles plus grands et non-Flash sur des benchmarks spécialisés (par ex., concours de programmation, raisonnement mathématique multi-étapes). Le modèle ne génère pas d'images ni d'audio—uniquement des sorties textuelles. Son statut d'aperçu signifie qu'il peut avoir une disponibilité intermittente ou une couverture partielle des fonctionnalités. De plus, bien que la fenêtre de contexte soit grande, les entrées très longues seront tronquées si elles dépassent 1,048,576 tokens. Le score MMLU-Pro est un point de données unique ; les performances réelles peuvent varier. Pour les tâches nécessitant une précision absolue dans des domaines spécialisés, une validation est recommandée.
Le prix est de 0,50 $ par million de tokens en entrée et 3,00 $ par million de tokens en sortie. Ces tarifs sont fournis par Google et facturés au tarif du fournisseur : OrcaRouter n'ajoute aucune majoration. Les tokens en entrée incluent tout le texte ainsi que les tokens audio/visuels encodés à partir de fichiers, images et vidéos. Les tokens en sortie correspondent uniquement au texte généré par le modèle. Il n'y a pas de frais supplémentaires pour l'accès à l'API via OrcaRouter au-delà des coûts par token. Cette tarification transparente vous permet d'estimer facilement les coûts : par exemple, une entrée de 1 000 tokens et une sortie de 500 tokens coûterait environ 0,0005 $ + 0,0015 $ = 0,002 $.
À $0.50/1M d'entrée et $3.00/1M de sortie, Gemini 3 Flash Preview est proposé à un prix compétitif pour un modèle multimodal avec une fenêtre de contexte de 1M. Les modèles plus grands comme Gemini 3 Pro ou GPT-4o coûtent généralement plus par token, surtout pour la sortie. Les modèles plus petits, uniquement textuels, peuvent être moins chers (par exemple, Gemini 2.0 Flash à $0.10/$0.40 par 1M de tokens, le cas échéant). Pour les charges de travail multimodales, ce modèle offre un juste milieu économique. La marge zéro d'OrcaRouter garantit que vous payez exactement le tarif de Google. Si votre utilisation est élevée, même une petite différence par token peut compter, alors comparez avec le profil de tokens de votre tâche spécifique.
Les informations tarifaires fournies n'incluent aucun remise de cache ou palier de volume. Google peut proposer des tarifs réduits pour les tokens mis en cache sur certains modèles, mais cela n'est pas confirmé pour Gemini 3 Flash Preview. La tarification d'OrcaRouter reflète le coût brut par token sans majoration, donc vous ne payez pas de supplément pour la passerelle. Pour les déploiements à grande échelle, contactez Google directement pour d'éventuels accords d'entreprise. Vérifiez toujours les derniers tarifs sur la page de tarification d'OrcaRouter ou dans votre tableau de bord, car les taux sont susceptibles d'être modifiés par le fournisseur. Actuellement, les taux indiqués par million de tokens sont ceux qui s'appliquent.
Vous utilisez l'API compatible OpenAI d'OrcaRouter à l'URL de base https://api.orcarouter.ai/v1. L'ID du modèle est "google/gemini-3-flash-preview". L'authentification est gérée via une clé API d'OrcaRouter. Par exemple, avec curl, vous pouvez envoyer une requête POST à /v1/chat/completions. Le format de la requête suit la structure Chat Completions d'OpenAI. Vous devez inclure le paramètre model défini sur l'ID exact du modèle. OrcaRouter gère le routage vers le point de terminaison de Google. Assurez-vous que votre clé API dispose des autorisations appropriées. Le streaming est pris en charge en définissant stream: true dans le corps de la requête.
Vous pouvez utiliser les paramètres standard des complétions de chat OpenAI : model, messages (avec role : system, user, assistant), temperature, top_p, max_tokens (plafonné à 65 536), séquences d'arrêt, frequency_penalty, presence_penalty, logit_bias et stream. Pour les messages multimodaux, incluez les données encodées en base64 ou les ID de fichier dans le tableau content. Le modèle détecte automatiquement la modalité d'entrée. Notez que toutes les fonctionnalités d'OpenAI (comme l'appel de fonctions) peuvent ne pas être prises en charge—vérifiez la documentation d'OrcaRouter. La fenêtre de contexte de 1 048 576 tokens s'applique au nombre total de tokens du message. En cas de dépassement, les messages les plus anciens sont tronqués.
Si vous utilisez déjà l'API Vertex AI ou Gemini de Google, la migration ne nécessite que des modifications minimales. Modifiez l'URL de base de votre API pour https://api.orcarouter.ai/v1, pointez vers l'ID du modèle "google/gemini-3-flash-preview", et remplacez votre authentification Google par une clé API OrcaRouter. Le format des messages est similaire—OrcaRouter fait la traduction entre les formats OpenAI et Google. Pour le contenu multimodal, assurez-vous de suivre les directives de pièces jointes d'OrcaRouter (par exemple, des données encodées en base64 avec des types MIME appropriés). Testez avec un petit nombre de requêtes pour confirmer la parité. OrcaRouter fournit une documentation d'assistance et des exemples de code pour plusieurs langages.
La structure de réponse correspond au format Chat Completion d'OpenAI : un objet avec choices, usage et id. Chaque choix inclut un objet message avec role et content. L'utilisation de tokens est rapportée sous forme de prompt_tokens et completion_tokens. Le champ finish_reason indique pourquoi la génération s'est arrêtée (stop, length). Les réponses en streaming émettent des objets delta. Si vous utilisez un SDK OpenAI, il suffit de changer la clé API et l'URL de base. Le point de terminaison d'OrcaRouter se comporte comme une API OpenAI, simplifiant l'intégration. Toutes les particularités du modèle de Google (par exemple, les filtres de sécurité) sont conservées ; vérifiez la réponse pour d'éventuels messages de refus. I used a semicolon before "vérifiez" as in original there is a semicolon? Original: "preserved; check the response" -> yes. So keep semicolon. Also note: "expected" is not present. All good.La structure de réponse correspond au format Chat Completion d'OpenAI : un objet avec choices, usage et id. Chaque choix inclut un objet message avec role et content. L'utilisation de tokens est rapportée sous forme de prompt_tokens et completion_tokens. Le champ finish_reason indique pourquoi la génération s'est arrêtée (stop, length). Les réponses en streaming émettent des objets delta. Si vous utilisez un SDK OpenAI, il suffit de changer la clé API et l'URL de base. Le point de terminaison d'OrcaRouter se comporte comme une API OpenAI, simplifiant l'intégration. Toutes les particularités du modèle de Google (par exemple, les filtres de sécurité) sont conservées ; vérifiez la réponse pour d'éventuels messages de refus.
Gemini 3 Flash Preview est la prochaine génération du modèle Flash de Google, offrant une fenêtre de contexte plus grande (1 048 576 contre les 32K à 1M précédents selon la version) et une prise en charge multimodale améliorée, y compris la vidéo. Le score MMLU-Pro de 88,2 pour 3 Flash Preview suggère un meilleur raisonnement que les scores rapportés pour 2 Flash (non fournis, mais généralement plus faibles). Le prix de 2 Flash est inférieur par token, ce qui le rend plus économique pour les tâches simples. Gemini 3 Flash Preview est plus rapide et plus performant pour le raisonnement multimodal complexe, mais 2 Flash reste une alternative rentable pour les tâches textuelles simples ou les images basiques.
GPT-4o d'OpenAI prend également en charge les entrées multimodales (texte, image, audio) et possède une fenêtre de contexte de 128 000 tokens, nettement inférieure au million de tokens de Gemini 3 Flash Preview. Le prix de GPT-4o varie, mais il est généralement plus élevé par token (par exemple, 2,50 $/1M en entrée, 10 $/1M en sortie). Le coût inférieur et le contexte plus vaste de Gemini 3 Flash Preview le rendent plus adapté aux tâches multimodales longues ou à volume élevé. Cependant, GPT-4o peut avoir des atouts différents en rédaction créative ou en génération de code, et ses benchmarks (par exemple, MMLU) sont comparables. Le choix dépend des besoins en taille de contexte et des préférences d'intégration.
Dans la gamme de Google, Gemini 3 Pro est un modèle plus grand et plus coûteux conçu pour une précision maximale (scores MMLU-Pro plus élevés). Flash est la variante optimisée pour le coût et la vitesse. Gemini 2 Flash est plus ancien et moins cher, mais avec un contexte plus petit et des scores de référence possiblement inférieurs. Gemini 3 Flash Preview offre un juste milieu : un raisonnement proche du niveau Pro (88.2 MMLU-Pro) à une fraction du coût. Pour les utilisateurs qui ont besoin du plus grand contexte et de la meilleure vitesse, 3 Flash Preview est idéal. Pour un raisonnement haut de gamme sur des entrées plus petites, 3 Pro pourrait être meilleur. Pour les tâches simples, 2 Flash ou d'autres modèles légers pourraient suffire.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Entrée / 1M tokens | $0.500 |
| Sortie / 1M tokens | $3.00 |
| Lecture cache / 1M | $0.050 |
| Devise | USD |