Google Gemini 3.1 Pro Preview : modèle multimodal phare avec une fenêtre de contexte de 1M et un score τ²-Bench de 95.6, accessible via l'API OrcaRouter.
Google Gemini 3.1 Pro Preview est un modèle phare de Google, proposé sous forme d'aperçu. Il s'agit d'un modèle multimodal capable de traiter des entrées textuelles, images, vidéos, audio et fichiers. Le modèle est classé dans la catégorie phare, ce qui indique qu'il est conçu pour des applications exigeantes et complexes où les performances et la capacité sont essentielles. En tant qu'aperçu, il peut présenter des limitations en termes de stabilité ou de disponibilité par rapport aux versions stables. L'accès est fourni via l'API OrcaRouter.
Ce modèle est destiné aux développeurs et aux entreprises qui ont besoin de gérer de grandes fenêtres de contexte allant jusqu'à 1,048,576 tokens et requièrent une compréhension multimodale. Les cas d'usage incluent l'analyse de longs documents, la modération vidéo, les chatbots avancés avec mémoire de conversations entières, et l'extraction complexe de données à partir de médias mixtes. Le statut d'aperçu le rend adapté à l'expérimentation et à l'intégration précoce, mais les déploiements en production doivent évaluer la stabilité. Il est également idéal pour les équipes qui utilisent déjà l'API compatible OpenAI d'OrcaRouter et souhaitent tester les dernières capacités phares de Google.
Le modèle prend en charge une fenêtre de contexte de 1 048 576 tokens (entrée) et une sortie maximale de 65 536 tokens. Il accepte des entrées dans plusieurs modalités : audio, fichier (par exemple, PDF, fichiers de code), image, texte et vidéo. Le score de référence principal est de 95,6 sur τ²-Bench, une métrique qui mesure la performance d'exécution des tâches. Le modèle est classé comme niveau phare par son fournisseur, Google. Il est accessible via l'API d'OrcaRouter à l'URL de base https://api.orcarouter.ai/v1 avec l'identifiant de modèle "google/gemini-3.1-pro-preview".
En tant que version preview de Gemini 3.1 Pro, ce modèle occupe le sommet de la gamme actuelle de Google parmi les versions preview. Il offre une fenêtre de contexte nettement plus grande (1M tokens) et des limites de sortie plus élevées (65K tokens) par rapport aux modèles précédents Gemini 2.0 ou aux previews de Gemini 3.0. Le score τ²-Bench de 95,6 fournit un repère quantitatif pour les performances orientées tâches. Comparé à d'autres modèles preview de Google, celui-ci cible les cas d'usage les plus exigeants, où la largeur du contexte et la profondeur du raisonnement sont toutes deux requises.
Gemini 3.1 Pro Preview est multimodal et peut traiter des entrées audio, des fichiers (y compris des documents, du code et des feuilles de calcul), des images, du texte et des vidéos. Cela lui permet de raisonner sur différents types de données au sein d'une même conversation. Par exemple, vous pouvez télécharger une image avec une invite textuelle demandant son contenu, ou analyser une vidéo accompagnée d'une transcription. La modalité d'entrée de fichier prend en charge les données structurées et non structurées, ce qui la rend utile pour l'analyse de documents et les tâches d'extraction de données.
Le modèle prend en charge une fenêtre de contexte de 1 048 576 tokens pour l'entrée. C'est l'une des plus grandes fenêtres de contexte disponibles dans un modèle phare. Elle permet de traiter de très longs documents, des bases de code entières ou des heures de transcription vidéo en une seule requête. Combinée à la limite de sortie de 65 536 tokens, elle permet de générer de manière extensive des rapports, des résumés ou des chaînes de raisonnement en plusieurs étapes sans avoir besoin de paginer ou de diviser les entrées.
Les cas d'utilisation idéaux incluent le résumé de longs documents, les agents conversationnels multi-tours avec mémoire de l'historique complet des utilisateurs, l'analyse de contenu vidéo, l'extraction complexe de données à partir de médias mixtes, et les tâches agentiques nécessitant une haute précision (comme le reflète le score τ²-Bench). Le modèle excelle également dans les tâches qui combinent plusieurs types d'entrée, comme l'analyse d'un graphique dans une image tout en lisant un passage de texte connexe. Pour des tâches plus simples, un modèle moins cher peut être plus rentable, mais le surcoût du contexte étendu est justifié pour des applications sophistiquées.
Pour les tâches qui nécessitent uniquement une génération de texte court, une classification simple ou des réponses à faible latence, un modèle plus petit ou non phare peut être plus approprié. La grande fenêtre de contexte et la capacité multimodale de Gemini 3.1 Pro Preview entraînent un coût de calcul plus élevé par requête. Si votre cas d'utilisation n'a pas besoin du contexte complet de 1M tokens ou de la sortie de 65K tokens, envisagez d'utiliser un modèle plus léger disponible via OrcaRouter, tel que Gemini 2.0 Flash ou d'autres alternatives économiques. Évaluez toujours le compromis coût-performance en fonction de votre utilisation moyenne de tokens d'entrée et de sortie.
Le modèle a obtenu un score de 95.6 sur τ²-Bench. τ²-Bench est un benchmark qui évalue la performance d’exécution de tâches dans une variété de tâches agentiques, de raisonnement et de planification. Un score de 95.6 indique un haut niveau de précision dans l’exécution de telles tâches. Bien que la composition exacte de τ²-Bench ne soit pas fournie, ce score positionne ce modèle comme un performant solide pour la prise de décision structurée et les défis de raisonnement multi-étapes. Il sert d’indicateur quantitatif des capacités du modèle par rapport à d’autres grands modèles.
Les détails de latence pour Gemini 3.1 Pro Preview ne sont pas fournis dans les faits disponibles. Cependant, étant donné son niveau phare et sa grande fenêtre de contexte (1M tokens) et sa limite de sortie (65K tokens), les temps de réponse varieront en fonction de la longueur de l'entrée, de la sortie demandée et de la charge du serveur. Le traitement d'entrées très longues ou la génération de grandes sorties prendra plus de temps qu'avec des modèles plus petits. Pour les applications en temps réel, envisagez d'utiliser un modèle plus rapide. L'API d'OrcaRouter ne fournit pas de garanties de latence spécifiques pour ce modèle d'aperçu.
Les points forts du modèle, déduits de ses spécifications, incluent une très grande capacité de contexte (1 048 576 tokens), une limite élevée de tokens de sortie (65 536 tokens), la prise en charge d'entrées multimodales et un score τ²-Bench solide (95,6). Ces caractéristiques le rendent adapté aux tâches complexes nécessitant un raisonnement sur de longs contextes et plusieurs types de données. Le statut d'aperçu peut permettre un accès anticipé à des capacités avancées avant la version stable. La classification de niveau phare suggère qu'il est conçu pour des applications à forte demande.
En tant que modèle d'aperçu, Gemini 3.1 Pro Preview peut ne pas avoir la même stabilité, disponibilité ou assistance qu'une version stable. Il pourrait subir des modifications ou des dépréciations sans préavis. Aucun chiffre spécifique de latence ou de débit n'est donné, donc les performances sous charge sont inconnues. Le score de référence sur τ²-Bench est une mesure unique et peut ne pas refléter les performances sur toutes les tâches. De plus, la grande fenêtre de contexte peut augmenter le coût et le temps de réponse. Les utilisateurs doivent effectuer des tests approfondis avant une utilisation en production.
Les détails de tarification pour Gemini 3.1 Pro Preview ne sont pas fournis dans les faits disponibles. En tant que modèle phare, il est généralement facturé plus cher que les variantes plus petites ou non phares, avec des coûts généralement basés sur le nombre de tokens en entrée et en sortie. La large fenêtre de contexte (1 million de tokens) et la limite de sortie (65 000 tokens) peuvent entraîner une utilisation importante de tokens par requête. OrcaRouter peut appliquer une tarification par token pour l’entrée et la sortie, avec d’éventuels suppléments pour les entrées multimodales. Les utilisateurs doivent consulter la page de tarification d’OrcaRouter pour connaître les tarifs en vigueur.
Lors de l'utilisation de Gemini 3.1 Pro Preview, le principal facteur de coût est la consommation de jetons. Une seule requête utilisant le contexte complet d'un million de jetons entraînera des coûts élevés de jetons d'entrée. De même, générer jusqu'à 65 000 jetons de sortie augmentera les coûts de sortie. Pour les cas d'usage ne nécessitant pas le contexte complet ou une sortie importante, les utilisateurs peuvent réduire les coûts en tronquant les entrées ou en définissant une valeur maximale de `max_tokens` inférieure. La mise en cache (si prise en charge par OrcaRouter) pourrait réduire les coûts d'entrée redondants, mais aucun détail sur la mise en cache n'est fourni. Évaluez les schémas d'utilisation moyens pour décider si un modèle moins cher est plus économique.
Les faits disponibles ne précisent pas si OrcaRouter offre la mise en cache pour Gemini 3.1 Pro Preview. De nombreux fournisseurs d'API offrent une mise en cache de tokens pour les préfixes d'entrée répétés, ce qui peut réduire les coûts et améliorer la latence. Si la mise en cache est disponible, elle serait bénéfique pour les cas d'utilisation avec des instructions répétées ou des prompts système fréquents. Les utilisateurs devraient consulter la documentation d'OrcaRouter pour le support de la mise en cache. En l'absence de mise en cache, le coût total des tokens d'entrée est engagé à chaque requête.
Aucune comparaison de prix spécifique n'est fournie. En général, les modèles phares sont plus chers par token que les modèles plus petits. Gemini 3.1 Pro Preview, étant un aperçu phare, a probablement un coût par token plus élevé que Gemini 2.0 Flash ou Gemini 2.0 Pro. Cependant, comme il s'agit d'un aperçu, le prix peut être promotionnel ou sujet à changement. Les utilisateurs devraient comparer les prix indiqués par OrcaRouter pour chaque modèle Google afin de déterminer l'option la plus rentable pour leur charge de travail.
Pour utiliser Gemini 3.1 Pro Preview sur OrcaRouter, effectuez des requêtes vers le point de terminaison compatible avec l'API OpenAI à l'adresse https://api.orcarouter.ai/v1/chat/completions. Définissez le paramètre model sur "google/gemini-3.1-pro-preview". L'API accepte les paramètres standards tels que messages, max_tokens, temperature et top_p. Pour les entrées multimodales, utilisez le tableau content avec le type approprié (text, image_url, etc.). Des exemples de code et des SDKs sont disponibles dans la documentation d'OrcaRouter.
Vous pouvez configurer le nombre maximal de jetons de sortie jusqu'à 65,536 à l'aide du paramètre max_tokens. Le modèle prend en charge temperature, top_p et d'autres paramètres d'échantillonnage courants. Pour une entrée multimodale, spécifiez le type de contenu dans le tableau messages. La fenêtre de contexte de 1,048,576 jetons s'applique à l'ensemble des jetons d'entrée. Tous les paramètres suivent la spécification OpenAI chat completions. Référez-vous à la référence API d'OrcaRouter pour toute limitation spécifique au modèle ou paramètres supplémentaires.
Migrer vers OrcaRouter est simple car il utilise une API compatible OpenAI. Il suffit de changer l'URL de base en https://api.orcarouter.ai/v1 et de mettre à jour l'ID du modèle en "google/gemini-3.1-pro-preview". Les méthodes d'authentification (clé API) sont similaires. Si vous utilisiez un autre modèle Google, vous devrez peut-être vous adapter à des capacités différentes (par exemple, taille de la fenêtre de contexte, gestion multimodale). Testez avec des requêtes d'exemple pour garantir la compatibilité. La documentation d'OrcaRouter fournit des guides de migration pour les configurations courantes.
En tant que modèle d'aperçu, Gemini 3.1 Pro Preview peut avoir des limites de débit plus faibles, une fiabilité moindre, ou être sujet à des modifications sans préavis. Il est destiné aux tests et à l'évaluation. Si vous avez besoin d'un modèle de production stable, envisagez d'utiliser un modèle non aperçu. L'API peut renvoyer des réponses plus ou moins rapidement en fonction de la charge. Surveillez les performances et ayez un modèle de secours. OrcaRouter peut mettre à jour l'ID du modèle ou déprécier les versions d'aperçu ; planifiez en conséquence.
Par rapport aux modèles Google précédents comme Gemini 2.0 Pro, cet aperçu offre une fenêtre de contexte considérablement plus grande (1M contre 32K tokens) et une limite de sortie plus élevée (65K contre 8K tokens). Il prend également en charge des modalités d'entrée supplémentaires comme la vidéo et les fichiers de manière plus intégrée. Le score τ²-Bench de 95.6 est spécifique à ce modèle et indique une performance solide sur les tâches. Cependant, en tant qu'aperçu, il peut manquer de la stabilité des versions stables de Gemini 2.0 ou Gemini 3.0. Le niveau phare le place au-dessus de Gemini 2.0 Flash en termes de capacités et de coût.
Aucune comparaison directe avec des benchmarks n'est fournie. La fenêtre de contexte de 1 million de jetons du modèle figure parmi les plus grandes disponibles, rivalisant avec ou dépassant de nombreux concurrents. Son support d'entrée multimodale est vaste (audio, fichier, image, texte, vidéo). Le score τ²-Bench de 95,6 offre un point de comparaison pour les tâches agentiques, mais sans les scores d'autres modèles sur le même benchmark, une comparaison complète n'est pas possible. Les utilisateurs doivent évaluer en fonction des exigences de leur cas d'utilisation spécifique.
Choisissez ce modèle lorsque votre tâche nécessite la plus grande fenêtre de contexte possible (jusqu'à 1M tokens) et une génération de sortie élevée (jusqu'à 65K tokens). C'est également le meilleur choix lorsque vous devez gérer plusieurs modalités d'entrée – en particulier les fichiers et les vidéos – en un seul passage de raisonnement. Le score élevé τ²-Bench indique qu'il excelle dans les tâches agentiques complexes. Si vous utilisez déjà OrcaRouter et souhaitez tester les dernières capacités phares de Google, cet aperçu constitue un bon point de départ.
Optez pour une alternative si vous avez besoin d'un modèle stable et validé en production (car il s'agit d'une préversion). Si votre cas d'utilisation a des exigences de faible latence ou une utilisation réduite de tokens, un modèle moins coûteux comme Gemini 2.0 Flash ou un modèle non-Google serait plus rentable. De plus, si votre tâche ne nécessite pas le contexte complet de 1M tokens ou une entrée multimodale, un modèle plus petit peut fournir des réponses plus rapides et moins chères. Évaluez les compromis entre capacité, coût et fiabilité pour votre application spécifique.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Palier | Entrée / 1M tokens | Sortie / 1M tokens | Lecture cache / 1M | Écriture cache / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| Palier sélectionné selon le nombre de tokens d'entrée de chaque requête | ||||