Google Gemini 3.1 Pro Preview Custom Tools – Contexte de 1M, 95,6 τ²-Bench, multimodal via OrcaRouter.
Google Gemini 3.1 Pro Preview Custom Tools est un modèle de langage de grande taille en phase d'aperçu développé par Google. Il est conçu pour des tâches nécessitant un raisonnement de longue forme, de grandes fenêtres de contexte, et une intégration avec des outils externes. Le modèle accepte des entrées au format texte, audio, image, vidéo et fichier, ce qui en fait une solution multimodale pour la compréhension et la génération de contenu. Via OrcaRouter, vous pouvez appeler le modèle en utilisant une API compatible OpenAI à l'URL de base https://api.orcarouter.ai/v1 avec l'ID de modèle "google/gemini-3.1-pro-preview-customtools". Cette compatibilité simplifie l'intégration pour les équipes déjà familiarisées avec le SDK OpenAI ou des clients similaires. En tant que modèle d'aperçu, il peut présenter des limitations en termes de disponibilité ou de performances par rapport aux versions stables.
Ce modèle est adapté aux développeurs, data scientists et équipes d'entreprise qui doivent traiter de très longs documents (jusqu'à 1 million de tokens) ou combiner plusieurs modalités d'entrée (texte, audio, image, vidéo, fichiers) en une seule étape de raisonnement. Il est particulièrement utile pour les tâches impliquant l'utilisation d'outils personnalisés — où le modèle doit décider quand et comment appeler des fonctions ou API externes. Les équipes travaillant sur la recherche, l'analyse juridique, le traitement multimédia ou l'automatisation avancée trouveront utile le grand contexte et les performances solides sur les benchmarks. En raison de son statut d'aperçu, il peut être idéal pour le prototypage et l'évaluation plutôt que pour des systèmes de production nécessitant une disponibilité ou une latence garanties.
Le modèle offre une fenêtre de contexte de 1,048,576 tokens et une sortie maximale de 65,536 tokens. Les modalités d'entrée couvrent le texte, l'audio, l'image, la vidéo et les téléchargements de fichiers. Le score de référence principal est de 95.6 sur τ²-Bench, un test de raisonnement d'utilisation d'outils. Le prix est de $4.00 par 1M tokens d'entrée et de $18.00 par 1M tokens de sortie, avec une marge zéro lorsqu'il est accessible via OrcaRouter. L'API est compatible OpenAI, et l'ID du modèle est "google/gemini-3.1-pro-preview-customtools". En tant qu'aperçu, il reflète les dernières capacités mais peut être sujet à des modifications.
Gemini 3.1 Pro Preview Custom Tools accepte des entrées sous forme de texte, audio, image, vidéo et fichiers. Cela vous permet d'inclure des enregistrements audio, des photographies, des clips vidéo et des documents téléchargés en complément de requêtes textuelles dans une seule demande. Le modèle peut raisonner à travers ces modalités pour produire une sortie textuelle. Cette capacité multimodale permet de décrire une image et de poser une question à son sujet, de transcrire un audio tout en effectuant une analyse, ou de combiner une vidéo avec une instruction textuelle. Les limites exactes de résolution, de codec ou de taille de fichier ne sont pas fournies dans les faits disponibles, mais le modèle peut ingérer divers médias de manière native.
La mention « Custom Tools » signifie que le modèle est optimisé pour invoquer des fonctions ou API définies par l'utilisateur dans le cadre de son raisonnement. Dans un flux de travail typique, vous fournissez un ensemble de définitions de fonctions (incluant noms, paramètres et descriptions), et le modèle décide quand les appeler pour répondre à une requête. Cette capacité permet des workflows autonomes, comme interroger une base de données, envoyer un e‑mail ou exécuter un extrait de code. Le modèle peut enchaîner plusieurs appels d’outils. Le score élevé τ²‑Bench (95.6) indique une forte performance sur les tâches nécessitant planification et orchestration d’outils.
Le modèle prend en charge une fenêtre de contexte de 1 048 576 jetons (environ 1 million de jetons). Cela vous permet de fournir en entrée des livres entiers, de longues bases de code, des conversations à plusieurs tours ou des journaux volumineux en tant que contexte. La sortie maximale est de 65 536 jetons par requête. Ces tailles font partie des plus grandes disponibles dans le paysage actuel des modèles. Le grand contexte est utile pour des tâches telles que le résumé d'une transcription complète, la réponse à des questions sur un vaste ensemble de documents, ou le maintien d'un très long historique de conversation sans troncature.
Compte tenu que Gemini 3.1 Pro Preview Custom Tools coûte 4,00 $ par million de tokens en entrée et 18,00 $ par million de tokens en sortie, il s’agit d’une offre premium. Pour des tâches plus simples — classification de textes courts, résumé basique ou chat en un seul tour — un modèle plus petit et moins cher peut être plus rentable. Envisagez des alternatives d’OrcaRouter comme Gemini 1.5 Flash (coût et latence plus faibles) ou d’autres modèles légers si vous n’avez pas besoin de la fenêtre de contexte de 1M tokens, de l’entrée multimodale ou des performances de référence pour l’utilisation d’outils. Utilisez ce modèle lorsque la complexité de la tâche justifie le coût plus élevé par token.
Le modèle a obtenu un score remarquable de 95.6 sur τ²-Bench (τ²-Bench). Ce benchmark évalue la capacité d'un modèle à effectuer un raisonnement basé sur l'utilisation d'outils : planifier et exécuter des séquences d'appels de fonctions pour accomplir une tâche réaliste. Ce score élevé suggère une forte compétence dans l'accomplissement autonome de tâches et la prise de décision. τ²-Bench est un benchmark plus récent qui se concentre sur la complexité des scénarios du monde réel. Un score de 95.6 est considéré comme très élevé, bien qu'il faille noter qu'aucun benchmark unique ne capture pleinement tous les aspects de la qualité d'un modèle. Le modèle peut avoir des performances différentes sur d'autres benchmarks non listés ici.
Sur la base du résultat de τ²-Bench, le modèle excelle dans les tâches nécessitant un raisonnement structuré et une orchestration d'outils. Cela inclut la récupération en plusieurs étapes, la transformation de données et l'appel d'API. La grande fenêtre de contexte lui permet également de traiter des instructions très longues ou des données externes sans perdre la cohérence. La capacité d'entrée multimodale est un autre atout, lui permettant de raisonner à travers différents types de médias. Pour des cas d'utilisation tels que l'analyse d'un clip vidéo et la réponse à des questions à son sujet, ou le traitement d'un fichier audio avec une requête textuelle, ce modèle est bien positionné par rapport aux alternatives textuelles uniquement.
Aucun benchmark ou modèle n'est parfait. Le score de 95,6 sur τ²-Bench ne garantit pas les mêmes performances sur toutes les tâches du monde réel, en particulier celles qui sortent du cadre du benchmark. Le modèle peut sous-performer sur des tâches nécessitant des connaissances très spécifiques du domaine ou sur des évaluations orientées sécurité non couvertes par τ²-Bench. En tant que modèle d'aperçu, il peut avoir une latence plus élevée ou une fiabilité moindre qu'un modèle entièrement publié. Les faits disponibles ne comprennent pas de chiffres de latence, vous devriez donc tester avec vos propres charges de travail. De plus, la grande fenêtre de contexte peut augmenter le temps de traitement et le coût, et toutes les tâches ne bénéficient pas de la capacité totale d'un million de tokens.
Les chiffres exacts de latence ne sont pas fournis dans les informations disponibles pour Gemini 3.1 Pro Preview Custom Tools. En général, les modèles avec une très grande fenêtre de contexte (plus d'un million de tokens) peuvent prendre plus de temps pour traiter les requêtes, surtout celles qui utilisent l'intégralité du contexte. La latence dépend également de la complexité de la requête, du nombre d'appels d'outils et de la charge actuelle du serveur. OrcaRouter peut offrir des réponses en streaming pour réduire le temps jusqu'au premier token. Pour les applications en temps réel, vous pouvez comparer les performances avec des modèles plus petits. Envisagez d'effectuer vos propres tests de latence avec des invites typiques pour déterminer si la vitesse répond à vos exigences.
La tarification pour l'aperçu des outils personnalisés Gemini 3.1 Pro est de 4,00 $ par million de tokens d'entrée et de 18,00 $ par million de tokens de sortie. Ces tarifs sont facturés au tarif du fournisseur sans marge lorsqu'ils sont accédés via OrcaRouter. Cela signifie que le prix que vous voyez est celui facturé par Google, sans frais supplémentaires de la part d'OrcaRouter. Les tokens d'entrée incluent tous les tokens de la requête (tokens de texte, tokens d'image, tokens audio, etc.). Les tokens de sortie correspondent à la réponse générée. La sortie maximale du modèle est de 65 536 tokens, donc une seule requête pourrait coûter jusqu'à 65 536 / 1 000 000 * 18,00 = environ 1,18 $ en tokens de sortie, plus les coûts des tokens d'entrée.
« Aucune majoration » signifie qu'OrcaRouter vous transmet le coût exact par jeton du fournisseur (Google) sans ajouter de frais supplémentaires. Vous payez 4,00 $ pour 1M de jetons en entrée et 18,00 $ pour 1M de jetons en sortie — le même tarif que si vous appeliez directement l'API de Google. OrcaRouter peut avoir des frais d'abonnement ou d'utilisation séparés pour le service de passerelle, mais le prix par jeton du modèle n'est pas gonflé. Cette structure tarifaire est transparente et vous aide à budgétiser avec précision. Vérifiez toujours les conditions actuelles d'OrcaRouter pour d'éventuels frais supplémentaires.
Le coût élevé par jeton signifie que vous devez estimer soigneusement votre utilisation. Pour les requêtes utilisant la fenêtre de contexte complète de 1M, les coûts d'entrée peuvent atteindre $4.00 par requête. Si votre tâche peut être accomplie avec un contexte plus petit, envisagez de tronquer ou d'utiliser un modèle moins cher. La mise en cache n'est pas mentionnée dans les faits disponibles ; si OrcaRouter propose une mise en cache des invites, cela pourrait réduire les coûts pour les entrées répétées. De plus, comme le modèle est en version préliminaire, les prix peuvent changer lors de la sortie d'une version stable. Évaluez le nombre de jetons typique de votre charge de travail pour décider si le coût est justifié.
Vous accédez au modèle via l’API compatible OpenAI d’OrcaRouter. Définissez votre URL de base sur `https://api.orcarouter.ai/v1` et utilisez l’ID de modèle `google/gemini-3.1-pro-preview-customtools`. L’API accepte les formats de requête standard de style OpenAI. Un exemple utilisant la bibliothèque openai de Python : ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="VOTRE_CLÉ_ORCAROUTER") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` Vous avez besoin d’une clé API OrcaRouter valide. L’authentification se fait via l’en-tête `Authorization`.
Étant donné que l’API est compatible avec OpenAI, vous pouvez utiliser des paramètres standards tels que `temperature`, `top_p`, `max_tokens`, `stop`, `frequency_penalty`, `presence_penalty` et `stream`. Pour les requêtes multimodales, vous pouvez inclure des images, de l’audio, de la vidéo ou des fichiers dans le contenu du message en utilisant le format tableau. Pour l’utilisation d’outils, définissez les fonctions dans le paramètre `tools` sous forme d’une liste d’objets JSON. Le modèle peut renvoyer `tool_calls` dans la réponse. Les paramètres propres à l’API de Google (tels que `safetySettings`) peuvent ou non être disponibles ; consultez la documentation d’OrcaRouter pour plus de détails. La prise en charge exacte des paramètres peut varier pour les modèles en prévisualisation.
Migrer de l'API OpenAI standard est simple. Remplacez `base_url` par `https://api.orcarouter.ai/v1` et mettez à jour le paramètre `model` avec `google/gemini-3.1-pro-preview-customtools`. Remplacez votre clé API par une clé OrcaRouter. La plupart des codes utilisant `openai.ChatCompletion.create` ou la version plus récente `client.chat.completions.create` fonctionneront avec des modifications minimales. Si vous utilisez des appels d'outils, le format est identique à celui d'OpenAI. Toutefois, notez que ce modèle a un tokenizer différent et peut produire des résultats différents pour la même instruction. Testez soigneusement avant de basculer.
OrcaRouter utilise l'authentification par clé API. Incluez votre clé dans l'en-tête de la requête sous la forme `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`. Vous obtenez une clé en vous inscrivant à OrcaRouter. La clé doit rester confidentielle et ne pas être exposée dans le code côté client. La méthode d'authentification exacte peut varier ; référez-vous toujours à la documentation actuelle de l'API d'OrcaRouter. Certains endpoints peuvent prendre en charge des méthodes d'authentification supplémentaires, mais le point de terminaison compatible OpenAI utilise le modèle standard de jeton porteur. Assurez-vous que vos requêtes sont envoyées via HTTPS.
Gemini 1.5 Pro prend également en charge une fenêtre de contexte de 1 million de tokens et une entrée multimodale, mais la Preview Custom Tools du 3.1 Pro a obtenu un score τ²-Bench de 95,6, soit une amélioration significative par rapport à la série 1.5 (les chiffres exacts pour la 1.5 ne sont pas fournis). L'optimisation "Custom Tools" est le principal facteur de différenciation, indiquant de meilleures performances dans les tâches d'utilisation d'outils. Le prix est plus élevé pour le modèle preview : le Gemini 1.5 Pro est généralement moins cher. Si vous n'avez pas besoin des dernières performances en matière d'utilisation d'outils, le Gemini 1.5 Pro peut être un choix plus rentable. Comme le 3.1 Pro est une preview, sa stabilité ou sa garantie de disponibilité peut être inférieure à celle du stable 1.5 Pro.
GPT‑4o prend également en charge l’entrée multimodale et l’utilisation d’outils, mais sa fenêtre de contexte est généralement de 128 000 tokens — bien moins que le million de tokens de ce modèle. Le score τ²-Bench de GPT‑4o n’est pas fourni dans les faits disponibles, une comparaison directe n’est donc pas possible. En général, Gemini 3.1 Pro Preview Custom Tools offre une fenêtre de contexte nettement plus grande, ce qui le rend plus adapté aux tâches impliquant de longs documents. GPT‑4o peut offrir de meilleures performances sur certains benchmarks linguistiques ou bénéficier d’un écosystème plus large. La tarification de GPT‑4o est également différente ; comparez les coûts par token, mais notez que le coût de sortie de ce modèle (18 $/M) est relativement élevé.
Claude 3 Opus prend en charge une fenêtre de contexte de 200 000 tokens, bien moins que le million de tokens de Gemini 3.1 Pro Preview. Les benchmarks comme τ²-Bench ne sont généralement pas rapportés pour Claude, donc les comparaisons directes sont spéculatives. Claude est reconnu pour son raisonnement solide et son respect des instructions. Le choix entre les deux dépend de votre besoin d'un contexte d'un million de tokens et d'une entrée multimodale, par opposition à des forces spécifiques en matière de sécurité, de style d'écriture ou d'écosystème. Si votre cas d'usage nécessite le traitement de très grands documents ou de multiples types de médias, la plus grande fenêtre de contexte et le support multimodal du modèle Gemini constituent des avantages. Le coût et la disponibilité via OrcaRouter sont également des facteurs à considérer.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Entrée / 1M tokens | $4.00 |
| Sortie / 1M tokens | $18.00 |
| Lecture cache / 1M | $0.400 |
| Devise | USD |