Google Gemini 3.1 Pro Preview Custom Tools – 1M di contesto, 95.6 τ²-Bench, multimodale tramite OrcaRouter.
Google Gemini 3.1 Pro Preview Custom Tools è un modello linguistico di grandi dimensioni in fase di anteprima sviluppato da Google. È progettato per attività che richiedono ragionamento di lunga durata, finestre di contesto ampie e integrazione con strumenti esterni. Il modello accetta input in formato testo, audio, immagine, video e file, rendendolo una soluzione multimodale sia per la comprensione che per la generazione di contenuti. Tramite OrcaRouter, puoi chiamare il modello utilizzando un'API compatibile con OpenAI all'URL base https://api.orcarouter.ai/v1 con l'ID del modello "google/gemini-3.1-pro-preview-customtools". Questa compatibilità semplifica l'integrazione per i team già familiari con l'SDK OpenAI o client simili. In quanto modello in anteprima, potrebbe presentare limitazioni nella disponibilità o nelle prestazioni rispetto alle versioni stabili.
Questo modello è adatto a sviluppatori, data scientist e team aziendali che necessitano di elaborare documenti molto lunghi (fino a 1 milione di token) o combinare più modalità di input (testo, audio, immagini, video, file) in un unico passaggio di ragionamento. È particolarmente utile per attività che implicano l'uso di strumenti personalizzati, in cui il modello deve decidere quando e come chiamare funzioni o API esterne. I team che lavorano su ricerca, analisi legale, elaborazione di contenuti multimediali o automazione avanzata troveranno utili il contesto esteso e le solide prestazioni di benchmark. Poiché si tratta di un'anteprima, potrebbe essere ideale per prototipazione e valutazione, piuttosto che per sistemi di produzione che richiedono tempi di attività o latenza garantiti.
Il modello offre una finestra di contesto di 1,048,576 token e un output massimo di 65,536 token. Le modalità di input comprendono testo, audio, immagine, video e caricamenti di file. Il punteggio di riferimento principale è 95.6 su τ²-Bench, un test di ragionamento sull'uso di strumenti. Il prezzo è di $4.00 per 1M token di input e $18.00 per 1M token di output, con nessun ricarico quando si accede tramite OrcaRouter. L'API è compatibile con OpenAI, e l'ID del modello è "google/gemini-3.1-pro-preview-customtools". In quanto anteprima, riflette le ultime capacità ma potrebbe essere soggetto a modifiche.
Gemini 3.1 Pro Preview Custom Tools accetta input in formato testo, audio, immagine, video e file. Ciò consente di includere registrazioni audio, fotografie, clip video e documenti caricati insieme a prompt di testo in un'unica richiesta. Il modello può ragionare su queste modalità per produrre output testuale. Questa capacità multimodale rende possibile descrivere un'immagine e porre una domanda al riguardo, trascrivere l'audio mentre si esegue un'analisi o combinare un video con un'istruzione testuale. I limiti esatti di risoluzione, codec o dimensione del file non sono forniti nei fatti disponibili, ma il modello può elaborare nativamente media diversi.
La designazione "Custom Tools" significa che il modello è ottimizzato per invocare funzioni o API definite dall'utente come parte del suo ragionamento. In un flusso di lavoro tipico, fornisci un insieme di definizioni di funzioni (compresi nomi, parametri e descrizioni), e il modello decide quando chiamarle per soddisfare una richiesta. Questa capacità abilita flussi di lavoro autonomi come interrogare un database, inviare un'email o eseguire un frammento di codice. Il modello può concatenare più chiamate a strumenti insieme. L'alto punteggio τ²-Bench (95.6) indica una forte performance su compiti che richiedono pianificazione e orchestrazione di strumenti.
Il modello supporta una finestra di contesto di 1.048.576 token (approssimativamente equivalente a 1 milione di token). Questo ti permette di passare interi libri, codebase lunghi, conversazioni multi‑turn o log estesi come contesto. L'output massimo è di 65.536 token per richiesta. Queste dimensioni sono tra le più grandi disponibili nell'attuale panorama dei modelli. Il contesto ampio è utile per attività come riassumere una trascrizione completa, rispondere a domande su un ampio insieme di documenti o mantenere una cronologia di conversazione molto lunga senza troncamento.
Poiché Gemini 3.1 Pro Preview Custom Tools ha un prezzo di $4.00 per 1M token di input e $18.00 per 1M token di output, è un'offerta premium. Per attività più semplici—come classificazione di testi brevi, riassunti di base o chat a singolo turno—un modello più piccolo ed economico potrebbe essere più conveniente. Considera alternative da OrcaRouter come Gemini 1.5 Flash (costo inferiore, latenza inferiore) o altri modelli leggeri se non hai bisogno della finestra di contesto da 1M, dell'input multimodale o delle prestazioni di benchmark per l'uso di strumenti. Utilizza questo modello quando la complessità del compito giustifica il costo più elevato per token.
Il modello ha ottenuto un punteggio di 95.6 su τ²-Bench (τ²-Bench). Questo benchmark valuta la capacità del modello di eseguire ragionamenti basati sull'uso di strumenti: pianificare ed eseguire sequenze di chiamate a funzioni per completare un compito realistico. Il punteggio elevato suggerisce una forte competenza nel completamento autonomo di compiti e nel processo decisionale. τ²-Bench è un benchmark più recente che si concentra sulla complessità degli scenari del mondo reale. Un punteggio di 95.6 è considerato molto alto, anche se bisogna notare che nessun singolo benchmark cattura completamente tutti gli aspetti della qualità del modello. Il modello potrebbe avere prestazioni diverse su altri benchmark non elencati qui.
Sulla base dei risultati di τ²-Bench, il modello eccelle nei compiti che richiedono ragionamento strutturato e orchestrazione degli strumenti. Ciò include recupero multi‑step, trasformazione dei dati e chiamate API. L’ampia finestra di contesto gli consente inoltre di gestire istruzioni molto lunghe o dati esterni senza perdere coerenza. La capacità di input multimodale è un altro punto di forza, che gli permette di ragionare su diversi tipi di media. Per casi d’uso come analizzare un clip video e rispondere a domande al riguardo, o elaborare un file audio insieme a una query testuale, questo modello si trova in una posizione vantaggiosa rispetto alle alternative solo testo.
Nessun benchmark o modello è perfetto. Il punteggio τ²-Bench di 95.6 non garantisce le stesse prestazioni su ogni attività reale, specialmente su quelle al di fuori dello scopo del benchmark. Il modello potrebbe dare risultati inferiori su attività che richiedono conoscenze di dominio molto specifiche o su valutazioni orientate alla sicurezza non coperte da τ²-Bench. Essendo un modello in anteprima, potrebbe avere una latenza maggiore o una minore affidabilità rispetto a un modello completamente rilasciato. I dati disponibili non includono valori di latenza, quindi è opportuno testarlo con i propri carichi di lavoro. Inoltre, l'ampia finestra di contesto può aumentare i tempi di elaborazione e i costi, e non tutte le attività traggono beneficio dalla piena capacità di un milione di token.
I numeri esatti di latenza non sono forniti nei dati disponibili per Gemini 3.1 Pro Preview Custom Tools. In generale, i modelli con una finestra di contesto molto ampia (oltre 1 milione di token) possono impiegare più tempo per elaborare le richieste, specialmente quelle che utilizzano l'intero contesto. La latenza dipende anche dalla complessità della richiesta, dal numero di chiamate agli strumenti e dal carico attuale del server. OrcaRouter può offrire risposte in streaming per ridurre il tempo al primo token. Per applicazioni in tempo reale, potrebbe essere utile confrontare le prestazioni con modelli più piccoli. Considera di eseguire i tuoi test di latenza con prompt tipici per determinare se la velocità soddisfa i tuoi requisiti.
Il prezzo per Gemini 3.1 Pro Preview Custom Tools è $4.00 per 1 milione di token di input e $18.00 per 1 milione di token di output. Queste tariffe vengono fatturate al prezzo del fornitore senza alcun ricarico quando vengono utilizzate tramite OrcaRouter. Ciò significa che il prezzo che vedi è quello addebitato da Google, senza alcuna commissione aggiuntiva da parte di OrcaRouter. I token di input includono tutti i token nel prompt (token di testo, token di immagine, token audio, ecc.). I token di output sono la risposta generata. L'output massimo del modello è di 65,536 token, quindi una singola richiesta potrebbe costare fino a 65,536 / 1,000,000 * 18.00 = circa $1.18 in token di output, più i costi dei token di input.
"Zero markup" significa che OrcaRouter trasferisce il costo esatto per token dal provider (Google) a te, senza aggiungere alcun sovrapprezzo. Paghi $4,00 per 1M di token in input e $18,00 per 1M di token in output—la stessa tariffa che avresti chiamando direttamente l'API di Google. OrcaRouter potrebbe avere canoni di abbonamento o di utilizzo separati per il servizio gateway, ma il prezzo per token del modello non è maggiorato. Questa struttura dei prezzi è trasparente e ti aiuta a pianificare il budget con precisione. Controlla sempre i termini attuali di OrcaRouter per eventuali costi aggiuntivi.
Il costo elevato per token significa che dovresti stimare attentamente il tuo utilizzo. Per i prompt che utilizzano la finestra di contesto completa di 1M, i costi di input possono raggiungere $4.00 per richiesta. Se il tuo compito può essere realizzato con un contesto più piccolo, considera di troncare o utilizzare un modello più economico. La memorizzazione nella cache non è menzionata nei fatti disponibili; se OrcaRouter offre la memorizzazione nella cache dei prompt, potrebbe ridurre i costi per input ripetuti. Inoltre, poiché il modello è in anteprima, i prezzi potrebbero cambiare quando verrà rilasciata una versione stabile. Valuta il conteggio tipico di token del tuo carico di lavoro per decidere se il costo è giustificato.
Accedi al modello tramite l'API compatibile con OpenAI di OrcaRouter. Imposta il tuo URL di base su `https://api.orcarouter.ai/v1` e utilizza l'ID del modello `google/gemini-3.1-pro-preview-customtools`. L'API accetta formati di richiesta standard in stile OpenAI. Un esempio che utilizza la libreria openai di Python: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` È necessaria una chiave API OrcaRouter valida. L'autenticazione avviene tramite l'intestazione `Authorization`.
Poiché l'API è compatibile con OpenAI, puoi utilizzare parametri standard come `temperature`, `top_p`, `max_tokens`, `stop`, `frequency_penalty`, `presence_penalty` e `stream`. Per le richieste multimodali, puoi includere immagini, audio, video o file nel contenuto del messaggio utilizzando il formato array. Per l'uso di strumenti, definisci le funzioni nel parametro `tools` come un elenco di oggetti JSON. Il modello può restituire `tool_calls` nella risposta. I parametri specifici dell'API di Google (come `safetySettings`) potrebbero essere disponibili o meno; consulta la documentazione di OrcaRouter per i dettagli. Il supporto esatto dei parametri può variare per i modelli in anteprima.
La migrazione dall'API standard di OpenAI è semplice. Cambia `base_url` in `https://api.orcarouter.ai/v1` e aggiorna il parametro `model` in `google/gemini-3.1-pro-preview-customtools`. Sostituisci la tua chiave API con una chiave OrcaRouter. La maggior parte del codice che utilizza `openai.ChatCompletion.create` o la più recente `client.chat.completions.create` funzionerà con modifiche minime. Se usi chiamate a strumenti (tool calls), il formato è identico a quello di OpenAI. Tuttavia, nota che questo modello ha un tokenizer diverso e potrebbe produrre output differenti per lo stesso prompt. Esegui test approfonditi prima di passare al nuovo sistema.
OrcaRouter utilizza l'autenticazione tramite chiave API. Includi la tua chiave nell'intestazione della richiesta come `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`. Puoi ottenere una chiave registrandoti a OrcaRouter. La chiave deve essere mantenuta segreta e non esposta nel codice lato client. Il metodo di autenticazione esatto può variare; fai sempre riferimento alla documentazione API corrente di OrcaRouter. Alcuni endpoint potrebbero supportare metodi di autenticazione aggiuntivi, ma l'endpoint compatibile con OpenAI utilizza il modello standard del token bearer. Assicurati che le tue richieste siano inviate tramite HTTPS.
Gemini 1.5 Pro supporta anche una finestra di contesto di 1M token e input multimodale, ma il Custom Tools di 3.1 Pro Preview ha ottenuto un punteggio τ²-Bench di 95,6, che rappresenta un miglioramento significativo rispetto alla serie 1.5 (i numeri esatti per 1.5 non sono forniti). L'ottimizzazione "Custom Tools" è il fattore distintivo chiave, indicando migliori prestazioni nei compiti di utilizzo degli strumenti. Il prezzo è più alto per il modello in anteprima: Gemini 1.5 Pro è solitamente più economico. Se non hai bisogno delle prestazioni più recenti per l'uso degli strumenti, Gemini 1.5 Pro potrebbe essere una scelta più conveniente. Poiché il 3.1 Pro è un'anteprima, potrebbe avere meno stabilità o garanzia di uptime rispetto al 1.5 Pro stabile.
GPT‑4o supporta anche input multimodale e uso di strumenti, ma la sua finestra di contesto è tipicamente di 128k token—molto più piccola del milione di token di questo modello. Il punteggio τ²‑Bench per GPT‑4o non è fornito nei fatti disponibili, quindi un confronto diretto non è possibile. In generale, Gemini 3.1 Pro Preview Custom Tools offre una finestra di contesto significativamente più ampia, rendendolo più adatto per attività su documenti lunghi. GPT‑4o potrebbe avere prestazioni migliori su alcuni benchmark linguistici o un supporto ecosistemico più ampio. Anche i prezzi per GPT‑4o sono diversi; confronta i costi per token, ma nota che il costo di output di questo modello ($18/M) è relativamente alto.
Claude 3 Opus supporta una finestra di contesto di 200k token, molto meno di 1M di Gemini 3.1 Pro Preview. Benchmark come τ²-Bench non vengono tipicamente riportati per Claude, quindi i confronti diretti sono speculativi. Claude è noto per il suo forte ragionamento e l'aderenza alle istruzioni. La scelta tra i due dipende dalla necessità di un contesto da 1M e input multimodale rispetto a punti di forza specifici in termini di sicurezza, stile di scrittura o ecosistema. Se il tuo caso d'uso richiede l'elaborazione di documenti molto grandi o di più tipi di media, il contesto più ampio e il supporto multimodale del modello Gemini rappresentano un vantaggio. Anche il costo e la disponibilità tramite OrcaRouter sono fattori da considerare.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Input / 1M token | $4.00 |
| Output / 1M token | $18.00 |
| Lettura cache / 1M | $0.400 |
| Valuta | USD |