Google Gemini 3.1 Pro Preview Ferramentas Personalizadas – 1M contexto, 95.6 τ²-Bench, multimodal via OrcaRouter.
Google Gemini 3.1 Pro Preview Custom Tools é um modelo de linguagem grande em fase de pré‑visualização desenvolvido pelo Google. Ele é projetado para tarefas que exigem raciocínio de longa duração, grandes janelas de contexto e integração com ferramentas externas. O modelo aceita entradas nos formatos de texto, áudio, imagem, vídeo e arquivo, tornando‑o uma solução multimodal tanto para compreensão quanto para geração de conteúdo. Através do OrcaRouter, você pode chamar o modelo usando uma API compatível com OpenAI na URL base https://api.orcarouter.ai/v1 com o ID do modelo "google/gemini-3.1-pro-preview-customtools". Essa compatibilidade simplifica a integração para equipes já familiarizadas com o SDK da OpenAI ou clientes similares. Como um modelo de pré‑visualização, pode ter limitações de disponibilidade ou desempenho em comparação com versões estáveis.
Este modelo é adequado para desenvolvedores, cientistas de dados e equipes empresariais que precisam processar documentos muito longos (até 1 milhão de tokens) ou combinar múltiplas modalidades de entrada (texto, áudio, imagem, vídeo, arquivos) em uma única etapa de raciocínio. É particularmente valioso para tarefas que envolvem uso de ferramentas personalizadas—onde o modelo deve decidir quando e como chamar funções ou APIs externas. Equipes que trabalham em pesquisa, análise jurídica, processamento de mídia ou automação avançada acharão útil o grande contexto e o forte desempenho em benchmarks. Por ser uma prévia, pode ser ideal para prototipagem e avaliação, em vez de sistemas de produção que exigem tempo de atividade ou latência garantidos.
O modelo oferece uma janela de contexto de 1.048.576 tokens e uma saída máxima de 65.536 tokens. As modalidades de entrada abrangem texto, áudio, imagem, vídeo e upload de arquivos. A pontuação de referência principal é 95,6 no τ²-Bench, um teste de raciocínio com uso de ferramentas. O preço é de $4,00 por 1M de tokens de entrada e $18,00 por 1M de tokens de saída, sem margem adicional quando acessado via OrcaRouter. A API é compatível com OpenAI, e o ID do modelo é "google/gemini-3.1-pro-preview-customtools". Como pré-visualização, ele reflete as capacidades mais recentes, mas pode estar sujeito a alterações.
Gemini 3.1 Pro Preview Custom Tools aceita entrada em formatos de texto, áudio, imagem, vídeo e arquivo. Isso permite incluir gravações de áudio, fotografias, clipes de vídeo e documentos carregados junto com prompts de texto em uma única solicitação. O modelo pode raciocinar entre essas modalidades para produzir saída de texto. Essa capacidade multimodal torna possível descrever uma imagem e fazer uma pergunta sobre ela, transcrever áudio enquanto realiza análise, ou combinar um vídeo com uma instrução textual. Os limites exatos de resolução, codec ou tamanho de arquivo não são fornecidos nos fatos disponíveis, mas o modelo pode ingerir mídia diversa nativamente.
A designação "Custom Tools" significa que o modelo é otimizado para invocar funções ou APIs definidas pelo usuário como parte do seu raciocínio. Em um fluxo de trabalho típico, você fornece um conjunto de definições de funções (incluindo nomes, parâmetros e descrições), e o modelo decide quando chamá-las para atender a uma solicitação. Essa capacidade permite fluxos de trabalho autônomos, como consultar um banco de dados, enviar um e-mail ou executar um trecho de código. O modelo pode encadear várias chamadas de ferramentas. A alta pontuação τ²-Bench (95.6) indica um desempenho forte em tarefas que exigem planejamento e orquestração de ferramentas.
O modelo suporta uma janela de contexto de 1.048.576 tokens (aproximadamente equivalente a 1 milhão de tokens). Isso permite que você passe livros inteiros, bases de código longas, conversas de múltiplas etapas ou logs extensos como contexto. A saída máxima é de 65.536 tokens por solicitação. Esses tamanhos estão entre os maiores disponíveis no cenário atual de modelos. O grande contexto é útil para tarefas como resumir uma transcrição completa, responder perguntas sobre um grande conjunto de documentos ou manter um histórico de conversa muito longo sem truncamento.
Como o Gemini 3.1 Pro Preview Custom Tools tem o preço de $4,00 por 1 milhão de tokens de entrada e $18,00 por 1 milhão de tokens de saída, é uma oferta premium. Para tarefas mais simples – como classificação de texto de formato curto, sumarização básica ou chat de turno único – um modelo menor e mais barato pode ser mais econômico. Considere alternativas da OrcaRouter, como o Gemini 1.5 Flash (menor custo, menor latência) ou outros modelos leves se você não precisar da janela de contexto de 1M, entrada multimodal ou do desempenho de benchmark de uso de ferramentas. Use este modelo quando a complexidade da tarefa justificar o maior custo por token.
O modelo alcançou uma pontuação de destaque de 95,6 no τ²-Bench (τ²-Bench). Este benchmark avalia a capacidade do modelo de realizar raciocínio de uso de ferramentas: planejar e executar sequências de chamadas de funções para realizar uma tarefa realista. A alta pontuação sugere forte competência na conclusão autônoma de tarefas e tomada de decisões. O τ²-Bench é um benchmark mais recente que se concentra na complexidade de cenários do mundo real. Uma pontuação de 95,6 é considerada muito alta, embora você deva notar que nenhum benchmark isolado captura completamente todos os aspectos da qualidade do modelo. O modelo pode ter desempenho diferente em outros benchmarks não listados aqui.
Com base no resultado do τ²-Bench, o modelo se destaca em tarefas que exigem raciocínio estruturado e orquestração de ferramentas. Isso inclui recuperação em várias etapas, transformação de dados e chamadas de API. A grande janela de contexto também permite lidar com instruções muito longas ou dados externos sem perder a coerência. A capacidade de entrada multimodal é outra vantagem, permitindo raciocinar por diferentes tipos de mídia. Para casos de uso como analisar um clipe de vídeo e responder perguntas sobre ele, ou processar um arquivo de áudio junto com uma consulta de texto, este modelo está bem posicionado em comparação com alternativas apenas de texto.
Nenhum benchmark ou modelo é perfeito. A pontuação de 95,6 no τ²-Bench não garante o mesmo desempenho em todas as tarefas do mundo real, especialmente aquelas fora do escopo do benchmark. O modelo pode ter desempenho inferior em tarefas que exigem conhecimento de domínio muito específico ou em avaliações voltadas à segurança não cobertas pelo τ²-Bench. Como modelo de pré-visualização, pode apresentar maior latência ou menor confiabilidade do que um modelo totalmente lançado. Os fatos disponíveis não incluem números de latência, portanto, você deve testar com suas próprias cargas de trabalho. Além disso, a grande janela de contexto pode aumentar o tempo de processamento e o custo, e nem todas as tarefas se beneficiam da capacidade total de um milhão de tokens.
Números exatos de latência não são fornecidos nos fatos disponíveis para o Gemini 3.1 Pro Preview Custom Tools. Em geral, modelos com uma janela de contexto muito grande (acima de 1M tokens) podem levar mais tempo para processar solicitações, especialmente aquelas que usam o contexto completo. A latência também depende da complexidade da solicitação, da quantidade de chamadas de ferramentas e da carga atual do servidor. O OrcaRouter pode oferecer respostas em streaming para reduzir o tempo até o primeiro token. Para aplicações em tempo real, talvez você queira comparar o desempenho com modelos menores. Considere realizar seus próprios testes de latência com prompts típicos para determinar se a velocidade atende aos seus requisitos.
O preço para Gemini 3.1 Pro Preview Custom Tools é de $4.00 por 1 milhão de tokens de entrada e $18.00 por 1 milhão de tokens de saída. Essas taxas são cobradas à taxa do provedor, sem margem de lucro, quando acessadas através do OrcaRouter. Isso significa que o preço que você vê é o preço cobrado pelo Google, sem nenhuma taxa adicional do OrcaRouter. Os tokens de entrada incluem todos os tokens no prompt (texto, tokens de imagem, tokens de áudio, etc.). Os tokens de saída são a resposta gerada. A saída máxima do modelo é de 65,536 tokens, portanto, uma única solicitação pode custar até 65,536 / 1,000,000 * 18.00 = aproximadamente $1.18 em tokens de saída, mais custos de tokens de entrada.
"Markup zero" significa que o OrcaRouter repassa a você o custo exato por token do provedor (Google), sem adicionar qualquer sobretaxa. Você paga $4,00 por 1M de tokens de entrada e $18,00 por 1M de tokens de saída — a mesma taxa que se estivesse chamando a API do Google diretamente. O OrcaRouter pode ter taxas separadas de assinatura ou uso para o serviço de gateway, mas o preço por token do modelo não é inflacionado. Essa estrutura de preços é transparente e ajuda você a fazer seu orçamento com precisão. Sempre consulte os termos atuais do OrcaRouter para quaisquer cobranças adicionais.
O alto custo por token significa que você deve estimar cuidadosamente seu uso. Para prompts que utilizam a janela de contexto completa de 1M, os custos de entrada podem chegar a US$ 4,00 por solicitação. Se sua tarefa pode ser realizada com um contexto menor, considere truncar ou usar um modelo mais barato. O cache não é mencionado nos fatos disponíveis; se o OrcaRouter oferecer cache de prompts, isso poderia reduzir os custos para entradas repetidas. Além disso, como o modelo é uma prévia, os preços podem mudar quando uma versão estável for lançada. Avalie a contagem típica de tokens da sua carga de trabalho para decidir se o custo é justificado.
Você acessa o modelo através da API compatível com OpenAI da OrcaRouter. Defina sua URL base como `https://api.orcarouter.ai/v1` e use o ID do modelo `google/gemini-3.1-pro-preview-customtools`. A API aceita formatos de requisição padrão do estilo OpenAI. Um exemplo usando a biblioteca openai do Python: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` Você precisa de uma chave de API OrcaRouter válida. A autenticação é feita através do cabeçalho `Authorization`.
Como a API é compatível com OpenAI, você pode usar parâmetros padrão como `temperature`, `top_p`, `max_tokens`, `stop`, `frequency_penalty`, `presence_penalty` e `stream`. Para solicitações multimodais, você pode incluir imagens, áudio, vídeo ou arquivos no conteúdo da mensagem usando o formato de array. Para uso de ferramentas, defina funções no parâmetro `tools` como uma lista de objetos JSON. O modelo pode retornar `tool_calls` na resposta. Parâmetros específicos da própria API do Google (como `safetySettings`) podem ou não estar disponíveis; consulte a documentação do OrcaRouter para obter detalhes. O suporte exato a parâmetros pode variar para modelos de pré-visualização.
Migrar da API padrão do OpenAI é direto. Altere o `base_url` para `https://api.orcarouter.ai/v1` e atualize o parâmetro `model` para `google/gemini-3.1-pro-preview-customtools`. Substitua sua chave de API por uma chave OrcaRouter. A maior parte do código que usa `openai.ChatCompletion.create` ou o mais novo `client.chat.completions.create` funcionará com mudanças mínimas. Se você usa chamadas de ferramentas, o formato é idêntico ao do OpenAI. No entanto, observe que este modelo tem um tokenizador diferente e pode produzir saída diferente para o mesmo prompt. Teste minuciosamente antes de mudar.
OrcaRouter utiliza autenticação via chave de API. Inclua sua chave no cabeçalho da requisição como `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`. Você obtém uma chave ao se inscrever no OrcaRouter. A chave deve ser mantida em segredo e não exposta em código do lado do cliente. O método exato de autenticação pode variar; consulte sempre a documentação atual da API do OrcaRouter. Alguns endpoints podem suportar métodos de autenticação adicionais, mas o endpoint compatível com OpenAI utiliza o padrão de token bearer. Certifique-se de que suas requisições sejam enviadas via HTTPS.
O Gemini 1.5 Pro também suporta uma janela de contexto de 1M tokens e entrada multimodal, mas o 3.1 Pro Preview Custom Tools alcançou uma pontuação τ²-Bench de 95,6, o que é uma melhoria significativa em relação à série 1.5 (números exatos para o 1.5 não são fornecidos). A otimização "Custom Tools" é o principal diferencial, indicando melhor desempenho em tarefas de uso de ferramentas. O preço é mais alto para o modelo de preview: o Gemini 1.5 Pro é tipicamente mais barato. Se você não precisa do desempenho mais recente em uso de ferramentas, o Gemini 1.5 Pro pode ser uma escolha mais econômica. Como o 3.1 Pro é um preview, pode ter menos estabilidade ou garantia de disponibilidade do que o estável 1.5 Pro.
O GPT‑4o também suporta entrada multimodal e uso de ferramentas, mas sua janela de contexto é tipicamente de 128k tokens—muito menor do que os 1M de tokens deste modelo. A pontuação τ²-Bench para o GPT‑4o não é fornecida nos fatos disponíveis, portanto não é possível fazer uma comparação direta. De modo geral, o Gemini 3.1 Pro Preview Custom Tools oferece uma janela de contexto significativamente maior, tornando-o mais adequado para tarefas com documentos longos. O GPT‑4o pode ter melhor desempenho em certos benchmarks de linguagem ou um suporte de ecossistema mais amplo. O preço do GPT‑4o também é diferente; compare os custos por token, mas observe que o custo de saída deste modelo ($18/M) é relativamente alto.
Claude 3 Opus suporta uma janela de contexto de 200 mil tokens, muito menos do que os 1 milhão do Gemini 3.1 Pro Preview. Benchmarks como τ²-Bench normalmente não são reportados para Claude, portanto comparações diretas são especulativas. Claude é conhecido por seu forte raciocínio e capacidade de seguir instruções. A escolha entre eles depende da sua necessidade de um contexto de 1 milhão e entrada multimodal versus pontos fortes específicos em segurança, estilo de escrita ou ecossistema. Se o seu caso de uso exigir o processamento de documentos muito grandes ou múltiplos tipos de mídia, o contexto maior e o suporte multimodal do modelo Gemini são vantagens. Custo e disponibilidade através do OrcaRouter também são fatores.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Entrada / 1M tokens | $4.00 |
| Saída / 1M tokens | $18.00 |
| Leitura de cache / 1M | $0.400 |
| Moeda | USD |