Google Gemini 3 Flash Preview – Modelo multimodal com contexto de 1M tokens, 88.2 MMLU-Pro, acessível via OrcaRouter.
Google Gemini 3 Flash Preview é um modelo multimodal desenvolvido pelo Google, otimizado para velocidade e processamento de grandes contextos. Aceita entrada em formatos de texto, imagem, arquivo, áudio e vídeo, e pode gerar até 65.536 tokens de saída. O modelo possui uma janela de contexto de 1.048.576 tokens, permitindo raciocinar através de sequências muito longas. Ele obtém 88,2 no benchmark MMLU-Pro, indicando forte desempenho em uma ampla gama de tarefas acadêmicas e de raciocínio. Esta versão de pré-visualização está disponível através da API compatível com OpenAI da OrcaRouter sob o ID do modelo google/gemini-3-flash-preview.
Gemini 3 Flash Preview tem como alvo desenvolvedores e organizações que constroem aplicações que exigem raciocínio multimodal rápido com grande contexto. É adequado para casos de uso como análise de vídeo, resumo de documentos longos e compreensão de áudio-vídeo em tempo real. O preço do modelo—$0.50 por milhão de tokens de entrada e $3.00 por milhão de tokens de saída—torna-o acessível tanto para startups quanto para empresas. Por ser uma prévia, os primeiros adotantes podem avaliar suas capacidades antes do lançamento estável. O OrcaRouter fornece acesso contínuo a este modelo, incluindo endpoints compatíveis com OpenAI e markup zero nas tarifas do provedor.
Gemini 3 Flash Preview suporta cinco modalidades de entrada: texto, imagem, arquivo, áudio e vídeo. O texto pode ser simples ou estruturado; imagens podem incluir fotos, diagramas e capturas de tela; arquivos abrangem formatos como PDFs e documentos; áudio inclui fala e música; vídeo pode ser processado com faixas visuais e de áudio. O modelo pode combinar múltiplas modalidades em um único prompt — por exemplo, analisando um vídeo enquanto também lê um PDF anexado. Essa versatilidade permite lidar com tarefas complexas de mídia mista sem exigir pipelines separados. Os tokens de entrada são contados com base nas regras específicas do tokenizador de cada modalidade.
Gemini 3 Flash Preview é uma versão de pré-lançamento do modelo Flash de terceira geração do Google. Como uma prévia, pode sofrer alterações no comportamento, desempenho e disponibilidade. O Google normalmente atualiza modelos de pré-visualização com base no feedback dos usuários e pode eventualmente substituir endpoints de pré-visualização por versões estáveis. Embora o modelo seja funcional e adequado para testes e desenvolvimento, implantações em produção devem monitorar atualizações. O OrcaRouter espelha o endpoint do provedor, garantindo que quaisquer mudanças do Google sejam refletidas prontamente. O ID do modelo google/gemini-3-flash-preview permanecerá consistente, a menos que o Google modifique sua nomenclatura.
O modelo pode processar texto e imagens em conjunto para tarefas como legendagem, resposta a perguntas visuais e extração de documentos. Ele consegue ler texto de documentos digitalizados, interpretar gráficos e responder perguntas sobre o conteúdo. Para entradas apenas de texto, oferece suporte à compreensão de linguagem, sumarização, tradução e geração de código. A ampla janela de contexto (1.048.576 tokens) permite lidar com conversas muito longas, livros completos ou bases de código extensas. Sua pontuação MMLU-Pro de 88,2 sugere um raciocínio robusto em um amplo conjunto de disciplinas, incluindo ciências, matemática e humanidades.
A entrada de áudio pode ser fala direta ou áudio gravado; o modelo pode transcrever, traduzir ou analisar o conteúdo. A entrada de vídeo combina quadros visuais e a faixa de áudio — adequada para resumir conteúdo de vídeo, detectar objetos ou entender cenas com narração falada. A janela de contexto permite que vídeos ou arquivos de áudio longos sejam ingeridos em uma única vez, desde que a contagem de tokens esteja dentro do limite. A saída é baseada em texto; o modelo não gera áudio ou vídeo. A API do OrcaRouter suporta o envio de arquivos de áudio (ex.: MP3, WAV) e arquivos de vídeo (ex.: MP4) como parte do conteúdo da mensagem.
A variante Flash é otimizada para velocidade e custo, tornando-a ideal para aplicações em tempo real: transcrição ao vivo, chatbots multimodais interativos, sumarização rápida de documentos e moderação de conteúdo em diferentes tipos de mídia. Ela também se destaca em cenários que exigem grande contexto, como a análise de transcrições completas de reuniões ou o processamento de longos artigos de pesquisa com figuras incorporadas. Casos de uso que se beneficiam tanto da velocidade quanto do raciocínio multimodal — como legendagem de vídeos ou revisão de documentos jurídicos — são adequados. No entanto, para tarefas que exigem raciocínio mais profundo em uma única modalidade (por exemplo, geração pura de código), um modelo especializado pode ter melhor desempenho.
O Gemini 3 Flash Preview é precificado a $0.50/1M de entrada e $3.00/1M de saída, o que é baixo para um modelo multimodal, mas não é o mais baixo disponível. Se o seu caso de uso for exclusivamente de texto e exigir latência ou custo ainda menores, considere modelos de texto dedicados, como o Gemini 2.0 Flash (se disponível) ou alternativas com preços semelhantes. Por outro lado, se você precisar de raciocínio superior em benchmarks complexos (ex.: MATH, GPQA) e tiver um orçamento maior, pode optar por um modelo maior, como o Gemini 3 Pro ou o GPT-4o. Para cargas de trabalho multimodais de alto volume e sensíveis à latência, este modelo Flash oferece um bom equilíbrio.
MMLU-Pro é uma versão expandida do benchmark Massive Multitask Language Understanding, abrangendo 57 matérias com perguntas mais desafiadoras. Uma pontuação de 88,2 indica que o modelo respondeu corretamente 88,2% das perguntas, colocando-o entre os modelos de melhor desempenho nesta avaliação. Isso reflete conhecimento sólido e raciocínio em diversos domínios, do direito à física. Essa pontuação é competitiva com outros modelos de fronteira, especialmente considerando que os modelos Flash são otimizados para velocidade, e não para precisão máxima. A pontuação fornecida é o fato principal do benchmark para este modelo e deve ser interpretada como um indicador geral de capacidade, não uma garantia para todas as tarefas específicas.
Embora números específicos de latência não sejam fornecidos, os modelos Flash do Google são projetados para alta taxa de transferência e baixa latência. O modelo foi projetado para ser mais rápido que contrapartes maiores, como o Gemini 3 Pro, tornando-o adequado para interações em tempo real. Os usuários podem esperar tempos por solicitação menores em comparação com variantes não Flash, embora a velocidade real dependa de fatores como comprimento da entrada, comprimento da saída e uso simultâneo. O OrcaRouter não introduz latência adicional além da API do provedor. Para obter o melhor desempenho, mantenha os prompts concisos e use respostas em streaming. O limite grande de saída (65.536 tokens) pode aumentar o tempo de geração para respostas mais longas.
A pontuação MMLU-Pro (88,2) sugere forte raciocínio e conhecimento geral. A capacidade do modelo de lidar com um contexto de 1M de tokens e múltiplas modalidades de entrada (texto, imagem, arquivo, áudio, vídeo) lhe confere uma vantagem em tarefas multimodais sobre modelos que suportam apenas texto. Os modelos Flash tradicionalmente se destacam em velocidade e eficiência de custo. O alto limite de tokens de saída (65.536) permite a geração de resumos longos ou análises estendidas. Esses pontos fortes o tornam uma opção versátil para aplicações que precisam processar rapidamente tipos variados de dados, em escala.
Como uma prévia do Flash, ele pode não corresponder à precisão de modelos maiores e não-Flash em benchmarks especializados (por exemplo, competições de programação, raciocínio matemático de múltiplas etapas). O modelo não gera imagens nem áudio — apenas saídas de texto. Seu status de prévia significa que pode ter disponibilidade intermitente ou cobertura parcial de recursos. Além disso, embora a janela de contexto seja grande, entradas muito longas serão truncadas se excederem 1.048.576 tokens. A pontuação MMLU-Pro é um único ponto de dados; o desempenho no mundo real pode variar. Para tarefas que exigem precisão absoluta em domínios de nicho, a validação é recomendada.
O preço é de $0,50 por milhão de tokens de entrada e $3,00 por milhão de tokens de saída. Essas taxas são fornecidas pelo Google e são cobradas pela taxa do provedor—a OrcaRouter não adiciona margem. Os tokens de entrada incluem todo o texto e tokens visuais/áudio codificados a partir de arquivos, imagens e vídeo. Os tokens de saída são apenas o texto gerado pelo modelo. Não há taxas adicionais para acesso à API através da OrcaRouter além dos custos por token. Essa precificação transparente permite que você estime os custos facilmente: por exemplo, uma entrada de 1,000 tokens e saída de 500 tokens custaria aproximadamente $0,0005 + $0,0015 = $0,002.
A $0,50/1M de entrada e $3,00/1M de saída, o Gemini 3 Flash Preview tem um preço competitivo para um modelo multimodal com janela de contexto de 1M. Modelos maiores como Gemini 3 Pro ou GPT-4o geralmente custam mais por token, especialmente para saída. Modelos menores apenas de texto podem ser mais baratos (por exemplo, Gemini 2.0 Flash a $0,10/$0,40 por 1M de tokens, se aplicável). Para cargas de trabalho multimodais, este modelo oferece um meio-termo econômico. A margem zero da OrcaRouter garante que você pague exatamente a taxa do Google. Se seu uso for alto, até mesmo uma pequena diferença por token pode importar, então compare com o perfil de tokens da sua tarefa específica.
As informações de preços fornecidas não incluem descontos por cache ou faixas de volume. O Google pode oferecer tarifas reduzidas para tokens em cache em alguns modelos, mas isso não está confirmado para o Gemini 3 Flash Preview. O preço do OrcaRouter reflete o custo bruto por token sem nenhum acréscimo, portanto, você não paga a mais pelo gateway. Para implantações em larga escala, entre em contato diretamente com o Google para possíveis acordos empresariais. Sempre verifique os preços mais recentes na página de preços do OrcaRouter ou no painel da sua conta, pois as tarifas estão sujeitas a alterações pelo provedor. Atualmente, as taxas por milhão de tokens declaradas são as que se aplicam.
Você utiliza a API compatível com OpenAI da OrcaRouter na URL base https://api.orcarouter.ai/v1. O ID do modelo é "google/gemini-3-flash-preview". A autenticação é feita por meio de uma chave de API da OrcaRouter. Por exemplo, com curl você pode enviar uma requisição POST para /v1/chat/completions. O formato da requisição segue a estrutura de Chat Completions da OpenAI. Você deve incluir o parâmetro model definido exatamente como o ID do modelo. A OrcaRouter gerencia o roteamento para o endpoint do Google. Garanta que sua chave de API tenha as permissões adequadas. O streaming é suportado definindo stream: true no corpo da requisição.
Você pode usar parâmetros padrão do OpenAI Chat Completions: model, messages (com role: system, user, assistant), temperature, top_p, max_tokens (limitado a 65.536), sequências de parada, frequency_penalty, presence_penalty, logit_bias e stream. Para mensagens multimodais, inclua dados codificados em base64 ou IDs de arquivo no array content. O modelo detecta automaticamente a modalidade de entrada. Observe que nem todos os recursos do OpenAI (como function calling) podem ser suportados—consulte a documentação do OrcaRouter. A janela de contexto de 1.048.576 tokens é aplicada à contagem total de tokens da mensagem. Se excedida, as mensagens mais antigas são truncadas.
Se você já está usando o Vertex AI ou a API Gemini do Google, migrar requer alterações mínimas. Ajuste sua URL base da API para https://api.orcarouter.ai/v1, aponte para o ID do modelo "google/gemini-3-flash-preview" e substitua sua autenticação do Google por uma chave de API do OrcaRouter. O formato da mensagem é semelhante — o OrcaRouter traduz entre os formatos OpenAI e Google. Para conteúdo multimodal, certifique-se de seguir as diretrizes de anexos do OrcaRouter (por exemplo, dados codificados em base64 com tipos MIME adequados). Teste com um pequeno número de solicitações para confirmar a paridade. O OrcaRouter fornece documentação de suporte e código de exemplo para várias linguagens.
A estrutura da resposta corresponde ao formato Chat Completion da OpenAI: um objeto com choices, usage e id. Cada choice inclui um objeto message com role e content. O uso de tokens é reportado como prompt_tokens e completion_tokens. O campo finish_reason indica por que a geração parou (stop, length). Respostas em streaming emitem objetos delta. Se você estiver usando um SDK da OpenAI, só precisa alterar a chave da API e a URL base. O endpoint do OrcaRouter se comporta como uma API da OpenAI, simplificando a integração. Quaisquer peculiaridades específicas do modelo do Google (ex.: filtros de segurança) são preservadas; verifique a resposta para possíveis mensagens de recusa.
O Gemini 3 Flash Preview é a próxima geração do modelo Flash do Google, oferecendo uma janela de contexto maior (1.048.576 contra os anteriores 32K–1M, dependendo da versão) e suporte multimodal aprimorado, incluindo vídeo. A pontuação MMLU-Pro de 88,2 para o 3 Flash Preview sugere um raciocínio melhor do que as pontuações relatadas para o 2 Flash (não fornecidas, mas geralmente mais baixas). O preço do 2 Flash é menor por token, tornando-o mais econômico para tarefas simples. O Gemini 3 Flash Preview é mais rápido e mais capaz para raciocínio multimodal complexo, mas o 2 Flash continua sendo uma alternativa de baixo custo para tarefas apenas de texto ou imagens simples.
O GPT-4o da OpenAI também suporta entradas multimodais (texto, imagem, áudio) e possui uma janela de contexto de 128 mil tokens, significativamente menor que o 1 milhão de tokens do Gemini 3 Flash Preview. O preço do GPT-4o varia, mas geralmente é mais alto por token (por exemplo, $2,50/1M de entrada, $10/1M de saída). O menor custo e o contexto maior do Gemini 3 Flash Preview o tornam mais adequado para tarefas multimodais de longa duração ou alto volume. No entanto, o GPT-4o pode ter diferentes pontos fortes em escrita criativa ou geração de código, e seus benchmarks (por exemplo, MMLU) são comparáveis. A escolha depende das necessidades de tamanho de contexto e preferências de integração.
No portfólio do Google, o Gemini 3 Pro é um modelo maior e mais caro, projetado para máxima precisão (pontuações mais altas no MMLU-Pro). O Flash é a variante otimizada para custo e velocidade. O Gemini 2 Flash é mais antigo e mais barato, mas com contexto menor e possivelmente pontuações inferiores em benchmarks. O Gemini 3 Flash Preview oferece um meio-termo: raciocínio quase no nível Pro (88,2 MMLU-Pro) por uma fração do custo. Para usuários que precisam do maior contexto e da melhor velocidade, o 3 Flash Preview é ideal. Para raciocínio premium em entradas menores, o 3 Pro pode ser melhor. Para tarefas simples, o 2 Flash ou outros modelos leves podem ser suficientes.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Entrada / 1M tokens | $0.500 |
| Saída / 1M tokens | $3.00 |
| Leitura de cache / 1M | $0.050 |
| Moeda | USD |