Gemini 3 Flash Preview

google/gemini-3-flash-preview
por Google · 2025-12-17

Google Gemini 3 Flash Preview – Modelo multimodal com contexto de 1M tokens, 88.2 MMLU-Pro, acessível via OrcaRouter.

ctx1.05M tokens
Entradatext + image + file + audio + video
Saídatext
p50 TTFT3.81 s
ENTRADA$0.50/ 1M tokens
SAÍDA$3.00/ 1M tokens
p50 TTFT3.81 s7 d
p95 TTFT10.00 s7 d
TRÁFEGO1.1Mtokens / 7 d

Detalhes do modelo

O que é Google Gemini 3 Flash Preview?

Google Gemini 3 Flash Preview é um modelo multimodal desenvolvido pelo Google, otimizado para velocidade e processamento de grandes contextos. Aceita entrada em formatos de texto, imagem, arquivo, áudio e vídeo, e pode gerar até 65.536 tokens de saída. O modelo possui uma janela de contexto de 1.048.576 tokens, permitindo raciocinar através de sequências muito longas. Ele obtém 88,2 no benchmark MMLU-Pro, indicando forte desempenho em uma ampla gama de tarefas acadêmicas e de raciocínio. Esta versão de pré-visualização está disponível através da API compatível com OpenAI da OrcaRouter sob o ID do modelo google/gemini-3-flash-preview.

Qual é o público-alvo deste modelo?

Gemini 3 Flash Preview tem como alvo desenvolvedores e organizações que constroem aplicações que exigem raciocínio multimodal rápido com grande contexto. É adequado para casos de uso como análise de vídeo, resumo de documentos longos e compreensão de áudio-vídeo em tempo real. O preço do modelo—$0.50 por milhão de tokens de entrada e $3.00 por milhão de tokens de saída—torna-o acessível tanto para startups quanto para empresas. Por ser uma prévia, os primeiros adotantes podem avaliar suas capacidades antes do lançamento estável. O OrcaRouter fornece acesso contínuo a este modelo, incluindo endpoints compatíveis com OpenAI e markup zero nas tarifas do provedor.

Quais entradas multimodais ele suporta?

Gemini 3 Flash Preview suporta cinco modalidades de entrada: texto, imagem, arquivo, áudio e vídeo. O texto pode ser simples ou estruturado; imagens podem incluir fotos, diagramas e capturas de tela; arquivos abrangem formatos como PDFs e documentos; áudio inclui fala e música; vídeo pode ser processado com faixas visuais e de áudio. O modelo pode combinar múltiplas modalidades em um único prompt — por exemplo, analisando um vídeo enquanto também lê um PDF anexado. Essa versatilidade permite lidar com tarefas complexas de mídia mista sem exigir pipelines separados. Os tokens de entrada são contados com base nas regras específicas do tokenizador de cada modalidade.

Qual é o status de pré-visualização e quão estável ele é?

Gemini 3 Flash Preview é uma versão de pré-lançamento do modelo Flash de terceira geração do Google. Como uma prévia, pode sofrer alterações no comportamento, desempenho e disponibilidade. O Google normalmente atualiza modelos de pré-visualização com base no feedback dos usuários e pode eventualmente substituir endpoints de pré-visualização por versões estáveis. Embora o modelo seja funcional e adequado para testes e desenvolvimento, implantações em produção devem monitorar atualizações. O OrcaRouter espelha o endpoint do provedor, garantindo que quaisquer mudanças do Google sejam refletidas prontamente. O ID do modelo google/gemini-3-flash-preview permanecerá consistente, a menos que o Google modifique sua nomenclatura.

Exemplos de código

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Preços

Entrada / 1M tokens$0.500
Saída / 1M tokens$3.00
Leitura de cache / 1M$0.050
MoedaUSD

Desempenho

p50 TTFT
3.81 s
Velocidade de saída
851 tok/s
p95 TTFT
10.00 s
Taxa de erro
0%

Benchmarks públicos

37.8
AA Coding
Melhor que 47% dos modelos comparados
35.0
AA Intelligence
Melhor que 35% dos modelos comparados
55.7
AA Math
Melhor que 32% dos modelos comparados
AIME 2025
55.7
GPQA Diamond
81.2
Humanity's Last Exam
14.1
IFBench
55.1
LiveCodeBench
79.7
Long-Context Recall
48.0
MMLU-Pro
88.2
SciCode
49.9
TerminalBench Hard
31.8
τ²-Bench
43.3
Fonte: artificialanalysis.ai

FAQ

Qual é o custo para usar o Gemini 3 Flash Preview?
O preço é de $0.50 por milhão de tokens de entrada e $3.00 por milhão de tokens de saída, faturado pela taxa do provedor com margem zero adicionada pela OrcaRouter.
Qual é o tamanho da janela de contexto?
A janela de contexto é de 1,048,576 tokens para entrada e o modelo pode gerar até 65,536 tokens de saída.
Quais são as modalidades de entrada suportadas?
Texto, imagem, arquivo, áudio e vídeo são aceitos como entrada. A saída é apenas texto.
Como ele se compara ao Gemini 2 Flash?
Gemini 3 Flash Preview possui um contexto maior (1M contra até 1M, mas geralmente menor), pontuação MMLU-Pro mais alta (88,2) e suporte multimodal expandido, incluindo vídeo. É mais rápido e mais capaz para tarefas complexas, mas Gemini 2 Flash é mais barato por token.
Como o OrcaRouter lida com a privacidade de dados?
OrcaRouter encaminha suas solicitações para a API do Google. O tratamento de dados segue a política de privacidade do Google. A OrcaRouter não registra ou armazena seu conteúdo além do necessário para processar a solicitação. Consulte as políticas de ambos os provedores para obter detalhes.
Posso chamar o Gemini 3 Flash Preview usando uma API compatível com OpenAI?
Sim. Use a API do OrcaRouter em https://api.orcarouter.ai/v1 com o ID do modelo "google/gemini-3-flash-preview". A autenticação usa uma chave de API do OrcaRouter. Os formatos de requisição e resposta seguem o esquema de Chat Completions da OpenAI.
Quais são os principais pontos fortes do modelo?
Alta velocidade de inferência, grande contexto de 1M de tokens, entrada multimodal (texto, imagem, arquivo, áudio, vídeo), benchmark MMLU-Pro forte (88.2) e baixo custo em relação a modelos maiores.
O Gemini 3 Flash Preview está disponível para produção?
É uma versão de pré-visualização, o que significa que pode ter mudanças, disponibilidade intermitente ou suporte limitado. É adequada para testes e desenvolvimento; para cargas de trabalho críticas de produção, considere usar a versão estável quando disponível.
Como estimar o uso de tokens para entradas multimodais?
Cada modalidade tem sua própria tokenização. Imagens, áudio e vídeo são divididos em tokens com base na resolução e duração. O OrcaRouter relata o uso de tokens na resposta da API. Você também pode consultar a documentação do Google para regras detalhadas de contagem de tokens.
O que acontece se eu exceder a janela de contexto?
Entradas que excedem 1.048.576 tokens serão truncadas a partir do conteúdo mais antigo. O modelo ignorará os tokens em excesso. Certifique-se de que suas mensagens caibam dentro do limite monitorando o total de tokens em sua solicitação.

Incorporar este selo

Google: Gemini 3 Flash Preview$0.50/M in3812ms p50via OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3-flash-preview" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3-flash-preview.svg" alt="Google: Gemini 3 Flash Preview no OrcaRouter" /> </a>
Markdown [![Google: Gemini 3 Flash Preview](https://www.orcarouter.ai/embed/google/gemini-3-flash-preview.svg)](https://www.orcarouter.ai/models/google/gemini-3-flash-preview)