Gemini 3.5 Flash

google/gemini-3.5-flash
por google · 2026-05-23

O modelo multimodal eficiente do Google com contexto de 1M, alta produção e preços econômicos via OrcaRouter.

ctx1.05M tokens
Entradatext + image + video + file + audio
Saídatext
p50 TTFT10.00 s
ENTRADA$1.50/ 1M tokens
SAÍDA$9.00/ 1M tokens
p50 TTFT10.00 s7 d
p95 TTFT10.00 s7 d
TRÁFEGO4.5Mtokens / 7 d

Detalhes do modelo

O que é Gemini 3.5 Flash?

O Gemini 3.5 Flash é um modelo de linguagem de grande porte desenvolvido pelo Google, otimizado para velocidade e eficiência. Ele pertence à família Gemini e foi projetado para lidar com entradas multimodais — texto, imagem, vídeo, arquivo e áudio — enquanto fornece respostas rápidas. O modelo suporta uma janela de contexto de 1.048.576 tokens, permitindo processar sequências muito longas, como livros inteiros, vídeos de uma hora ou extensos repositórios de código. Seu comprimento máximo de saída de 65.536 tokens possibilita gerações longas, incluindo relatórios completos ou arquivos de código extensos. O Gemini 3.5 Flash é acessado por meio da API compatível com OpenAI do OrcaRouter, o que significa que você pode integrá-lo em aplicativos existentes com alterações mínimas no código.

Quem deve usar o Gemini 3.5 Flash?

Gemini 3.5 Flash é ideal para desenvolvedores e organizações que precisam de um equilíbrio entre alta taxa de transferência, baixa latência e custo. É particularmente adequado para ambientes de produção onde a velocidade de inferência importa, como chatbots em tempo real, pipelines de moderação de conteúdo ou suporte automatizado ao cliente. A generosa janela de contexto beneficia usuários que precisam analisar grandes conjuntos de dados, documentos longos ou extensos históricos de conversas sem dividir em partes. Além disso, equipes que constroem aplicações multimodais—como legendagem de imagens, sumarização de vídeos ou transcrição de áudio—podem aproveitar seu suporte nativo para múltiplos tipos de entrada. Se sua carga de trabalho exige capacidade de raciocínio extremamente alta ou matemática complexa, considere um modelo mais poderoso e mais lento.

Quais modalidades de entrada o Gemini 3.5 Flash suporta?

Gemini 3.5 Flash aceita cinco modalidades de entrada: texto, imagem, vídeo, arquivo e áudio. As entradas de texto podem ser strings simples ou mensagens estruturadas. As imagens podem ser passadas como dados codificados em base64 ou URLs; o modelo pode interpretar conteúdo visual como gráficos, diagramas ou fotografias. As entradas de vídeo são suportadas como sequências de quadros ou arquivos de vídeo compactados, permitindo que o modelo analise movimento e mudanças temporais. As entradas de arquivo cobrem formatos comuns como PDF, DOCX ou arquivos de código; o modelo pode extrair e raciocinar sobre seu conteúdo. As entradas de áudio podem ser brutas ou compactadas (ex.: MP3, WAV), permitindo transcrição de fala e análise de som. Todas as modalidades podem ser combinadas em uma única solicitação, tornando o Gemini 3.5 Flash uma ferramenta versátil para tarefas multimodais.

Como o Gemini 3.5 Flash é acessado através do OrcaRouter?

OrcaRouter expõe o Gemini 3.5 Flash através de sua API compatível com OpenAI. A URL base é https://api.orcarouter.ai/v1, e o ID específico do modelo é "google/gemini-3.5-flash". Você pode chamá-lo usando qualquer SDK da OpenAI ou requisições HTTP diretas, bastando alterar a URL base e o nome do modelo. A autenticação é feita por meio de uma chave de API fornecida pela OrcaRouter. A API suporta endpoints padrão de chat completions, streaming e parâmetros opcionais como temperature, top_p e max_tokens. A OrcaRouter não adiciona nenhum markup à taxa do provedor, então você paga exatamente $1,50 por 1M de tokens de entrada e $9,00 por 1M de tokens de saída. Nenhuma taxa adicional de gateway é aplicada.

Exemplos de código

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Preços

Entrada / 1M tokens$1.50
Saída / 1M tokens$9.00
Leitura de cache / 1M$0.150
Escrita de cache / 1M$0.083
MoedaUSD

Desempenho

p50 TTFT
10.00 s
Velocidade de saída
10766 tok/s
p95 TTFT
10.00 s
Taxa de erro
0.44%

Benchmarks públicos

49.0
AA Coding
Melhor que 68% dos modelos comparados
47.0
AA Intelligence
Melhor que 58% dos modelos comparados
51.0
AA Math
Melhor que 27% dos modelos comparados
GPQA Diamond
45.0 index
MMLU-Pro
59.0 index
τ²-Bench
42.0 index
Fonte: artificialanalysis.ai

FAQ

Quanto custa o Gemini 3.5 Flash no OrcaRouter?
Os tokens de entrada custam $1.50 por 1 milhão de tokens; os tokens de saída custam $9.00 por 1 milhão de tokens. A OrcaRouter cobra à taxa do provedor, com markup zero. Não há taxas adicionais.
Qual é o tamanho da janela de contexto do Gemini 3.5 Flash?
Ele suporta uma janela de contexto de 1.048.576 tokens (cerca de 1 milhão de tokens). Isso inclui tanto tokens de entrada quanto de saída combinados.
Quais são os principais pontos fortes do Gemini 3.5 Flash?
Ele é otimizado para baixa latência, alta taxa de transferência e eficiência de custo. Suporta entradas multimodais (texto, imagem, vídeo, arquivo, áudio) e uma grande janela de contexto, tornando-o ideal para aplicações em tempo real e processamento de documentos longos.
Como o Gemini 3.5 Flash se compara ao Gemini 3.5 Pro?
Flash é mais rápido e mais barato, mas tem desempenho menor em benchmarks para tarefas complexas de raciocínio e matemática. Pro é mais preciso, porém mais lento e mais caro. Flash é melhor para aplicações de alto volume e sensíveis à latência.
Como os dados são tratados ao usar o Gemini 3.5 Flash via OrcaRouter?
OrcaRouter atua como um proxy e não armazena seus dados. No entanto, as políticas de tratamento de dados do Google se aplicam ao modelo subjacente. A OrcaRouter recomenda revisar os termos do Google sobre retenção de dados e privacidade.
Como posso chamar o Gemini 3.5 Flash usando uma API compatível com OpenAI?
Use a URL base https://api.orcarouter.ai/v1, o ID do modelo "google/gemini-3.5-flash" e passe uma chave de API do OrcaRouter no cabeçalho Authorization. A API suporta chat completions padrão e streaming.
Qual comprimento de saída o Gemini 3.5 Flash pode gerar?
Pode gerar até 65,536 tokens por resposta. Isso é significativamente maior do que muitos modelos, permitindo conteúdo de formato longo, código ou raciocínio estendido.
Existe algum desconto para tokens repetidos ou em cache?
Com base nos fatos fornecidos, o OrcaRouter não oferece cacheamento ou descontos por volume. Cada token é cobrado pela taxa padrão, independentemente de reutilização.

Incorporar este selo

Gemini 3.5 Flash$1.50/M in10000ms p50via OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash no OrcaRouter" /> </a>
Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)