Gemini 3.5 Flash

Name: Gemini 3.5 Flash API
Brand: google

google/gemini-3.5-flash

por google · 2026-05-23

O modelo multimodal eficiente do Google com contexto de 1M, alta produção e preços econômicos via OrcaRouter.

Endpoints:/v1/chat/completions /v1beta/models/{model}:generateContent

ctx1.05M tokens

Entradatext + image + video + file + audio

Saídatext

p50 TTFT10.00 s

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

ENTRADA$1.50/ 1M tokens

SAÍDA$9.00/ 1M tokens

p50 TTFT10.00 s7 d

p95 TTFT10.00 s7 d

TRÁFEGO4.5Mtokens / 7 d

Obter a API Gemini 3.5 Flash →▶ Testar no Playground </> Usar via API

O que é Gemini 3.5 Flash?

O Gemini 3.5 Flash é um modelo de linguagem de grande porte desenvolvido pelo Google, otimizado para velocidade e eficiência. Ele pertence à família Gemini e foi projetado para lidar com entradas multimodais — texto, imagem, vídeo, arquivo e áudio — enquanto fornece respostas rápidas. O modelo suporta uma janela de contexto de 1.048.576 tokens, permitindo processar sequências muito longas, como livros inteiros, vídeos de uma hora ou extensos repositórios de código. Seu comprimento máximo de saída de 65.536 tokens possibilita gerações longas, incluindo relatórios completos ou arquivos de código extensos. O Gemini 3.5 Flash é acessado por meio da API compatível com OpenAI do OrcaRouter, o que significa que você pode integrá-lo em aplicativos existentes com alterações mínimas no código.

Quem deve usar o Gemini 3.5 Flash?

Gemini 3.5 Flash é ideal para desenvolvedores e organizações que precisam de um equilíbrio entre alta taxa de transferência, baixa latência e custo. É particularmente adequado para ambientes de produção onde a velocidade de inferência importa, como chatbots em tempo real, pipelines de moderação de conteúdo ou suporte automatizado ao cliente. A generosa janela de contexto beneficia usuários que precisam analisar grandes conjuntos de dados, documentos longos ou extensos históricos de conversas sem dividir em partes. Além disso, equipes que constroem aplicações multimodais—como legendagem de imagens, sumarização de vídeos ou transcrição de áudio—podem aproveitar seu suporte nativo para múltiplos tipos de entrada. Se sua carga de trabalho exige capacidade de raciocínio extremamente alta ou matemática complexa, considere um modelo mais poderoso e mais lento.

Quais modalidades de entrada o Gemini 3.5 Flash suporta?

Gemini 3.5 Flash aceita cinco modalidades de entrada: texto, imagem, vídeo, arquivo e áudio. As entradas de texto podem ser strings simples ou mensagens estruturadas. As imagens podem ser passadas como dados codificados em base64 ou URLs; o modelo pode interpretar conteúdo visual como gráficos, diagramas ou fotografias. As entradas de vídeo são suportadas como sequências de quadros ou arquivos de vídeo compactados, permitindo que o modelo analise movimento e mudanças temporais. As entradas de arquivo cobrem formatos comuns como PDF, DOCX ou arquivos de código; o modelo pode extrair e raciocinar sobre seu conteúdo. As entradas de áudio podem ser brutas ou compactadas (ex.: MP3, WAV), permitindo transcrição de fala e análise de som. Todas as modalidades podem ser combinadas em uma única solicitação, tornando o Gemini 3.5 Flash uma ferramenta versátil para tarefas multimodais.

Como o Gemini 3.5 Flash é acessado através do OrcaRouter?

OrcaRouter expõe o Gemini 3.5 Flash através de sua API compatível com OpenAI. A URL base é https://api.orcarouter.ai/v1, e o ID específico do modelo é "google/gemini-3.5-flash". Você pode chamá-lo usando qualquer SDK da OpenAI ou requisições HTTP diretas, bastando alterar a URL base e o nome do modelo. A autenticação é feita por meio de uma chave de API fornecida pela OrcaRouter. A API suporta endpoints padrão de chat completions, streaming e parâmetros opcionais como temperature, top_p e max_tokens. A OrcaRouter não adiciona nenhum markup à taxa do provedor, então você paga exatamente $1,50 por 1M de tokens de entrada e $9,00 por 1M de tokens de saída. Nenhuma taxa adicional de gateway é aplicada.

Exemplos de código

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Preços

Entrada / 1M tokens	$1.50
Saída / 1M tokens	$9.00
Leitura de cache / 1M	$0.150
Escrita de cache / 1M	$0.083
Moeda	USD

Desempenho

últimos 7 dias

p50 TTFT

10.00 s

Velocidade de saída

10766 tok/s

p95 TTFT

10.00 s

Taxa de erro

0.44%

Benchmarks públicos

Última avaliação 2026-06-25

49.0

AA Coding

Melhor que 68% dos modelos comparados

47.0

AA Intelligence

Melhor que 58% dos modelos comparados

51.0

AA Math

Melhor que 27% dos modelos comparados

GPQA Diamond

45.0 index

MMLU-Pro

59.0 index

τ²-Bench

42.0 index

Fonte: artificialanalysis.ai

Mais de google

Ver todos os modelos de google →

Gemini 3.1 Pro PreviewCarro-chefe

google/gemini-3.1-pro-preview

$2.00 entrada · $12.00 saída / 1M

1.05M ctx· qualidade 10/10

Gemini 3.1 Pro Preview Custom Tools

google/gemini-3.1-pro-preview-customtools

$4.00 entrada · $18.00 saída / 1M

1.05M ctx· qualidade 10/10

Gemini 3 Flash PreviewMais barato

google/gemini-3-flash-preview

$0.50 entrada · $3.00 saída / 1M

1.05M ctx· qualidade 9/10

FAQ

Quanto custa o Gemini 3.5 Flash no OrcaRouter?

Os tokens de entrada custam $1.50 por 1 milhão de tokens; os tokens de saída custam $9.00 por 1 milhão de tokens. A OrcaRouter cobra à taxa do provedor, com markup zero. Não há taxas adicionais.

Qual é o tamanho da janela de contexto do Gemini 3.5 Flash?

Ele suporta uma janela de contexto de 1.048.576 tokens (cerca de 1 milhão de tokens). Isso inclui tanto tokens de entrada quanto de saída combinados.

Quais são os principais pontos fortes do Gemini 3.5 Flash?

Ele é otimizado para baixa latência, alta taxa de transferência e eficiência de custo. Suporta entradas multimodais (texto, imagem, vídeo, arquivo, áudio) e uma grande janela de contexto, tornando-o ideal para aplicações em tempo real e processamento de documentos longos.

Como o Gemini 3.5 Flash se compara ao Gemini 3.5 Pro?

Flash é mais rápido e mais barato, mas tem desempenho menor em benchmarks para tarefas complexas de raciocínio e matemática. Pro é mais preciso, porém mais lento e mais caro. Flash é melhor para aplicações de alto volume e sensíveis à latência.

Como os dados são tratados ao usar o Gemini 3.5 Flash via OrcaRouter?

OrcaRouter atua como um proxy e não armazena seus dados. No entanto, as políticas de tratamento de dados do Google se aplicam ao modelo subjacente. A OrcaRouter recomenda revisar os termos do Google sobre retenção de dados e privacidade.

Como posso chamar o Gemini 3.5 Flash usando uma API compatível com OpenAI?

Use a URL base https://api.orcarouter.ai/v1, o ID do modelo "google/gemini-3.5-flash" e passe uma chave de API do OrcaRouter no cabeçalho Authorization. A API suporta chat completions padrão e streaming.

Qual comprimento de saída o Gemini 3.5 Flash pode gerar?

Pode gerar até 65,536 tokens por resposta. Isso é significativamente maior do que muitos modelos, permitindo conteúdo de formato longo, código ou raciocínio estendido.

Existe algum desconto para tokens repetidos ou em cache?

Com base nos fatos fornecidos, o OrcaRouter não oferece cacheamento ou descontos por volume. Cada token é cobrado pela taxa padrão, independentemente de reutilização.

Incorporar este selo

Cole no seu post do blog

Gemini 3.5 Flash•$1.50/M in•10000ms p50•via OrcaRouter

HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash no OrcaRouter" /> </a>

Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)

Gemini 3.5 Flash

O que é Gemini 3.5 Flash?

Quem deve usar o Gemini 3.5 Flash?

Quais modalidades de entrada o Gemini 3.5 Flash suporta?

Como o Gemini 3.5 Flash é acessado através do OrcaRouter?

Para quais tarefas o Gemini 3.5 Flash é mais adequado?

Quando você deve escolher um modelo mais barato em vez do Gemini 3.5 Flash?

O Gemini 3.5 Flash consegue lidar com streaming e interações em tempo real?

Quais são as melhores práticas para usar a janela de contexto do Gemini 3.5 Flash?

Quais são os pontos fortes conhecidos do Gemini 3.5 Flash?

Quais são as limitações honestas do Gemini 3.5 Flash?

Como a latência se compara a outros modelos?

Qual é a qualidade da saída do modelo para código e dados estruturados?

Como é o preço do Gemini 3.5 Flash no OrcaRouter?

Quais são os trade-offs de custo entre tokens de entrada e saída?

O OrcaRouter oferece algum recurso de cache ou desconto?

Como os custos se comparam a outros modelos no OrcaRouter?

Como faço para chamar o Gemini 3.5 Flash via API do OrcaRouter?

Quais parâmetros estão disponíveis para o Gemini 3.5 Flash?

Posso migrar da API Google AI ou Vertex AI para o OrcaRouter?

Que tratamento de erro devo esperar ao usar a API?

Como o Gemini 3.5 Flash se compara ao Gemini 3.5 Pro?

Como o Gemini 3.5 Flash se compara ao GPT-4o Mini?

Como o Gemini 3.5 Flash se compara ao Claude 3 Haiku?

Qual é a principal vantagem do Gemini 3.5 Flash em relação aos modelos de código aberto?

Exemplos de código

Preços

Desempenho

Benchmarks públicos

Mais de google

FAQ

Incorporar este selo

Gemini 3.5 Flash

Detalhes do modelo

O que é Gemini 3.5 Flash?

Quem deve usar o Gemini 3.5 Flash?

Quais modalidades de entrada o Gemini 3.5 Flash suporta?

Como o Gemini 3.5 Flash é acessado através do OrcaRouter?

Para quais tarefas o Gemini 3.5 Flash é mais adequado?

Quando você deve escolher um modelo mais barato em vez do Gemini 3.5 Flash?

O Gemini 3.5 Flash consegue lidar com streaming e interações em tempo real?

Quais são as melhores práticas para usar a janela de contexto do Gemini 3.5 Flash?

Quais são os pontos fortes conhecidos do Gemini 3.5 Flash?

Quais são as limitações honestas do Gemini 3.5 Flash?

Como a latência se compara a outros modelos?

Qual é a qualidade da saída do modelo para código e dados estruturados?

Como é o preço do Gemini 3.5 Flash no OrcaRouter?

Quais são os trade-offs de custo entre tokens de entrada e saída?

O OrcaRouter oferece algum recurso de cache ou desconto?

Como os custos se comparam a outros modelos no OrcaRouter?

Como faço para chamar o Gemini 3.5 Flash via API do OrcaRouter?

Quais parâmetros estão disponíveis para o Gemini 3.5 Flash?

Posso migrar da API Google AI ou Vertex AI para o OrcaRouter?

Que tratamento de erro devo esperar ao usar a API?

Como o Gemini 3.5 Flash se compara ao Gemini 3.5 Pro?

Como o Gemini 3.5 Flash se compara ao GPT-4o Mini?

Como o Gemini 3.5 Flash se compara ao Claude 3 Haiku?

Qual é a principal vantagem do Gemini 3.5 Flash em relação aos modelos de código aberto?

Exemplos de código

Preços

Desempenho

Benchmarks públicos

Mais de google

FAQ

Incorporar este selo