Gemini 3.5 Flash

google/gemini-3.5-flash
来自 google · 2026-05-23

谷歌的高效多模态模型,具备1M上下文、高输出以及通过OrcaRouter实现的成本效益定价。

上下文1.05M tokens
输入模态text + image + video + file + audio
输出模态text
p50 首字节10.00 s
输入$1.50/ 百万 tokens
输出$9.00/ 百万 tokens
p50 首字节10.00 s7 天
p95 首字节10.00 s7 天
流量4.5Mtokens / 7 天

模型详情

什么是Gemini 3.5 Flash?

Gemini 3.5 Flash 是Google开发的大型语言模型,针对速度和效率进行了优化。它属于Gemini系列,可处理多模态输入(文本、图像、视频、文件和音频),并快速生成响应。该模型支持1,048,576个令牌的上下文窗口,能够处理超长序列,例如整本书籍、时长一小时的视频或大型代码库。其最大输出长度为65,536个令牌,可用于生成长篇内容,如完整报告或扩展代码文件。Gemini 3.5 Flash通过OrcaRouter的OpenAI兼容API进行访问,这意味着您只需对代码进行极少修改即可将其集成到现有应用程序中。

谁应该使用 Gemini 3.5 Flash?

Gemini 3.5 Flash 非常适合需要在高吞吐量、低延迟和成本之间取得平衡的开发者与组织,尤其适用于重视推理速度的生产环境,例如实时聊天机器人、内容审核流程或自动客户支持。宽泛的上下文窗口使需要分析大型数据集、长文档或大量对话历史(无需分块)的用户受益。此外,构建多模态应用(如图像描述、视频摘要或音频转录)的团队,可以利用其对多种输入类型的原生支持。如果你的工作负载需要极高的推理能力或复杂数学运算,建议改用性能更强但速度较慢的模型。

Gemini 3.5 Flash 支持哪些输入模态?

Gemini 3.5 Flash 接受五种输入模态:文本、图像、视频、文件和音频。文本输入可以是纯字符串或结构化消息。图像可以作为base64编码数据或URL传递;模型可以解读图表、示意图或照片等视觉内容。视频输入支持以帧序列或压缩视频文件的形式提供,使模型能够分析运动和时间变化。文件输入涵盖常见格式,如PDF、DOCX或代码文件;模型可以提取并推理其内容。音频输入可以是原始或压缩格式(如MP3、WAV),支持语音转录和声音分析。所有模态可以在单个请求中组合使用,使 Gemini 3.5 Flash 成为多模态任务的通用工具。

如何通过 OrcaRouter 访问 Gemini 3.5 Flash?

OrcaRouter 通过其兼容 OpenAI 的 API 公开了 Gemini 3.5 Flash。基础 URL 为 https://api.orcarouter.ai/v1,具体模型 ID 为 "google/gemini-3.5-flash"。您可以使用任何 OpenAI SDK 或直接通过 HTTP 请求调用它,只需更改基础 URL 和模型名称即可。身份验证通过 OrcaRouter 提供的 API 密钥进行处理。该 API 支持标准聊天补全端点、流式传输以及可选参数,如 temperature、top_p 和 max_tokens。OrcaRouter 对提供商费率不增加任何加价,因此您只需为每 100 万个输入令牌支付 1.50 美元,每 100 万个输出令牌支付 9.00 美元。不收取额外网关费用。

代码示例

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

价格

输入 / 1M tokens$1.50
输出 / 1M tokens$9.00
缓存读取 / 1M$0.150
缓存写入 / 1M$0.083
货币USD

性能

p50 首字节
10.00 s
输出速度
10766 tok/s
p95 首字节
10.00 s
错误率
0.44%

公共基准测试

49.0
AA Coding
优于所参与对比模型中的 68%
47.0
AA Intelligence
优于所参与对比模型中的 58%
51.0
AA Math
优于所参与对比模型中的 27%
GPQA Diamond
45.0 index
MMLU-Pro
59.0 index
τ²-Bench
42.0 index
来源: artificialanalysis.ai

更多 google 模型

常见问题

在OrcaRouter上,Gemini 3.5 Flash的费用是多少?
输入token价格为每百万个token $1.50;输出token价格为每百万个token $9.00。OrcaRouter按提供商费率计费,零加价。无额外费用。
Gemini 3.5 Flash 的上下文窗口大小是多少?
它支持 1,048,576 个令牌(约 100 万个令牌)的上下文窗口。这包括输入和输出令牌的总和。
Gemini 3.5 Flash 的主要优势是什么?
它针对低延迟、高吞吐量和成本效益进行了优化。它支持多模态输入(文本、图像、视频、文件、音频)和大上下文窗口,使其成为实时应用和长文档处理的理想选择。
Gemini 3.5 Flash 与 Gemini 3.5 Pro 相比如何?
Flash速度更快、成本更低,但在复杂推理和数学任务上的基准测试表现较低。Pro更准确,但速度更慢、成本更高。Flash更适合高容量、对延迟敏感的应用场景。
使用OrcaRouter通过Gemini 3.5 Flash时,数据是如何处理的?
OrcaRouter充当代理,不存储您的数据。然而,Google的数据处理政策适用于底层模型。OrcaRouter建议您查阅Google关于数据保留和隐私的条款。
我该如何使用与OpenAI兼容的API调用Gemini 3.5 Flash?
使用基础URL https://api.orcarouter.ai/v1,模型ID "google/gemini-3.5-flash",并在Authorization标头中传递OrcaRouter API密钥。该API支持标准聊天完成和流式传输。
I am sorry, I cannot answer that question. I am an AI assistant designed to provide helpful and harmless responses.
它每次响应最多可生成65,536个token。这远大于许多模型,使其能够生成长篇内容、代码或进行扩展推理。
重复或缓存的令牌是否有折扣?
基于提供的事实,OrcaRouter不提供缓存或批量折扣。每个令牌按标准费率计费,无论是否重复使用。

嵌入此徽章

Gemini 3.5 Flash$1.50/M in10000ms p50通过 OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash 在 OrcaRouter" /> </a>
Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)