Google Gemini 3 Flash Preview – 多模态模型,拥有1M token上下文,MMLU-Pro得分88.2,可通过OrcaRouter访问。
Google Gemini 3 Flash Preview是由Google开发的多模态模型,针对速度和长上下文处理进行了优化。它支持文本、图像、文件、音频和视频格式的输入,并可生成最多65,536个令牌的输出。该模型的上下文窗口为1,048,576个令牌,能够在极长序列上进行推理。它在MMLU-Pro基准测试中得分为88.2,表明在广泛的学术和推理任务中具有强劲性能。此预览版本可通过OrcaRouter的兼容OpenAI API使用,模型ID为google/gemini-3-flash-preview。
Gemini 3 Flash Preview 面向需要快速多模态推理与长上下文的开发者及组织,适用于视频分析、长文档摘要、实时音视频理解等场景。该模型定价为每百万输入Token 0.50美元、每百万输出Token 3.00美元,对初创企业和大型企业均具可及性。作为预览版,早期采用者可在稳定版发布前评估其能力。OrcaRouter 提供对该模型的无缝接入,包括兼容OpenAI的接口和零加价的提供商费率。
Gemini 3 Flash Preview 支持五种输入模态:文本、图像、文件、音频和视频。文本可以是纯文本或结构化文本;图像包括照片、图表和截图;文件覆盖 PDF 和文档等格式;音频涵盖语音和音乐;视频则可同时处理视觉和音频轨道。该模型能够在单条提示中组合多种模态——例如,在分析视频的同时读取所附的 PDF。这种多功能性使其能够处理复杂的混合媒体任务,无需独立的处理流程。输入令牌的计数基于每种模态特定的分词器规则。
Gemini 3 Flash Preview 是谷歌第三代 Flash 模型的预发布版本。作为预览版,其行为、性能及可用性可能会发生变化。谷歌通常会根据用户反馈更新预览模型,并最终可能用稳定版替换预览端点。该模型功能完善,适合测试与开发,但生产部署时应关注更新动态。OrcaRouter 镜像了提供商的端点,确保谷歌的任何变更都能及时反映。模型 ID google/gemini-3-flash-preview 将保持不变,除非谷歌修改其命名。
该模型能够同时处理文本和图像,执行图像描述、视觉问答和文档提取等任务。它可以从扫描文档中读取文字、解读图表,并回答关于内容的问题。对于纯文本输入,它支持语言理解、摘要、翻译和代码生成。其大上下文窗口(1,048,576个token)使其能够处理超长对话、整本书籍或庞大的代码库。其MMLU-Pro得分为88.2,表明它在科学、数学和人文学科等广泛领域具有稳健的推理能力。
音频输入可以是直接语音或录制好的音频;模型能够进行转录、翻译或内容分析。视频输入结合了视觉帧和音频轨道——适合总结视频内容、检测物体或理解带有旁白的场景。上下文窗口意味着只要令牌数量在限制范围内,长视频或音频文件可以在单次交互中被完整处理。输出基于文本;模型不会生成音频或视频。OrcaRouter的API支持在消息内容中发送音频文件(如MP3、WAV)和视频文件(如MP4)。
Flash变体针对速度和成本进行了优化,非常适合实时应用:实时转录、交互式多模态聊天机器人、快速文档摘要以及跨媒体类型的内容审核。它在需要大上下文场景中也表现出色,例如分析整个会议记录或处理包含嵌入图表的长篇研究论文。同时受益于速度和多模态推理的用例(如视频字幕生成或法律文档审查)也非常适合。然而,对于需要在单一模态上进行更深层次推理的任务(例如纯代码生成),专门的模型可能表现更佳。
Gemini 3 Flash Preview 的定价为输入 $0.50/1M、输出 $3.00/1M,这一价格在多模态模型中较低,但并非最低。如果您的用例仅涉及纯文本,且需要更低的延迟或成本,可考虑专用文本模型,例如 Gemini 2.0 Flash(如果可用)或类似定价的其他选择。另一方面,如果您需要在复杂基准测试(如 MATH、GPQA)中实现更优推理能力,且预算更充裕,则可选用更大的模型,如 Gemini 3 Pro 或 GPT-4o。对于高吞吐量、延迟敏感的多模态工作负载而言,该 Flash 模型实现了良好的平衡。
MMLU-Pro 是大规模多任务语言理解基准测试的扩展版本,涵盖57个学科,包含更具挑战性的问题。88.2的分数表明该模型正确回答了88.2%的问题,使其在该评估中跻身顶级模型之列。它反映了模型在从法律到物理学等不同领域的强大知识和推理能力。这一分数与其他前沿模型具有竞争力,尤其是在考虑到Flash模型针对速度而非最高精度进行了优化的情况下。所提供的分数是该模型的主要基准事实,应被视为能力的一般指标,而非对每个特定任务的保证。
虽然未提供具体的延迟数据,但谷歌的Flash模型旨在实现高吞吐量和低延迟。该模型相比Gemini 3 Pro等更大模型设计得更快,适用于实时交互。用户可预期每次请求时间低于非Flash版本,但实际速度取决于输入长度、输出长度和并发使用等因素。OrcaRouter不会在提供商API基础上引入额外延迟。为获得最佳性能,请保持提示简洁并使用流式响应。较大的输出限制(65,536个token)可能会增加较长答案的生成时间。
MMLU-Pro得分(88.2)表明其具备强大的推理能力和广泛的知识储备。该模型能够处理百万级token的上下文以及多种输入模态(文本、图像、文件、音频、视频),这使得它在多模态任务中相较于仅支持文本的模型更具优势。Flash模型素来以速度和成本效率见长。高达65,536个输出token的限制使其能够生成长篇摘要或扩展分析。这些优势使其成为需要快速、大规模处理多样化数据类型的应用场景中的通用选择。
作为Flash预览版,其准确性可能不如针对特定基准测试(例如编程竞赛、多步数学推理)的更大规模非Flash模型。该模型不生成图像或音频,仅输出文本。其预览状态可能导致间歇性可用性或功能覆盖不全。此外,尽管上下文窗口较大,但若输入超过1,048,576个token,超长内容将被截断。MMLU-Pro评分仅为单一数据点,实际性能可能有所差异。在需要绝对精度的专业领域任务中,建议进行验证。
定价为每百万输入令牌$0.50,每百万输出令牌$3.00。这些费率由Google提供,按提供商费率计费——OrcaRouter不加收任何加成。输入令牌包括从文件、图像和视频中编码的所有文本及视觉/音频令牌。输出令牌仅指模型生成的文本。通过OrcaRouter访问API除按令牌计费外无额外费用。这种透明的定价让您轻松估算成本:例如,1,000个输入令牌和500个输出令牌的成本大约为$0.0005 + $0.0015 = $0.002。
在每百万输入0.50美元、每百万输出3.00美元的定价下,Gemini 3 Flash Preview 针对拥有100万上下文窗口的多模态模型而言具有竞争力。较大的模型如 Gemini 3 Pro 或 GPT-4o 通常每token成本更高,尤其是输出方面。较小的纯文本模型可能更便宜(例如,Gemini 2.0 Flash 每百万token为0.10美元/0.40美元,如适用)。对于多模态工作负载,该模型提供了一个成本效益良好的中间地带。OrcaRouter 的零加价确保你支付的是谷歌的精确费率。如果你的使用量较高,即使是微小的每token差异也可能产生影响,因此请根据你具体任务的token配置进行比较。
所提供的定价信息不包含任何缓存折扣或批量层级。Google可能会为某些模型的缓存token提供优惠费率,但这尚未在Gemini 3 Flash Preview中得到确认。OrcaRouter的定价反映了原始每token成本,不包含任何加价,因此您无需为网关支付额外费用。对于大规模部署,请直接联系Google以获取潜在的企业协议。请始终查看OrcaRouter定价页面或您的账户仪表板中的最新定价,因为费率可能由提供商随时调整。目前适用的就是所标明的每百万token费率。
您使用 OrcaRouter 的 OpenAI 兼容 API,基础 URL 为 https://api.orcarouter.ai/v1。模型 ID 为 "google/gemini-3-flash-preview"。认证通过 OrcaRouter 提供的 API 密钥处理。例如,使用 curl 可以向 /v1/chat/completions 发送 POST 请求。请求格式遵循 OpenAI 的 Chat Completions 结构。您必须将 model 参数设置为确切的模型 ID。OrcaRouter 负责将请求路由到 Google 的端点。确保您的 API 密钥具有适当的权限。通过在请求体中设置 stream: true 支持流式传输。
您可以使用标准的 OpenAI Chat Completions 参数:model、messages(含 role: system、user、assistant)、temperature、top_p、max_tokens(上限为 65,536)、stop 序列、frequency_penalty、presence_penalty、logit_bias 和 stream。对于多模态消息,请在 content 数组中包含 base64 编码的数据或文件 ID。模型会自动检测输入模态。请注意,并非所有 OpenAI 功能(如函数调用)都受支持——请查阅 OrcaRouter 文档。上下文窗口为 1,048,576 个 token,适用于总消息 token 数。如果超出,最旧的消息将被截断。
如果你已经在使用Google的Vertex AI或Gemini API,迁移只需极少的改动。将你的API基础URL调整为https://api.orcarouter.ai/v1,指向模型ID "google/gemini-3-flash-preview",并用OrcaRouter API密钥替换你的Google身份验证。消息格式类似——OrcaRouter在OpenAI和Google格式之间进行转换。对于多模态内容,请确保遵循OrcaRouter的附件指南(例如,带有正确MIME类型的base64编码数据)。先用少量请求进行测试以确认一致性。OrcaRouter提供了多种语言的文档支持和示例代码。
响应结构匹配OpenAI的Chat Completion格式:一个包含choices、usage和id的对象。每个choice包含一个带有role和content的消息对象。令牌使用情况报告为prompt_tokens和completion_tokens。finish_reason字段表示生成停止的原因(stop, length)。流式响应会发送delta对象。如果你在使用OpenAI SDK,只需更改API密钥和基础URL。OrcaRouter的端点行为类似OpenAI API,简化了集成。任何特定于Google模型的特性(如安全过滤器)都将保留;检查响应中可能的拒绝消息。
Gemini 3 Flash Preview 是谷歌新一代 Flash 模型,拥有更大的上下文窗口(1,048,576 个 token,而上一代因版本不同为 32K–1M),并改进了包括视频在内的多模态支持。3 Flash Preview 的 MMLU-Pro 得分为 88.2,表明其推理能力优于 2 Flash 的报告得分(未提供,但通常较低)。2 Flash 的每 token 定价更低,在简单任务上更具成本效益。Gemini 3 Flash Preview 在复杂多模态推理中速度更快、能力更强,但 2 Flash 对于纯文本或简单图像任务仍是经济高效的选择。
GPT-4o (OpenAI) 也支持多模态输入(文本、图像、音频),上下文窗口为 128K tokens,远小于 Gemini 3 Flash Preview 的 1M tokens。GPT-4o 的定价有所不同,但通常每个 token 更高(例如,输入 $2.50/1M,输出 $10/1M)。Gemini 3 Flash Preview 成本更低且上下文更大,更适合长文本或高容量的多模态任务。然而,GPT-4o 在创意写作或代码生成方面可能具备不同优势,其基准测试(如 MMLU)表现相当。选择取决于上下文大小需求和集成偏好。
在Google的产品线中,Gemini 3 Pro是一款更大、更昂贵的模型,专为实现最高精度而设计(更高的MMLU-Pro分数)。Flash是成本和速度优化版本。Gemini 2 Flash更旧、更便宜,但上下文长度更小,基准分数可能更低。Gemini 3 Flash Preview提供了一个中间选择:接近Pro级别的推理能力(MMLU-Pro高达88.2),但成本仅为Pro的一小部分。对于需要最大上下文和最佳速度的用户来说,3 Flash Preview是理想选择。如果是在较小输入上追求顶级推理,3 Pro可能更合适。对于简单任务,2 Flash或其他轻量级模型也足以胜任。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 输入 / 1M tokens | $0.500 |
| 输出 / 1M tokens | $3.00 |
| 缓存读取 / 1M | $0.050 |
| 货币 | USD |