Google Gemini 3.1 Pro Preview:旗舰多模态模型,具有1M上下文窗口和95.6 τ²-Bench分数,通过OrcaRouter API访问。
Google Gemini 3.1 Pro Preview 是 Google 的旗舰模型,以预览形式提供。它是一个多模态模型,能够处理文本、图像、视频、音频和文件输入。该模型被归类为旗舰层级,表明它专为高需求、复杂应用而设计,在这些应用中性能和容量至关重要。作为预览版,与稳定版本相比,它在稳定性或可用性方面可能存在限制。访问通过 OrcaRouter API 提供。
此模型面向需要处理高达1,048,576个token的大上下文窗口并需要多模态理解的开发者和企业。用例包括长文档分析、视频审核、具备完整对话记忆的高级聊天机器人,以及从混合媒体中提取复杂数据。预览状态使其适合实验和早期集成,但生产部署应评估稳定性。对于已使用OrcaRouter兼容OpenAI的API并希望测试Google最新旗舰能力的团队而言,这也是理想选择。
该模型支持1,048,576个token的上下文窗口(输入)和最多65,536个token的输出。它接受多种模态的输入:音频、文件(例如PDF、代码文件)、图像、文本和视频。在τ²-Bench(衡量任务完成性能的指标)上的基准得分为95.6。该模型被其提供商Google归类为旗舰层级,通过OrcaRouter的API接入,基础URL为https://api.orcarouter.ai/v1,模型ID为"google/gemini-3.1-pro-preview"。
作为 Gemini 3.1 Pro 的预览版本,该模型在 Google 当前预览版发布序列中位居顶端。与早期的 Gemini 2.0 模型或 Gemini 3.0 预览版相比,它提供了更大的上下文窗口(100万token)和更高的输出限制(6.5万token)。95.6 的 τ²-Bench 分数为面向任务的性能提供了定量基准。与 Google 的其他预览模型相比,这款模型面向最苛刻的使用场景,此类场景既需要广泛的上下文,也需要深度的推理能力。
Gemini 3.1 Pro Preview 是多模态模型,可以处理音频、文件(包括文档、代码和电子表格)、图像、文本和视频输入。这使其能够在单一对话中跨不同数据类型进行推理。例如,您可以上传一张图片,同时附带一个询问其内容的文本提示,或者分析一段视频及其对应文字记录。文件输入模态支持结构化和非结构化数据,使其在文档分析和数据提取任务中非常有用。
该模型支持1,048,576个token的输入上下文窗口。这是旗舰模型中可用的最大上下文窗口之一。它能够在单次请求中处理非常长的文档、整个代码库或数小时的视频转录。当与65,536个token的输出限制相结合时,它可以生成大量的报告、摘要或多步推理链,而无需分页或对输入进行分块。
理想用例包括长文档摘要、具备完整用户历史记忆的多轮对话代理、视频内容分析、从混合媒介中提取复杂数据,以及需要高准确度的代理任务(如τ²-Bench评分所示)。该模型还擅长处理结合多种输入类型的任务,例如在阅读相关文本段落的同时分析图像中的图表。对于更简单的任务,使用成本较低的模型可能更具性价比,但在复杂应用中,大上下文带来的开销是合理的。
对于只需生成简短文本、执行简单分类或要求低延迟响应的任务,使用较小或非旗舰模型可能更为合适。Gemini 3.1 Pro Preview 的大上下文窗口和多模态能力会带来更高的每次请求计算成本。如果您的用例不需要完整的 1M token 上下文或 65K token 输出,建议通过 OrcaRouter 选择更轻量的模型,例如 Gemini 2.0 Flash 或其他高性价比替代方案。请始终根据您的平均输入和输出 token 用量评估成本与性能的权衡。
该模型在τ²-Bench上取得了95.6分的成绩。τ²-Bench是一个评估各类智能体任务、推理任务及规划任务完成情况的基准测试。95.6的分数表明其在完成此类任务时具备高准确率。虽然并未提供τ²-Bench的具体构成细节,但该得分表明该模型在结构化决策与多步骤推理挑战中表现出色。作为一项量化指标,它体现了该模型相较于其他大型模型的综合能力水平。
在现有资料中未提供 Gemini 3.1 Pro Preview 的延迟详情。不过,鉴于其旗舰定位、大上下文窗口(100万 token)和输出限制(6.5万 token),响应时间会因输入长度、输出请求和服务器负载而变化。处理超长输入或生成大量输出所需时间将超过小型模型。对于实时应用,建议考虑使用更快的模型。OrcaRouter 的 API 未对此预览模型提供具体的延迟保障。
该模型从其规格中推断出的优势包括:极大的上下文容量(1,048,576个token)、高输出token上限(65,536个token)、多模态输入支持,以及强大的τ²-Bench得分(95.6)。这些特性使其适用于需要基于长上下文和多种数据类型进行推理的复杂任务。预览状态可能允许在稳定版本发布前提前使用高级功能。旗舰级分类表明其专为高需求应用而设计。
作为预览模型,Gemini 3.1 Pro Preview 的稳定性、可用性或支持程度可能不及稳定版本。该模型可能在没有通知的情况下发生变化或弃用。未提供具体的延迟或吞吐量数据,因此负载下的性能未知。τ²-Bench 上的基准测试分数为单一指标,可能无法反映在所有任务上的表现。此外,较大的上下文窗口可能增加成本和响应时间。用户在生产环境中使用前应进行充分测试。
可用信息中未提供 Gemini 3.1 Pro Preview 的定价详情。作为旗舰模型,其定价通常高于小型或非旗舰变体,成本通常基于输入和输出的 token 数量计算。较大的上下文窗口(100万 token)和输出限制(6.5万 token)可能导致每次请求的 token 用量显著增加。OrcaRouter 可能对输入和输出分别按 token 计费,多模态输入还可能产生额外费用。用户应查阅 OrcaRouter 的定价页面获取最新费率。
当使用 Gemini 3.1 Pro Preview 时,最主要的成本驱动因素是 Token 消耗。单个请求若使用完整的 100 万 Token 上下文,将产生高额的输入 Token 成本。同样,生成最高 65K 输出 Token 也会增加输出成本。对于不需要完整上下文或输出的使用场景,用户可以通过截断输入或设置更低的 max_tokens 来降低成本。缓存(若 OrcaRouter 支持)可减少冗余的输入成本,但目前未提供缓存的详细信息。请评估平均使用模式,以判断使用更便宜的模型是否更经济。
现有事实未说明OrcaRouter是否为Gemini 3.1 Pro Preview提供缓存。许多API提供商会对重复的输入前缀进行token缓存,从而降低成本并减少延迟。若缓存可用,将有利于频繁重复指令或系统提示的使用场景。用户应查阅OrcaRouter文档了解缓存支持情况。在缺乏缓存的情况下,每次请求均需承担全部输入token费用。
没有提供具体的价格比较。通常来说,旗舰模型每token的价格比小型模型更高。Gemini 3.1 Pro Preview作为一款旗舰预览版,其每token成本可能高于Gemini 2.0 Flash或Gemini 2.0 Pro。然而,由于其预览版本的性质,定价可能具有促销性质或会发生变化。用户应比较OrcaRouter上列出的每个Google模型的价格,以确定最适合其工作负载且最具成本效益的选择。
要在OrcaRouter上使用Gemini 3.1 Pro Preview,请向兼容OpenAI的API端点 https://api.orcarouter.ai/v1/chat/completions 发送请求。将模型参数设置为 "google/gemini-3.1-pro-preview"。该API接受标准参数,如messages、max_tokens、temperature和top_p。对于多模态输入,请使用带有适当类型(text、image_url等)的content数组。示例代码和SDK可在OrcaRouter的文档中找到。
您可以使用max_tokens参数将最大输出令牌数配置为高达65,536。该模型支持temperature、top_p及其他常见采样参数。对于多模态输入,请在messages数组中指定内容类型。1,048,576令牌的上下文窗口适用于所有输入令牌的总和。所有参数均遵循OpenAI聊天补全规范。有关模型特定的限制或其他参数,请参阅OrcaRouter的API参考。
迁移到OrcaRouter非常简单,因为它使用了与OpenAI兼容的API。只需将基础URL更改为https://api.orcarouter.ai/v1,并将模型ID更新为"google/gemini-3.1-pro-preview"。认证方式(API密钥)类似。如果您之前使用的是不同的Google模型,可能需要根据不同的能力(如上下文窗口大小、多模态处理)进行调整。通过示例请求进行测试以确保兼容性。OrcaRouter的文档提供了常见场景的迁移指南。
作为预览模型,Gemini 3.1 Pro Preview 可能有较低的速率限制、较低的可靠性,或可能未经通知即发生变更。它仅用于测试和评估。如果您需要稳定的生产模型,请考虑使用非预览模型。API 的响应速度可能因负载而加快或减慢。请监控性能并准备备用模型。OrcaRouter 可能会更新模型 ID 或弃用预览版本;请提前做好规划。
与早期的Google模型(如Gemini 2.0 Pro)相比,该预览版提供了更大的上下文窗口(100万 token 对比 3.2万 token)和更高的输出限制(6.5万 token 对比 0.8万 token)。它还以更集成的方式支持视频和文件等额外输入模态。95.6的τ²-Bench得分是此模型独有的,表明其任务执行能力强劲。不过,作为预览版,它可能缺乏Gemini 2.0或Gemini 3.0稳定版的稳定性。旗舰级定位使其在能力和成本上均高于Gemini 2.0 Flash。
没有提供直接的基准比较。该模型的100万token上下文窗口是当前可用的最大之一,与许多竞争对手相当或超越。其多模态输入支持广泛(音频、文件、图像、文本、视频)。τ²-Bench的95.6分为智能体任务提供了一个比较点,但如果没有其他模型在同一基准上的分数,则无法进行全面比较。用户应根据其具体使用案例需求进行评估。
如果您的任务需要尽可能大的上下文窗口(高达100万tokens)和高输出生成能力(高达65,000tokens),请选择此模型。当您需要在单次推理过程中处理多种输入模态——尤其是文件和视频时,这也是最佳选择。较高的τ²-Bench分数表明它在复杂代理任务中表现出色。如果您已经在使用OrcaRouter,并希望测试Google最新的旗舰能力,此预览版是一个不错的起点。
如果需要稳定且经过生产验证的模型(因为这是预览版),请选择其他替代方案。如果您的用例对延迟要求较低或 token 用量较小,那么像 Gemini 2.0 Flash 这样更便宜的模型或非 Google 模型会更具成本效益。此外,如果您的任务不需要完整的 100 万 token 上下文或多模态输入,较小的模型可能提供更快、更便宜的响应。请根据您的具体应用评估能力、成本和可靠性之间的权衡。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 阶梯 | 输入 / 1M tokens | 输出 / 1M tokens | 缓存读取 / 1M | 缓存写入 / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| 阶梯按每次请求的输入 token 数确定 | ||||