Google Gemini 3.1 Pro Preview Custom Tools – 1M上下文、95.6 τ²-Bench、通过OrcaRouter实现多模态。
Google Gemini 3.1 Pro Preview Custom Tools 是谷歌开发的一款预览阶段的大型语言模型。它专为需要长篇推理、大上下文窗口以及与外部工具集成的任务而设计。该模型支持文本、音频、图像、视频和文件格式的输入,使其成为同时适用于内容理解和生成的多模态解决方案。 通过 OrcaRouter,您可以使用兼容 OpenAI 的 API 调用该模型,基础 URL 为 https://api.orcarouter.ai/v1,模型 ID 为 "google/gemini-3.1-pro-preview-customtools"。这种兼容性简化了那些已经熟悉 OpenAI SDK 或类似客户端的团队的集成过程。作为预览模型,与稳定版本相比,其在可用性或性能上可能存在限制。
该模型适用于需要处理超长文档(高达100万tokens)或在一个推理步骤中组合多种输入模态(文本、音频、图像、视频、文件)的开发者、数据科学家和企业团队。对于涉及自定义工具使用的任务(即模型需自行决定何时及如何调用外部函数或API)尤具价值。 从事研究、法律分析、媒体处理或高级自动化的团队会发现其大上下文能力和出色的基准测试性能非常实用。由于它是预览版,更适合用于原型设计和评估,而非需要保证正常运行时间或低延迟的生产系统。
该模型提供1,048,576个令牌的上下文窗口,最大输出为65,536个令牌。输入模态涵盖文本、音频、图像、视频和文件上传。在τ²-Bench测试(工具使用推理测试)中,头榜基准得分为95.6。 定价为每百万输入令牌4.00美元,每百万输出令牌18.00美元,通过OrcaRouter访问时零加价。API兼容OpenAI,模型ID为"google/gemini-3.1-pro-preview-customtools"。作为预览版本,它体现了最新能力,但可能有所变动。
Gemini 3.1 Pro Preview Custom Tools 接受文本、音频、图像、视频和文件格式的输入。这意味着你可以在单个请求中将录音、照片、视频片段以及上传的文档与文本提示一同包含在内。该模型能够跨这些模态进行推理,从而生成文本输出。 这种多模态能力使得描述图像并针对图像提问、在转录音频的同时进行分析、或将视频与文字指令相结合成为可能。可用事实中未提供确切的分辨率、编解码器或文件大小限制,但该模型能够原生处理多种多样的媒体内容。
"自定义工具"这一名称意味着该模型经过优化,能够在推理过程中调用用户定义的函数或API。在典型的工作流程中,您会提供一组函数定义(包括名称、参数和描述),模型会自行决定何时调用这些定义来满足请求。 此功能支持自主工作流程,例如查询数据库、发送电子邮件或执行代码片段。模型可以串联多次工具调用。τ²-Bench得分(95.6)较高,表明该模型在需要规划和工具编排的任务上表现出色。
该模型支持1,048,576个token的上下文窗口(约等于100万个token)。这使得您可以将整本书籍、长代码库、多轮对话或大量日志作为上下文传入。每次请求的最大输出量为65,536个token。 这些规格在当前模型格局中属于最大规模之一。大上下文适用于总结完整转录、基于大型文档集回答问题,或在无需截断的情况下保持长对话历史等任务。
由于 Gemini 3.1 Pro Preview Custom Tools 的定价为每 1M 输入代币 $4.00、每 1M 输出代币 $18.00,属于高级产品。对于简单任务——如短文本分类、基础摘要或单轮对话——使用更小、更便宜的模型可能更具成本效益。 考虑来自 OrcaRouter 的替代方案,例如 Gemini 1.5 Flash(更低成本、更低延迟)或其他轻量级模型,如果你不需要 1M 上下文窗口、多模态输入或工具使用基准性能。当任务复杂度足以证明较高每代币成本的合理性时,再使用此模型。
该模型在τ²-Bench(τ²-Bench)上取得了95.6分的标题分数。该基准测试评估模型执行工具使用推理的能力:即规划并执行一系列函数调用来完成真实任务。较高的分数表明模型在自主任务完成和决策方面具有较强能力。 τ²-Bench是一个较新的基准测试,侧重于真实场景的复杂性。95.6分被认为是非常高的分数,但需要注意的是,没有任何单一基准测试能够完全涵盖模型所有方面的质量。该模型在未列出的其他基准测试上可能表现不同。
根据τ²-Bench结果,该模型在需要结构化推理和工具编排的任务中表现出色,包括多步骤检索、数据转换和API调用。其大上下文窗口还能处理极长指令或外部数据,同时保持连贯性。 多模态输入能力是另一大优势,使模型能够跨不同媒体类型进行推理。对于分析视频片段并回答相关问题,或处理音频文件结合文本查询等用例,该模型相比纯文本替代方案具有明显优势。
没有哪个基准测试或模型是完美的。τ²-Bench 的 95.6 分并不能保证在每一真实世界任务中都能有相同表现,尤其是那些超出该基准测试范围的任务。该模型在需要非常特定领域知识的任务上,或在 τ²-Bench 未涵盖的安全导向评估中,可能表现欠佳。 作为预览模型,其延迟可能高于正式发布的模型,或可靠性更低。现有信息不包含延迟数据,因此您应使用自己的实际工作负载进行测试。此外,大上下文窗口可能增加处理时间和成本,并非所有任务都能充分利用这一百万 token 的容量。
在Gemini 3.1 Pro Preview Custom Tools的现有数据中并未提供具体的延迟数值。一般来说,具有超大上下文窗口(超过100万token)的模型处理请求的时间可能更长,尤其是那些使用完整上下文的请求。延迟还取决于请求的复杂度、工具调用次数以及当前服务器负载。 OrcaRouter可能提供流式响应以减少首个令牌的到达时间。对于实时应用,您可以考虑使用更小的模型来比较性能。建议使用典型提示语自行运行延迟测试,以确定速度是否满足您的需求。
Gemini 3.1 Pro Preview Custom Tools 的定价为每100万输入token 4.00美元,每100万输出token 18.00美元。通过 OrcaRouter 访问时,这些费用按提供商费率计费,且零加价。这意味着您看到的价格就是谷歌收取的价格,OrcaRouter 不收取额外费用。 输入token包括提示中的所有token(文本token、图像token、音频token等)。输出token是生成的回复。该模型的最大输出为65,536个token,因此单个请求的输出token费用最高可达 65,536 / 1,000,000 * 18.00 = 约1.18美元,另加输入token费用。
“零加价”意味着OrcaRouter将提供商(Google)的精确每token成本直接传递给您,不附加任何额外费用。您每100万输入token支付4.00美元,每100万输出token支付18.00美元——与直接调用Google API的费率完全相同。 OrcaRouter可能会对网关服务收取单独的订阅费或使用费,但模型的每token价格不会虚高。这种定价结构透明,帮助您准确预算。请务必查看OrcaRouter当前条款以了解任何额外费用。
高逐token成本意味着您应该仔细估算用量。对于使用完整100万token上下文的提示词,每次请求的输入成本可达4美元。如果您的任务可以用更小的上下文完成,请考虑截断或使用更便宜的模型。 现有信息中未提及缓存机制;若OrcaRouter提供提示词缓存,则可降低重复输入的消耗。此外,由于该模型为预览版,稳定版本发布后定价可能发生变化。请评估工作负载的典型token数量,以判断成本是否合理。
您通过OrcaRouter的OpenAI兼容API访问模型。将基础URL设置为`https://api.orcarouter.ai/v1`,并使用模型ID `google/gemini-3.1-pro-preview-customtools`。该API接受标准的OpenAI风格请求格式。 使用Python的openai库示例: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` 您需要一个有效的OrcaRouter API密钥。认证通过`Authorization`标头进行。
由于API兼容OpenAI,你可以使用标准参数,如`temperature`、`top_p`、`max_tokens`、`stop`、`frequency_penalty`、`presence_penalty`和`stream`。对于多模态请求,你可以使用数组格式在消息内容中包含图像、音频、视频或文件。 对于工具使用,在`tools`参数中定义函数,作为JSON对象列表。模型可能在响应中返回`tool_calls`。Google自有API特有的参数(如`safetySettings`)可能可用也可能不可用;请查阅OrcaRouter文档了解详情。预览模型的具体参数支持可能有所不同。
从标准 OpenAI API 迁移非常简单。将 `base_url` 改为 `https://api.orcarouter.ai/v1`,并将 `model` 参数更新为 `google/gemini-3.1-pro-preview-customtools`。用 OrcaRouter 密钥替换你的 API 密钥。 大多数使用 `openai.ChatCompletion.create` 或更新的 `client.chat.completions.create` 的代码只需很少改动即可运行。如果你使用工具调用,其格式与 OpenAI 完全一致。不过请注意,该模型使用不同的分词器,相同的提示词可能产生不同的输出。切换前请彻底测试。
OrcaRouter 使用 API 密钥进行身份验证。请在请求头中包含你的密钥,格式为 `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`。你需要注册 OrcaRouter 才能获取密钥。该密钥必须保密,不得暴露在客户端代码中。 具体的身份验证方式可能有所不同;请始终参考 OrcaRouter 当前的 API 文档。某些端点可能支持其他身份验证方式,但兼容 OpenAI 的端点使用标准的 Bearer Token 模式。请确保你的请求通过 HTTPS 发送。
Gemini 1.5 Pro 还支持 100 万 token 上下文窗口和多模态输入,但 3.1 Pro Preview Custom Tools 在 τ²-Bench 上取得了 95.6 分的成绩,相比 1.5 系列有了显著提升(1.5 的具体分数未提供)。"Custom Tools"优化是关键差异化因素,表明在工具使用任务上的性能更佳。 预览版模型的定价更高:Gemini 1.5 Pro 通常更便宜。如果你不需要最新的工具使用性能,Gemini 1.5 Pro 可能是更具成本效益的选择。由于 3.1 Pro 是预览版,其稳定性或可用性保证可能不如稳定的 1.5 Pro。
GPT‑4o 也支持多模态输入和工具使用,但其上下文窗口通常为128k tokens——远小于此模型的1M tokens。可用事实中未提供GPT‑4o的τ²-Bench评分,因此无法直接比较。 总体而言,Gemini 3.1 Pro Preview Custom Tools提供了显著更大的上下文窗口,使其更适合长文档任务。GPT‑4o在特定语言基准测试或更广泛的生态系统支持方面可能表现更佳。GPT‑4o的定价也不同;比较每token的成本,但请注意该模型的输出成本($18/M)相对较高。
Claude 3 Opus 支持 200k token 的上下文窗口,远低于 Gemini 3.1 Pro Preview 的 1M token。像 τ²-Bench 这样的基准测试通常未在 Claude 上报告,因此直接比较属于推测。Claude 以强大的推理能力和指令遵循能力著称。 两者之间的选择取决于你对 1M 上下文和多模态输入的需求,以及对安全性、写作风格或生态系统的特定偏好。如果你的用例需要处理非常大的文档或多种媒体类型,Gemini 模型更大的上下文窗口和多模态支持将是优势。通过 OrcaRouter 的成本和可用性也是考量因素。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 输入 / 1M tokens | $4.00 |
| 输出 / 1M tokens | $18.00 |
| 缓存读取 / 1M | $0.400 |
| 货币 | USD |