Google Gemini 3.1 Pro Preview Custom Tools – 1M 上下文、95.6 τ²-Bench、通過 OrcaRouter 實現多模態。
Google Gemini 3.1 Pro Preview Custom Tools 是 Google 開發的預覽階段大型語言模型,專為需要長篇推理、大上下文視窗及外部工具整合的任務而設計。該模型支援文字、音訊、圖片、影片及檔案格式輸入,使其成為內容理解與生成的模態解決方案。 透過 OrcaRouter,您可以使用與 OpenAI 相容的 API 在基礎 URL https://api.orcarouter.ai/v1 調用此模型,模型 ID 為 "google/gemini-3.1-pro-preview-customtools"。此相容性可簡化已熟悉 OpenAI SDK 或類似用戶端的團隊的整合流程。作為預覽模型,其在可用性或效能上可能比穩定版本有所限制。
此模型適合需要處理極長文件(最高達100萬個token)或在單一推理步驟中結合多種輸入模態(文字、音訊、影像、影片、檔案)的開發者、資料科學家及企業團隊。對於涉及自訂工具使用的任務——模型需自行判斷何時及如何呼叫外部函式或API——尤其有價值。 從事研究、法律分析、媒體處理或進階自動化的團隊,會發現其大上下文與強大的基準測試表現相當實用。由於此為預覽版,可能非常適合用於原型設計與評估,而非需要保證正常運行時間或低延遲的正式系統。
此模型提供 1,048,576 個 token 的上下文視窗,最大輸出為 65,536 個 token。輸入模態涵蓋文字、音訊、圖片、影片及檔案上傳。在 τ²-Bench(一項評估工具使用推理能力的測試)上,頭條基準分數為 95.6。 定價為每 1M 輸入 token 收費 $4.00 美元,每 1M 輸出 token 收費 $18.00 美元,透過 OrcaRouter 存取時無加價。API 與 OpenAI 相容,模型 ID 為 "google/gemini-3.1-pro-preview-customtools"。作為預覽版,它反映了最新的功能,但可能有所變更。
Gemini 3.1 Pro Preview Custom Tools 可接受文字、音訊、圖片、影片及檔案格式的輸入。這讓您可以在單一請求中,將錄音檔、照片、影片片段及上傳的文件與文字提示一同包含。該模型能夠跨這些模態進行推理,以產生文字輸出。 此多模態功能使得描述一張圖片並提出相關問題、轉錄音訊同時進行分析,或將影片與文字指令結合變得可行。現有事實中未提供確切的解析度、編解碼器或檔案大小限制,但該模型能夠原生處理多樣化的媒體。
「Custom Tools」標籤代表該模型經過最佳化,能在推理過程中叫用使用者自訂的函式或 API。在典型工作流程中,您提供一組函式定義(包括名稱、參數與描述),模型會自行決定何時呼叫這些函式來完成請求。 這項功能支援自動化工作流程,例如查詢資料庫、發送電子郵件或執行程式碼片段。模型能夠將多個工具呼叫串聯起來。高達 95.6 的 τ²-Bench 分數顯示其在需要規劃與工具編排的任務上表現優異。
此模型支援 1,048,576 個 token 的上下文視窗(約相當於 100 萬個 token)。這讓您可以將整本書籍、長篇程式碼庫、多輪對話或大量日誌作為上下文傳入。每次請求的最大輸出為 65,536 個 token。 這些尺寸是目前模型領域中最大的之一。大上下文有助於執行諸如總結完整記錄、回答大型文件集的問題,或在無需截斷的情況下維持非常長的對話歷史等任務。
因為 Gemini 3.1 Pro Preview Custom Tools 的定價為每 100 萬個輸入 Token 4.00 美元、每 100 萬個輸出 Token 18.00 美元,因此屬於高階產品。對於較簡單的任務(例如短文本分類、基本摘要或單輪對話),採用較小、較便宜的模型可能更具成本效益。 如果您不需要 100 萬個 Token 的上下文視窗、多模態輸入或工具使用基準測試表現,可考慮 OrcaRouter 提供的替代方案,例如 Gemini 1.5 Flash(較低成本、較低延遲)或其他輕量級模型。請在任務複雜度足以證明較高每 Token 成本合理的情況下,才使用此模型。
該模型在 τ²-Bench(τ²-Bench)上取得了 95.6 分的標題級分數。該基準測試評估模型執行工具使用推理的能力:規劃並執行一系列函數呼叫以完成實際任務。高分表明其在自主任務完成與決策方面具有強大能力。 τ²-Bench 是一個較新的基準測試,專注於真實場景的複雜性。95.6 分被視為非常高的分數,不過應注意,沒有任何單一基準測試能完全捕捉模型品質的所有面向。該模型在其他未列出的基準測試上可能會有不同的表現。
根據 τ²-Bench 的結果,該模型在需要結構化推理與工具協調的任務上表現出色,包括多步驟檢索、資料轉換以及 API 呼叫。其龐大的上下文窗口也使其能夠處理非常長的指令或外部資料,而不會失去連貫性。 多模態輸入能力是另一項優勢,使其能夠跨不同媒體類型進行推理。對於分析影片片段並回答相關問題,或處理音訊檔案搭配文字查詢等使用情境,此模型相較於僅限文字的替代方案更具競爭力。
沒有任何基準測試或模型是完美的。95.6 的 τ²-Bench 分數並不能保證在每個真實世界的任務中都有相同表現,特別是那些超出基準測試範圍的任務。該模型在需要非常特定領域知識的任務上,或在 τ²-Bench 未涵蓋的安全性評估中,可能表現較差。 作為預覽模型,其延遲可能較高或可靠性低於完整釋出的模型。現有資訊中並未包含延遲數據,因此您應使用自己的工作負載進行測試。此外,大上下文視窗可能增加處理時間與成本,且並非所有任務都能從完整的百萬 token 容量中獲益。
精確的延遲數據在 Gemini 3.1 Pro Preview Custom Tools 的可用事實中並未提供。一般來說,擁有極大上下文視窗(超過 1M tokens)的模型處理請求所需的時間可能更長,尤其是那些使用完整上下文的請求。延遲也取決於請求複雜度、工具呼叫次數及當前伺服器負載。 OrcaRouter 可能提供串流回應以縮短首次 token 出現時間。對於即時應用,您可以考慮與較小的模型進行效能比較。建議使用典型提示自行執行延遲測試,以判斷速度是否符合您的需求。
Gemini 3.1 Pro Preview Custom Tools 的定價為每 1 百萬輸入 Token 4.00 美元,每 1 百萬輸出 Token 18.00 美元。這些費率按供應商費率計費,在透過 OrcaRouter 存取時不加價。也就是說,您看到的價格就是 Google 收取的價格,OrcaRouter 不另外收費。 輸入 Token 包含提示中的所有 Token(文字 Token、圖像 Token、音訊 Token 等)。輸出 Token 則是生成的回應。該模型的最大輸出為 65,536 個 Token,因此單次請求的輸出 Token 費用最高可達 65,536 / 1,000,000 * 18.00 = 約 1.18 美元,另外再加上輸入 Token 成本。
「零加價」代表 OrcaRouter 將提供者(Google)的每 token 精確成本直接傳遞給你,不收取任何額外費用。你支付每 100 萬輸入 token 4.00 美元、每 100 萬輸出 token 18.00 美元——與你直接呼叫 Google API 的費率完全相同。 OrcaRouter 可能對閘道服務收取獨立的訂閱或使用費,但模型的每 token 價格並未調高。這種定價結構透明,有助於你準確預算。請務必查閱 OrcaRouter 的最新條款,以了解任何額外費用。
高額的每令牌成本意味著您應仔細估算使用量。對於使用完整100萬上下文窗口的提示,每次請求的輸入成本可達4.00美元。如果您的任務可以透過較小的上下文完成,請考慮截斷或改用更便宜的模型。 現有資料中未提及快取功能;若OrcaRouter提供提示快取,則可降低重複輸入的成本。此外,由於該模型為預覽版,穩定版本推出後價格可能有所變動。請評估您工作負載的典型令牌數量,以判斷此成本是否合理。
您可透過 OrcaRouter 的 OpenAI 相容 API 來存取該模型。請將您的 base URL 設為 `https://api.orcarouter.ai/v1`,並使用模型 ID `google/gemini-3.1-pro-preview-customtools`。該 API 接受標準的 OpenAI 風格請求格式。 使用 Python 的 openai 程式庫範例: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` 您需要一個有效的 OrcaRouter API 金鑰。驗證方式是透過 `Authorization` 標頭進行。
由於該API與OpenAI相容,您可以使用標準參數,例如`temperature`、`top_p`、`max_tokens`、`stop`、`frequency_penalty`、`presence_penalty`和`stream`。對於多模態請求,您可以使用陣列格式在訊息內容中包含圖片、音訊、影片或檔案。 對於工具使用,請在`tools`參數中定義函式,作為JSON物件清單。模型可能會在回應中回傳`tool_calls`。Google自有API專用的參數(如`safetySettings`)可能可用也可能不可用;請參閱OrcaRouter的文件以了解詳情。預覽模型可能不支援完整的參數。
從標準 OpenAI API 遷移非常簡單。將 `base_url` 改為 `https://api.orcarouter.ai/v1`,並將 `model` 參數更新為 `google/gemini-3.1-pro-preview-customtools`。將您的 API 金鑰替換為 OrcaRouter 金鑰。 大多數使用 `openai.ChatCompletion.create` 或較新的 `client.chat.completions.create` 的程式碼只需極少修改即可運作。若您使用工具呼叫,其格式與 OpenAI 完全相同。但請注意,此模型使用不同的分詞器,相同提示詞可能產生不同輸出。切換前請充分測試。
OrcaRouter 使用 API 金鑰進行驗證。請將您的金鑰放在請求標頭中,格式為 `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`。您可以透過註冊 OrcaRouter 來取得金鑰。此金鑰應妥善保管,切勿暴露於客戶端程式碼中。 確切的驗證方式可能有所差異;請務必參閱 OrcaRouter 最新的 API 文件。部分端點可能支援其他驗證方式,但 OpenAI 相容端點使用的是標準的 Bearer Token 模式。請確保您的請求透過 HTTPS 發送。
Gemini 1.5 Pro 也支援 1M 令牌的上下文視窗與多模態輸入,但 3.1 Pro Preview Custom Tools 在 τ²-Bench 上取得了 95.6 的分數,相較於 1.5 系列有顯著提升(1.5 的確切數字並未提供)。「Custom Tools」最佳化是關鍵的差異化因素,表示在工具使用任務上有更佳的表現。 預覽模型的定價較高:Gemini 1.5 Pro 通常比較便宜。如果您不需要最新的工具使用效能,Gemini 1.5 Pro 可能是更具成本效益的選擇。由於 3.1 Pro 是預覽版本,其穩定性或正常運作時間保證可能不如穩定的 1.5 Pro。
GPT‑4o 也支援多模態輸入與工具使用,但其上下文視窗通常為 128k tokens——遠小於此模型的 1M tokens。GPT‑4o 的 τ²-Bench 分數在現有資訊中未提供,因此無法直接比較。 整體而言,Gemini 3.1 Pro Preview Custom Tools 提供顯著更大的上下文視窗,更適合處理長文件任務。GPT‑4o 在某些語言基準測試或更廣泛的生態系統支援方面可能表現更佳。GPT‑4o 的定價也有所不同;請比較每個 token 的成本,但請注意,此模型的輸出成本($18/M)相對較高。
Claude 3 Opus 支援 200k token 的上下文視窗,遠低於 Gemini 3.1 Pro Preview 的 1M token。像 τ²-Bench 這類基準測試通常不會為 Claude 發布報告,因此直接比較僅屬推測。Claude 以強大的推理能力和指令遵循表現聞名。 在兩者之間做選擇,取決於您是否需要 1M 上下文與多模態輸入,或更看重安全性、寫作風格、生態系等方面的特定優勢。如果您的使用情境需要處理超大文件或多種媒體類型,Gemini 模型更大的上下文與多模態支援會是優勢。此外,成本以及透過 OrcaRouter 取得的可用性也是考量因素。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 輸入 / 1M tokens | $4.00 |
| 輸出 / 1M tokens | $18.00 |
| 快取讀取 / 1M | $0.400 |
| 貨幣 | USD |