Google Gemini 3.1 Pro Preview:旗艦多模態模型,擁有1M上下文窗口和95.6 τ²-Bench評分,可通過OrcaRouter API存取。
Google Gemini 3.1 Pro Preview 是 Google 的旗艦模型,以預覽形式提供。這是一個多模態模型,能夠處理文字、圖片、影片、音訊及檔案輸入。該模型被歸類為旗艦級別,表示其專為需要高效能與容量的高需求、複雜應用而設計。作為預覽版本,與穩定版本相比,可能在穩定性或可用性上有限制。可透過 OrcaRouter API 進行存取。
此模型專為需要處理高達1,048,576個Token的大型上下文窗口並具備多模態理解能力的開發者和企業設計。使用案例包括長文檔分析、影片審核、具備完整對話記憶的高階聊天機器人,以及從混合媒體中進行複雜的資料萃取。預覽狀態使其適合實驗與早期整合,但生產部署應評估穩定性。此模型也非常適合已在使用OrcaRouter的OpenAI相容API、並希望測試Google最新旗艦功能的團隊。
該模型支援上下文視窗 1,048,576 個 token(輸入),最大輸出為 65,536 個 token。它接受多種模態的輸入:音訊、檔案(例如 PDF、程式碼檔案)、圖片、文字和影片。在 τ²-Bench(一項衡量任務完成表現的指標)上,頭條基準評分為 95.6。該模型被其提供者 Google 歸類為旗艦級別。可透過 OrcaRouter 的 API 存取,基礎 URL 為 https://api.orcarouter.ai/v1,模型 ID 為 "google/gemini-3.1-pro-preview"。
作為 Gemini 3.1 Pro 的預覽版本,這款模型在 Google 目前預覽版系列中位居頂尖。相較於先前的 Gemini 2.0 模型或 Gemini 3.0 預覽版,它提供更大的上下文視窗(100 萬個 Token)和更高的輸出限制(6.5 萬個 Token)。τ²-Bench 評分 95.6 為任務導向效能提供了量化基準。與 Google 其他預覽版模型相比,此版本專注於最嚴苛的使用情境,需要同時具備廣闊的上下文視野與深入的推理能力。
Gemini 3.1 Pro Preview 是多模態的,可以處理音訊、檔案(包括文件、程式碼和試算表)、圖像、文字和影片輸入。這使得它能夠在單一對話中對不同資料類型進行推理。例如,您可以上傳一張圖片並附上文字提示詢問其內容,或分析影片與逐字稿。檔案輸入模態支援結構化與非結構化資料,使其對於文件分析和資料提取任務非常有用。
該模型支援最多 1,048,576 個 token 的輸入上下文窗口,是旗艦機型中最大的上下文窗口之一。這使得它能夠在單次請求中處理極長的文件、完整的程式碼庫或長達數小時的影片逐字稿。結合 65,536 個 token 的輸出限制,無需分頁或分段即可生成大量報告、摘要或多步驟推理鏈。
理想的使用場景包括長篇文件摘要、具備完整使用者歷史記憶的多輪對話代理、影片內容分析、從混合媒體中提取複雜資料,以及需要高準確度的代理任務(如τ²-Bench分數所反映)。該模型在結合多種輸入類型的任務中也表現出色,例如在閱讀相關文字段落時分析圖片中的圖表。對於較簡單的任務,較便宜的模型可能更具成本效益,但大上下文所帶來的開銷對於複雜應用來說是合理的。
對於只需生成簡短文字、簡單分類或低延遲回應的任務,使用較小或非旗艦模型可能更合適。Gemini 3.1 Pro Preview 的大型上下文視窗與多模態能力,每次請求會帶來較高的計算成本。若您的使用案例不需要完整的 100 萬 token 上下文或 6.5 萬 token 輸出,建議透過 OrcaRouter 選用較輕量的模型,例如 Gemini 2.0 Flash 或其他成本效益較高的替代方案。請務必根據您的平均輸入與輸出 token 用量,評估成本與效能之間的取捨。
該模型在τ²-Bench上取得了95.6的分數。τ²-Bench是一個評估多種代理型、推理及規劃任務完成表現的基準。95.6的分數顯示其在完成此類任務時具有高度準確性。雖然τ²-Bench的具體組成未詳細說明,但此分數使該模型在結構化決策與多步驟推理挑戰中表現強勁。它提供了與其他大型模型比較下,該模型能力的量化指標。
可用的事實中並未提供 Gemini 3.1 Pro Preview 的延遲詳細資訊。然而,鑑於其旗艦等級、大型上下文視窗(1M tokens)以及輸出限制(65K tokens),回應時間將根據輸入長度、請求的輸出量以及伺服器負載而有所變化。處理非常長的輸入或產生大量輸出所需的時間會比使用較小模型更長。對於即時應用,請考慮使用速度更快的模型。OrcaRouter 的 API 不為此預覽模型提供特定的延遲保證。
從其規格推斷,該模型的優勢包括極大的上下文容量(1,048,576 個 tokens)、高輸出 token 上限(65,536 個 tokens)、多模態輸入支援,以及強勁的 τ²-Bench 評分(95.6)。這些特性使其適合需要對長上下文及多種資料類型進行推理的複雜任務。預覽狀態可能允許在穩定版本發布前提前使用進階功能。旗艦級別的分類則表明其專為高需求應用而設計。
作為預覽模型,Gemini 3.1 Pro Preview 可能不如穩定版具有相同的穩定性、可用性或支援。它可能隨時變更或棄用,恕不另行通知。文中未提供具體的延遲或吞吐量數據,因此負載下的效能無從得知。τ²-Bench 上的基準分數為單一指標,未必能反映所有任務的表現。此外,較大的上下文視窗可能增加成本與回應時間。使用者在上線生產環境前應進行充分測試。
提供的資料中未包含 Gemini 3.1 Pro Preview 的定價細節。作為旗艦級模型,其定價通常高於較小或非旗艦版本,費用一般根據輸入和輸出的 token 數量計算。其大型上下文視窗(1M tokens)和輸出限制(65K tokens)可能導致每次請求使用大量 token。OrcaRouter 可能對輸入和輸出均採用按 token 計價,多模態輸入可能另收附加費。使用者應查閱 OrcaRouter 的定價頁面以獲取當前費率。
當使用 Gemini 3.1 Pro Preview 時,最大的成本驅動因素是 token 消耗。單一請求若使用完整的 1M token 上下文,將產生高昂的輸入 token 成本。同樣地,產生多達 65K 輸出 token 也會增加輸出成本。對於不需要完整上下文或輸出的使用情境,使用者可以透過截斷輸入或設定較低的 max_tokens 來降低成本。快取(若 OrcaRouter 支援)可減少重複的輸入成本,但未提供快取相關細節。請評估平均使用模式,以判斷較便宜的模型是否更經濟。
現有資料並未說明 OrcaRouter 是否為 Gemini 3.1 Pro Preview 提供快取功能。許多 API 供應商會針對重複的輸入前綴提供 token 快取,以降低成本並改善延遲。若支援快取,對於頻繁重複指令或系統提示的使用情境將十分有利。使用者應查閱 OrcaRouter 文件以確認快取支援狀況。若無快取,每次請求都需負擔完整的輸入 token 費用。
未提供具體價格比較。一般而言,旗艦模型每Token的費用會高於較小模型。Gemini 3.1 Pro Preview作為一款旗艦預覽版,其每Token成本可能高於Gemini 2.0 Flash或Gemini 2.0 Pro。然而,由於這是預覽版本,定價可能帶有推廣性質或隨時調整。使用者應比較OrcaRouter上各Google模型標示的價格,以找出最符合自身工作負載成本效益的選項。
若要透過 OrcaRouter 使用 Gemini 3.1 Pro Preview,請向相容 OpenAI 的 API 端點 https://api.orcarouter.ai/v1/chat/completions 發出請求。將模型參數設為 "google/gemini-3.1-pro-preview"。此 API 接受標準參數,例如 messages、max_tokens、temperature 和 top_p。若需多模態輸入,請使用包含適當類型(text、image_url 等)的 content 陣列。範例程式碼與 SDK 可在 OrcaRouter 的文件中取得。
您可以使用 `max_tokens` 參數設定最大輸出 token 數,最高可達 65,536。該模型支援 `temperature`、`top_p` 及其他常見的取樣參數。對於多模態輸入,請在 `messages` 陣列中指定內容類型。1,048,576 個 token 的上下文視窗適用於所有輸入 token 的總和。所有參數皆遵循 OpenAI 聊天補全規範。如需了解模型特定的限制或額外參數,請參閱 OrcaRouter 的 API 參考文件。
遷移至 OrcaRouter 非常簡單,因為它使用了與 OpenAI 相容的 API。只需將基礎 URL 更改為 https://api.orcarouter.ai/v1 並將模型 ID 更新為 "google/gemini-3.1-pro-preview"。驗證方式(API 金鑰)類似。如果您之前使用的是不同的 Google 模型,可能需要根據不同的功能(例如上下文窗口大小、多模態處理)進行調整。使用範例請求進行測試以確保相容性。OrcaRouter 的文件提供了常見設置的遷移指南。
作為預覽模型,Gemini 3.1 Pro Preview 可能具有較低的速率限制、較低的可靠性,或可能在未經通知的情況下變更。此模型僅供測試和評估使用。如果您需要穩定的生產模型,請考慮使用非預覽模型。API 的回應速度可能因負載而異。請監控效能並準備備用模型。OrcaRouter 可能會更新模型 ID 或棄用預覽版本;請據此規劃。
與較早期的Google模型(如Gemini 2.0 Pro)相比,此預覽版提供了更大的上下文窗口(1M對比32K tokens)和更高的輸出上限(65K對比8K tokens)。它也以更整合的方式支援額外的輸入模態,例如影片和檔案。τ²-Bench得分95.6為此模型所特有,顯示其強大的任務執行能力。然而,作為預覽版,它可能缺乏Gemini 2.0或Gemini 3.0穩定版的穩定性。旗艦級別使其在能力和成本上高於Gemini 2.0 Flash。
未提供直接的基準測試比較。該模型的100萬token上下文窗口是目前最大的之一,可與甚至超越許多競爭對手。其多模態輸入支援廣泛(音訊、檔案、影像、文字、影片)。τ²-Bench 分數為95.6,為代理任務提供了一個比較點,但若無其他模型在同一基準測試上的分數,則無法進行完整比較。使用者應根據自身使用案例的需求進行評估。
當您的任務需要最大的上下文視窗(最多1M tokens)以及高輸出生成能力(最多65K tokens)時,請選擇此模型。它也是當您需要在單次推理過程中處理多種輸入模態(特別是檔案與影片)時的最佳選擇。其高τ²-Bench分數表明它在複雜的代理型任務中表現出色。如果您已經在使用OrcaRouter,並想測試Google最新旗艦功能,這個預覽版本是一個很好的起點。
如果需要穩定且經過生產驗證的模型(因為這是預覽版),請選擇替代方案。如果你的使用案例對延遲要求較低或 token 使用量較小,則更便宜的模型(如 Gemini 2.0 Flash 或非 Google 模型)會更具成本效益。此外,如果你的任務不需要完整的 1M token 上下文或多模態輸入,則較小的模型可能會提供更快且更便宜的回應。根據你的具體應用評估能力、成本和可靠性之間的權衡。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 階梯 | 輸入 / 1M tokens | 輸出 / 1M tokens | 快取讀取 / 1M | 快取寫入 / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| 階梯依每次請求的輸入 token 數確定 | ||||