Google Gemini 3 Flash Preview – 多模態模型,擁有 1M tokens 上下文,88.2 MMLU-Pro,可通過 OrcaRouter 訪問。
Google Gemini 3 Flash Preview 是由 Google 開發的多模態模型,專為高速與大上下文處理最佳化。該模型可接受文字、圖片、檔案、音訊及影片格式的輸入,並能生成多達 65,536 個 Token 的輸出。模型的上下文視窗為 1,048,576 個 Token,使其能夠對極長序列進行推理。其在 MMLU-Pro 基準測試中獲得 88.2 分,展現出在廣泛學術與推理任務中的強大表現。此預覽版本可透過 OrcaRouter 的 OpenAI 相容 API 以模型 ID google/gemini-3-flash-preview 取得。
「Gemini 3 Flash Preview」的目標對象是正在開發需要快速、多模態推理且具備大上下文能力的應用程式之開發人員與組織。此模型非常適合影片分析、長文件摘要以及即時音訊-視訊理解等使用案例。其定價——每百萬個輸入Token 0.50美元,每百萬個輸出Token 3.00美元——讓新創公司與大型企業都能負擔。由於目前為預覽版本,早期採用者可在穩定版釋出前評估其功能。OrcaRouter 提供對此模型的順暢存取,包括 OpenAI 相容的端點以及零加成供應商費率。
Gemini 3 Flash Preview 支援五種輸入模態:文字、影像、檔案、音訊和影片。文字可以是純文字或結構化文字;影像可包含照片、圖表和螢幕擷取畫面;檔案涵蓋 PDF 和文件等格式;音訊包含語音和音樂;影片可同時處理視覺和音訊軌道。該模型可在單一提示中結合多種模態——例如,在分析影片的同時也讀取附加的 PDF。這種多功能性使其能夠處理複雜的多媒體任務,而無需分開的處理管道。輸入 token 是根據每種模態的特定標記器規則來計算的。
Gemini 3 Flash Preview 是 Google 第三代 Flash 模型的預覽版本。作為預覽版,其行為、效能與可用性可能會有變動。Google 通常會根據使用者回饋更新預覽模型,並可能最終以穩定版本取代預覽端點。雖然此模型功能完整且適合測試與開發,但在正式環境部署時應留意更新。OrcaRouter 鏡像了供應商的端點,確保 Google 的任何變更都能即時反映。模型 ID google/gemini-3-flash-preview 將保持不變,除非 Google 修改其命名方式。
該模型能同時處理文字與圖像,可執行圖說生成、視覺問答及文件資料擷取等任務。它能從掃描文件中讀取文字、解讀圖表,並回答與內容相關的問題。針對純文字輸入,則支援語言理解、摘要、翻譯與程式碼生成。其龐大的上下文窗口(1,048,576 個 token)使其能處理極長的對話、整本書籍或大型程式碼庫。其 MMLU-Pro 得分 88.2 表明在科學、數學與人文等廣泛學科中具備穩健的推理能力。
音頻輸入可以是直接語音或錄音檔案;模型能進行轉錄、翻譯或分析內容。視頻輸入結合視覺畫面與音軌,適合用於總結視頻內容、偵測物體,或理解搭配口語敘述的場景。上下文窗口意味著只要 token 數量在限制範圍內,長影片或音訊檔案就能在單次互動中完整攝入。輸出為文字形式,模型不會產生音訊或影片。OrcaRouter 的 API 支援在訊息內容中傳送音訊檔案(例如 MP3、WAV)及影片檔案(例如 MP4)。
Flash 變體針對速度和成本進行了最佳化,非常適合即時應用:即時轉錄、互動式多模態聊天機器人、快速文件摘要,以及跨媒體類型的內容審核。它在需要大上下文的情境中也表現出色,例如分析整個會議記錄或處理包含嵌入式圖表的長篇研究論文。同時受惠於速度與多模態推理的使用案例(如影片字幕生成或法律文件審查)也極為適合。然而,對於需要在單一模態上進行更深層推理的任務(例如純程式碼生成),專門模型可能表現更佳。
Gemini 3 Flash Preview 定價為每 100 萬個輸入 Token 0.50 美元、每 100 萬個輸出 Token 3.00 美元,對於多模態模型來說價格偏低,但並非市面上最低。如果你的使用場景純粹是純文字,且需要更低的延遲或成本,可以考慮專用文字模型,例如 Gemini 2.0 Flash(如果有的話)或價格相近的其他選擇。另一方面,如果你需要在複雜基準測試(如 MATH、GPQA)上獲得卓越的推理能力,且預算較高,則可以選擇更大的模型,例如 Gemini 3 Pro 或 GPT-4o。對於高流量、對延遲敏感的多模態工作負載,這款 Flash 模型恰好取得了良好的平衡。
MMLU-Pro 是大規模多任務語言理解基準(Massive Multitask Language Understanding)的擴展版本,涵蓋 57 個學科,並包含更具挑戰性的問題。88.2 的分數代表該模型正確回答了 88.2% 的問題,使其在此評估中名列前茅。這反映了它在從法律到物理等多個領域中擁有扎實的知識與推理能力。此分數與其他前沿模型相比極具競爭力,尤其考慮到 Flash 模型是為了速度而非最大準確率而優化。所提供的分數是該模型的主要基準指標,應視為整體能力的參考,而非對每個特定任務的保證。
雖然未提供具體延遲數據,但 Google 的 Flash 模型專為高吞吐量與低延遲設計。此模型旨在比 Gemini 3 Pro 等較大型模型更快,適合即時互動。相較於非 Flash 版本,使用者可預期更低的單次請求時間,不過實際速度取決於輸入長度、輸出長度及並發使用量等因素。OrcaRouter 不會在供應商 API 之外引入額外延遲。為達到最佳效能,請保持提示簡潔並使用串流回應。較大的輸出限制(65,536 個 token)可能會增加較長答案的生成時間。
MMLU-Pro 分數(88.2)顯示出強大的推理能力與常識。該模型能夠處理 1M-token 的上下文及多種輸入模態(文字、圖片、檔案、音訊、影片),使其在多模態任務上優於僅支援文字的模型。Flash 模型向來以速度和成本效率見長。高輸出 token 限制(65,536)允許生成長篇摘要或延伸分析。這些優勢使其成為需要快速大規模處理多樣資料類型的應用程式的多功能選擇。
作為 Flash 預覽版,它在專業基準測試(例如程式設計競賽、多步驟數學推理)上可能無法與較大的非 Flash 模型匹敵。該模型不會生成圖像或音訊——僅輸出文字。其預覽狀態意味著可能會有間歇性的可用性或部分功能覆蓋。此外,雖然上下文視窗很大,但如果輸入超過 1,048,576 個 token,非常長的輸入將會被截斷。MMLU-Pro 分數僅是一個數據點;實際效能可能有所不同。對於需要在特定領域中達到絕對精確性的任務,建議進行驗證。
定價為每百萬輸入代幣0.50美元,每百萬輸出代幣3.00美元。這些費率由Google提供,並按供應商費率計費——OrcaRouter不加價。輸入代幣包括從文件、圖片和影片中編碼的所有文字和視覺/音訊代幣。輸出代幣僅為模型生成的文字。透過OrcaRouter存取API,除了按代幣計費的成本外,沒有其他額外費用。這種透明的定價讓您可以輕鬆估算成本:例如,1,000個輸入代幣和500個輸出代幣的成本約為0.0005美元 + 0.0015美元 = 0.002美元。
以每1M輸入$0.50和每1M輸出$3.00的價格,Gemini 3 Flash Preview 對於一款擁有100萬token上下文視窗的多模態模型而言,定價頗具競爭力。像Gemini 3 Pro或GPT-4o這類較大的模型,每個token的成本通常更高,尤其是輸出部分。較小型的純文字模型可能更便宜(例如Gemini 2.0 Flash每1M tokens分別為$0.10和$0.40,如果適用的話)。對於多模態工作負載,此模型提供了具成本效益的中間選擇。OrcaRouter的零加價確保您支付的正是Google的費率。如果您的使用量很高,即使每個token的微小差異也很重要,因此請根據您特定任務的token輪廓進行比較。
提供的定價資訊並未包含任何快取折扣或用量分級。Google 可能在某些模型中對快取 token 提供優惠費率,但這在 Gemini 3 Flash Preview 中尚未確認。OrcaRouter 的定價反映了未加價的原始每 token 成本,因此您無需為閘道支付額外費用。對於大規模部署,請直接聯繫 Google 以取得可能的企業合約。請務必查看 OrcaRouter 定價頁面或您的帳戶儀表板上的最新定價,因為費率可能由供應商調整。目前,所標示的每百萬 token 費率即為適用的價格。
您使用 OrcaRouter 的 OpenAI 相容 API,基礎 URL 為 https://api.orcarouter.ai/v1。模型 ID 為 "google/gemini-3-flash-preview"。認證透過 OrcaRouter 的 API 金鑰處理。例如,使用 curl 時,您可以向 /v1/chat/completions 發送 POST 請求。請求格式遵循 OpenAI 的 Chat Completions 結構。您必須在模型中指定精確的模型 ID。OrcaRouter 負責將請求路由到 Google 的端點。請確保您的 API 金鑰具有適當的權限。透過在請求主體中設定 stream: true 可支援串流。
您可以使用標準 OpenAI Chat Completions 參數:model、messages(包含 role: system、user、assistant)、temperature、top_p、max_tokens(上限為 65,536)、stop sequences、frequency_penalty、presence_penalty、logit_bias 以及 stream。對於多模態訊息,請在 content 陣列中加入 base64 編碼的資料或檔案 ID。模型會自動偵測輸入模態。請注意,並非所有 OpenAI 功能(如 function calling)都受支援——請查閱 OrcaRouter 文件。上下文窗口為 1,048,576 個 token,適用於訊息總 token 數。若超過,最早期的訊息將被截斷。
如果您已經在使用 Google 的 Vertex AI 或 Gemini API,遷移所需的變更極少。將您的 API 基礎 URL 調整為 https://api.orcarouter.ai/v1,指向模型 ID "google/gemini-3-flash-preview",並用 OrcaRouter API 金鑰取代您的 Google 驗證。訊息格式類似—OrcaRouter 在 OpenAI 和 Google 格式之間進行轉換。對於多模態內容,請確保遵循 OrcaRouter 的附件指南(例如,具有正確 MIME 類型的 base64 編碼資料)。先用少量請求進行測試以確認一致性。OrcaRouter 提供支援文件和各種語言的範例程式碼。
回應結構符合 OpenAI 的 Chat Completion 格式:一個包含 choices、usage 和 id 的物件。每個 choice 包含一個帶有 role 和 content 的 message 物件。Token 用量會以 prompt_tokens 和 completion_tokens 回報。finish_reason 欄位指出生成停止的原因(stop、length)。串流回應會發出 delta 物件。如果您使用 OpenAI SDK,只需更改 API 金鑰和基礎 URL。OrcaRouter 的端點行為與 OpenAI API 類似,簡化了整合。任何 Google 模型特有的特性(例如安全過濾器)都會保留;請檢查回應是否有潛在的拒絕訊息。
Gemini 3 Flash Preview 是 Google Flash 模型的下一代,提供更大的上下文視窗(1,048,576,相較於舊版的 32K–1M,視版本而定)以及改進的多模態支援,包括影片。3 Flash Preview 的 MMLU-Pro 分數為 88.2,顯示其推理能力優於 2 Flash 的報告分數(雖未提供,但通常較低)。2 Flash 的每次令牌定價較低,對簡單任務更經濟實惠。Gemini 3 Flash Preview 在複雜的多模態推理上更快、能力更強,但 2 Flash 仍然是純文字或簡單影像任務的經濟實惠選擇。
來自OpenAI的GPT-4o也支援多模態輸入(文字、圖像、音訊),且具有128K令牌的上下文窗口,顯著小於Gemini 3 Flash Preview的100萬令牌。GPT-4o的定價有所不同,但通常每令牌較高(例如,輸入每100萬令牌$2.50,輸出每100萬令牌$10)。Gemini 3 Flash Preview較低的成本和更大的上下文使其更適合長篇或高容量的多模態任務。然而,GPT-4o可能在創意寫作或程式碼生成方面具有不同的優勢,且其基準測試(例如MMLU)表現相當。選擇取決於上下文大小需求與整合偏好。
在Google的產品線中,Gemini 3 Pro是一款更大、更昂貴的模型,專為追求最高準確度(更高的MMLU-Pro分數)而設計。Flash則是成本與速度最佳化的變體。Gemini 2 Flash較舊且較便宜,但上下文較小,基準測試分數可能較低。Gemini 3 Flash Preview則提供了折衷方案:接近Pro等級的推理能力(MMLU-Pro 88.2),成本卻僅為一小部分。對於需要最大上下文和最佳速度的使用者,3 Flash Preview是理想選擇。對於處理較小輸入的高階推理任務,3 Pro可能更合適。至於簡單任務,2 Flash或其他輕量級模型足以應付。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 輸入 / 1M tokens | $0.500 |
| 輸出 / 1M tokens | $3.00 |
| 快取讀取 / 1M | $0.050 |
| 貨幣 | USD |