1M token 上下文視窗,用於長篇文本處理,通過 OrcaRouter 的 API 存取。
Z.ai: GLM 5.2 是一個純文字大型語言模型,擁有 1,000,000 個 token 的上下文視窗,最大輸出可達 128,000 個 token。該模型由 Z.ai 開發,並透過 OrcaRouter 的 API 提供。此模型僅處理文字輸入,非常適合需要閱讀和生成極長篇幅的任務,例如整本書籍分析或多檔案程式碼庫的全面摘要。定價遵循供應商費率:每百萬輸入 token 1.40 美元,每百萬輸出 token 4.40 美元,OrcaRouter 不收取任何加成費用。
Z.ai: GLM 5.2 針對需要在單次 API 調用中處理極長文本序列的用戶與組織。常見角色包括:分析完整合約或發現文件的法律專業人士、審閱大量文獻的研究人員、理解大型程式碼庫的軟體工程師,以及處理長日誌檔案的資料科學家。寬廣的上下文窗口降低了手動分塊的需求,而高輸出限制則支援生成詳細報告或程式碼修補。
關鍵規格包括總上下文窗口為 1,000,000 個 token(輸入與輸出合計),最大輸出為 128,000 個 token。該模型僅支援文字輸入,未宣稱具備多模態功能。透過 OrcaRouter 的 OpenAI 相容 API 存取,使用模型 ID “z-ai/glm-5.2”,基礎 URL 為 https://api.orcarouter.ai/v1。定價以每個 token 計:每百萬個輸入 token 1.40 美元,每百萬個輸出 token 4.40 美元,以 Z.ai 的供應商費率計費,無加價。
作為一個大型語言模型,GLM 5.2 可以執行多種基於文字的任務,例如摘要、問答、翻譯、程式碼生成和創意寫作。其主要優勢在於能夠處理非常長的上下文,因此擅長涉及在單一提示中理解完整文件或對話歷史的任務。範例包括從500頁的報告中提取關鍵主題、從完整的文字記錄生成會議記錄,或在數百輪對話中保持連貫的對話。
當您的任務需要比小型模型(例如32k或128k tokens)所能處理的更大上下文窗口時,您應選擇GLM 5.2。例如,一次性分析整本書、完整的法律合約或大型程式碼庫。如果您的任務可容納於較小的上下文中,則效能相近但成本較低的模型可能更具成本效益。當您需要生成極長輸出(最多128k tokens)且無需將回應拆分為多次呼叫時,此模型也適用。
該模型僅接受並生成文字,無法處理圖像、音訊或其他模態。使用者亦應注意,大型上下文模型可能比小型替代方案更慢且更昂貴。100萬token的上下文視窗為最大值;實際可用的上下文可能因任務複雜度及API基礎設施而異。OrcaRouter不提供token快取或折扣層級,因此成本會隨使用量線性增長。
一個1M token的上下文窗口讓模型可以一次考慮大量文字,從而提升長篇摘要或多步驟推理等任務的連貫性與準確性。然而,當提示詞填滿大部分窗口時,效能可能下降,因為模型的注意力機制計算成本變高。實務上,需要從長上下文中間精確檢索的任務,其準確度可能低於資訊位於開頭或結尾附近的任務。
在現有資訊中,並未提供GLM 5.2的具體基準評分。該模型是純文字的大型語言模型,具有100萬個token的上下文窗口;其在標準評測(例如MMLU、HellaSwag或程式碼基準測試)上的表現尚未公開。使用者應在自己的資料集上評估該模型,以衡量其在自身使用情境中的效能。大上下文窗口暗示其在需要長程依賴的任務上具有優勢,但由於缺乏公開發表的數字,與其他模型的比較必須是定性的。
因其極大的上下文窗口(1M tokens),GLM 5.2 每個請求的延遲可能高於上下文窗口較小的模型,特別是在輸入較長的情況下。注意力機制與序列長度成平方級數關係,因此處理一百萬個 token 所需的時間會遠超過 4k token 的輸入。對於低延遲應用場景(如即時聊天機器人),較小的模型可能更為適合。OrcaRouter 尚未公布此模型的延遲數據。
該模型的主要優勢在於它能夠接受高達100萬個token的輸入並生成最多128,000個token的輸出,從而能夠在一次調用中處理其他模型難以完成的任務。這使其非常適合分析整本書籍、法律文件或代碼庫,而無需進行分塊處理。此外,零加價定價模式意味著您只需透過OrcaRouter支付Z.ai的費率。然而,目前尚無官方基準數據來確認其在特定任務上的性能表現。
定價是根據Token數量計算:每1百萬個輸入Token收費1.40美元,每1百萬個輸出Token收費4.40美元。輸入和輸出均按Z.ai的提供商費率計費,OrcaRouter不收取任何加價。快取、提示前綴或特殊功能均無額外費用。這種按Token計價的方式簡單明瞭,且隨使用量擴展。例如,一個包含10萬個輸入Token和5千個輸出Token的請求,大約花費0.16美元。
OrcaRouter 並未針對 GLM 5.2 提供任何數量折扣、分級定價或快取優惠。所列出的價格為每百萬輸入代幣 1.40 美元、每百萬輸出代幣 4.40 美元,適用於所有使用者。由於零加成,您所看到的成本即為 Z.ai 自身的費率。如果您有非常高的使用量,可以直接聯繫 Z.ai 洽詢企業協議,但這類安排並非透過 OrcaRouter 處理。
GLM 5.2 的每 token 價格高於許多較小模型(例如,那些每百萬輸入 token 收費 0.15 美元的模型)。其溢價反映了其特別大的上下文窗口和輸出限制。如果你的任務只需要數千個 token,那麼較便宜的模型會更具成本效益。然而,對於需要完整一百萬 token 窗口的任務,這個模型可能是唯一的選擇,其成本也可能因減少手動分塊和多次調用而得以合理化。
使用 OrcaRouter 提供的 OpenAI 相容 API。將基礎 URL 設定為 https://api.orcarouter.ai/v1,模型 ID 設定為「z-ai/glm-5.2」。標準的聊天補全端點(/v1/chat/completions)接受包含 messages、max_tokens、temperature 及其他參數的 JSON 負載。驗證方式為您從 OrcaRouter 取得的 API 金鑰。範例:curl https://api.orcarouter.ai/v1/chat/completions -H "Authorization: Bearer YOUR_KEY" -d '{"model":"z-ai/glm-5.2","messages":[{"role":"user","content":"Summarize this document."}],"max_tokens":1000}'
API 支援 OpenAI 相容端點的典型參數:model(必要)、messages(訊息物件陣列,包含 role 和 content)、max_tokens(整數,最高 128000)、temperature(浮點數)、top_p、frequency_penalty、presence_penalty、stop、stream(布林值)及其他。由於模型僅支援文字,content 必須是字串。1M token 的上下文視窗限制適用於請求中所有訊息的總和加上產生的輸出。超過限制將回傳錯誤。
是的,API 支援透過 `stream` 參數進行串流。當設定為 `true` 時,回應將以一系列伺服器推送事件 (SSE) 的形式傳送,每個事件包含部分生成內容。這對於向使用者顯示中間結果非常有用。串流行為與 OpenAI 的串流格式完全相同。請注意,即使採用串流,完整輸出仍會按照提供商的費率計入您的 Token 用量。
若要從其他 API 提供者遷移至 OrcaRouter 以使用 GLM 5.2,只需變更基礎 URL 和模型名稱即可。若您使用的是 OpenAI 的客戶端函式庫,請將基礎 URL 取代為 https://api.orcarouter.ai/v1,並將模型設定為 “z-ai/glm-5.2”。訊息和參數的 JSON 格式保持不變。請確保您的 API 金鑰來自 OrcaRouter。除了端點之外,無需進行任何程式碼變更。
GLM 5.2 提供 100 萬 token 的上下文視窗,屬於目前業界最大之列。許多競爭對手的上限為 128k 或 200k tokens。其 128k tokens 的輸出限制也高於一般水準。然而,它僅支援純文字,而部分競爭產品則支援圖片或音訊。定價為每百萬 tokens 1.40 美元 / 4.40 美元,就如此大的視窗而言屬於中等;部分競爭對手的收費更高。由於缺乏基準測試數據,無法直接比較品質。
只有在您的應用程式真正需要百萬token上下文視窗時,才選擇GLM 5.2。若您的提示詞與預期輸出落在32k或128k token內,使用較便宜的模型(例如每百萬輸入token僅需0.15美元的模型)將會更為經濟且通常速度更快。GLM 5.2的優勢在於無需分割長文本,這能節省工程時間並保留跨區段的上下文關聯。
許多高品質模型(例如支援128k token窗口的模型)在典型任務上可能與GLM 5.2的表現相當,但它們無法處理超出其窗口長度的文件。對於適合較小上下文範圍的任務,這類模型通常更快且更具成本效益。GLM 5.2的獨特優勢在於能夠一次性處理極長的輸入,這對於全書分析、完整程式碼庫摘要或非常長時間的對話等使用場景至關重要。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="z-ai/glm-5.2",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 輸入 / 1M tokens | $1.40 |
| 輸出 / 1M tokens | $4.40 |
| 快取讀取 / 1M | $0.260 |
| 貨幣 | USD |