1M令牌上下文窗口,用于长文本处理,通过OrcaRouter的API访问。
Z.ai: GLM 5.2 是一款纯文本大型语言模型,具有100万token的上下文窗口,最大输出可达12.8万token。该模型由Z.ai开发,并通过OrcaRouter的API提供。模型仅处理文本输入,非常适合需要阅读和生成长篇内容的任务,如整本书分析或多文件代码库的综合摘要。定价遵循提供商的费率:每百万输入token 1.40美元,每百万输出token 4.40美元,OrcaRouter不额外加价。
Z.ai: GLM 5.2 面向需要在单次 API 调用中处理超长文本序列的用户和组织。常见角色包括分析完整合同或证据文件的法律专业人士、审阅大量文献的研究人员、理解大型代码库的软件工程师,以及处理长日志文件的数据科学家。充足的上下文窗口减少了手动分块的需求,而高输出限制则支持生成详细报告或代码补丁。
关键规格包括总上下文窗口为1,000,000个令牌(输入和输出合计),最大输出为128,000个令牌。该模型仅支持文本输入,未宣传多模态功能。通过OrcaRouter兼容OpenAI的API进行访问,使用模型ID "z-ai/glm-5.2",基础URL为 https://api.orcarouter.ai/v1。定价按令牌计算:每百万输入令牌1.40美元,每百万输出令牌4.40美元,按Z.ai的供应商费率计费,无加价。
作为大型语言模型,GLM 5.2 能够执行多种基于文本的任务,例如摘要、问答、翻译、代码生成和创意写作。其主要优势在于处理超长上下文的能力,因此特别擅长涉及在单次提示中理解完整文档或对话历史的任务。示例包括从500页报告中提取关键主题、从完整转录中生成会议纪要,或在数百轮对话中保持连贯交流。
当您的任务需要的上下文窗口超过较小模型(例如32k或128k token)所能处理的范围时,应选择GLM 5.2。例如,一次性分析整本书籍、完整的法律合同或大型代码仓库。如果您的任务在较小的上下文中就能完成,那么性能相近但成本更低的模型可能更具性价比。当您需要生成长达128k token的超长输出,且无需将响应拆分为多次调用时,此模型也同样适用。
该模型仅接受并生成文本,不处理图像、音频或其他模态。用户还需注意,大上下文模型可能比小型替代方案更慢、成本更高。百万令牌上下文窗口为理论最大值;实际可用上下文可能因任务复杂度和API基础设施而异。OrcaRouter不提供令牌缓存或折扣层级,因此成本随使用量线性增长。
1M 令牌的上下文窗口允许模型一次性考虑大量文本,从而在长文档摘要或多步推理等任务中提高连贯性和准确性。然而,当提示占用了窗口的很大一部分时,性能可能会下降,因为模型的注意力机制计算成本很高。在实践中,需要从长上下文中间精确检索的任务,其准确性可能低于信息位于开头或附近的任务。
在现有资料中并未提供GLM 5.2的具体基准测试分数。该模型是一个纯文本的大语言模型,拥有100万token的上下文窗口;其在标准评测(如MMLU、HellaSwag或代码基准测试)上的表现并未公开。用户应使用自己的数据集评估该模型,以判断其是否适用于自身场景。较大的上下文窗口表明该模型在需要长程依赖的任务中具有优势,但由于缺乏公开数据,与其他模型的比较只能是定性的。
由于GLM 5.2拥有非常大的上下文窗口(100万个token),每个请求的延迟可能比上下文窗口较小的模型更高,特别是当输入较长时。注意力机制的计算复杂度随序列长度呈二次方增长,因此处理完整的百万token输入将比处理4k token的输入耗时明显更长。对于低延迟用例(例如实时聊天机器人),较小的模型可能更为合适。OrcaRouter目前尚未公布该模型的延迟数据。
该模型的主要优势在于能够接受多达100万Token的输入,并生成高达12.8万Token的输出,从而在单次调用中完成其他少数模型难以处理的任务。这使其非常适合分析整本书籍、法律文档或代码库,无需分块处理。此外,零加价定价模式意味着您只需通过OrcaRouter支付Z.ai的费率。然而,目前尚无官方基准数据来确认其在特定任务上的表现。
定价基于 token 数量:输入 token 每百万个 1.40 美元,输出 token 每百万个 4.40 美元。输入和输出均按 Z.ai 的提供商费率计费,OrcaRouter 不额外加价。缓存、提示前缀或特殊功能不单独收费。这种按 token 计费的方式简单明了,随使用量扩展。例如,一个包含 10 万输入 token 和 5000 输出 token 的请求,费用大约为 0.16 美元。
OrcaRouter不针对GLM 5.2提供任何批量折扣、阶梯定价或缓存优惠。每百万输入令牌1.40美元及每百万输出令牌4.40美元的标价对所有用户统一适用。由于没有加价,您看到的成本即为Z.ai自身的费率。如果您使用量极大,可以直接联系Z.ai咨询企业协议,但此类安排不通过OrcaRouter处理。
GLM 5.2 的每 token 价格高于许多小型模型(例如,那些每百万输入 token 收费 0.15 美元的模型)。其溢价反映了其异常大的上下文窗口和输出限制。如果你的任务只需要几千个 token,那么更便宜的模型会更划算。然而,对于需要完整 1M token 窗口的任务,这个模型可能是唯一的选择,其成本可能因减少手动分块和多次调用而得到抵消。
使用 OrcaRouter 提供的兼容 OpenAI 的 API。将基础 URL 设置为 https://api.orcarouter.ai/v1,模型 ID 设置为 “z-ai/glm-5.2”。标准聊天补全端点(/v1/chat/completions)接受一个包含 messages、max_tokens、temperature 等参数的 JSON 负载。认证通过你从 OrcaRouter 获得的 API 密钥完成。示例:curl https://api.orcarouter.ai/v1/chat/completions -H "Authorization: Bearer YOUR_KEY" -d '{"model":"z-ai/glm-5.2","messages":[{"role":"user","content":"Summarize this document."}],"max_tokens":1000}'
API 支持与 OpenAI 兼容的端点常见参数:model(必需)、messages(消息对象数组,包含 role 和 content)、max_tokens(整数,最大 128000)、temperature(浮点数)、top_p、frequency_penalty、presence_penalty、stop、stream(布尔值)等。由于该模型仅支持文本,content 必须为字符串。1M token 的上下文窗口限制适用于请求中所有消息的总和加上生成的输出。超出限制将返回错误。
是的,API通过`stream`参数支持流式传输。当设置为`true`时,响应将以一系列服务器发送事件(SSE)的形式发送,每个事件包含部分生成内容。这对于向用户展示中间结果非常有用。流式传输的工作方式与OpenAI的流式传输格式相同。请注意,即使使用流式传输,完整输出仍会按提供商费率计入你的令牌用量。
要从其他API提供商迁移到OrcaRouter使用GLM 5.2,只需更改基础URL和模型名称。如果你使用的是OpenAI的客户端库,将基础URL替换为https://api.orcarouter.ai/v1,并将模型设置为“z-ai/glm-5.2”。消息和参数的JSON格式保持不变。确保你的API密钥来自OrcaRouter。除端点外,无需更改任何代码。
GLM 5.2 提供100万token的上下文窗口,属于行业最大规模之一。许多竞品上限为12.8万或20万token。其12.8万token的输出限制也高于常规水平。但该模型仅支持文本输入,而部分竞品支持图像或音频。每百万token 1.40美元/4.40美元的定价对此类大窗口而言较为适中;部分竞品收费更高。由于缺乏基准数据,无法直接进行质量对比。
只有在您的应用真正需要百万级令牌上下文窗口时,才应选择GLM 5.2。如果您的提示和预期输出适合32k或128k令牌,那么使用更便宜的模型(例如,每百万输入令牌仅需0.15美元的模型)将成本更低且通常速度更快。GLM 5.2的优势在于无需拆分长文本,这可以节省工程时间并保留交叉引用上下文。
许多高质量模型(例如,具有128k令牌窗口的模型)在典型任务上可能与GLM 5.2的性能相当,但它们无法处理长于其窗口的文档。对于适合较小上下文的任务,这类模型通常更快且更具成本效益。GLM 5.2的独特优势在于能够一次性处理极长的输入,这对于全书分析、完整代码库总结或非常长时间的对话等用例至关重要。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="z-ai/glm-5.2",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 输入 / 1M tokens | $1.40 |
| 输出 / 1M tokens | $4.40 |
| 缓存读取 / 1M | $0.260 |
| 货币 | USD |