OrcaRouterのAPIを介してアクセスされる、長文テキスト処理向けの1Mトークンコンテキストウィンドウ。
Z.ai: GLM 5.2 は、100万トークンのコンテキストウィンドウと最大128,000トークンの出力を持つテキスト専用大規模言語モデルです。Z.ai によって開発され、OrcaRouter のAPIを通じて提供されています。このモデルはテキスト入力のみを処理するため、全書籍分析やマルチファイルコードベースの包括的な要約など、非常に長い文章の読み取りや生成を必要とするタスクに最適です。料金はプロバイダーのレートに従い、入力100万トークンあたり$1.40、出力100万トークンあたり$4.40で、OrcaRouterによるマークアップはありません。
Z.ai: GLM 5.2は、1回のAPI呼び出しで非常に長いテキストシーケンスを処理する必要があるユーザーや組織を対象としています。主な利用者としては、契約書全体や証拠開示文書を分析する法律専門家、広範な文献を調査する研究者、大規模なコードリポジトリを理解するソフトウェアエンジニア、長いログファイルを扱うデータサイエンティストなどが挙げられます。豊富なコンテキストウィンドウにより、手動でのチャンキングの必要性が減り、高い出力制限によって詳細なレポートやコードパッチの生成がサポートされます。
主要な仕様として、合計コンテキストウィンドウは1,000,000トークン(入力と出力を合わせたもの)で、最大出力は128,000トークンです。このモデルはテキスト入力のみをサポートし、マルチモーダル機能は謳われていません。OrcaRouterのOpenAI互換APIを介して、モデルID「z-ai/glm-5.2」、ベースURL https://api.orcarouter.ai/v1 でアクセスします。料金はトークンあたり、入力100万トークンにつき$1.40、出力100万トークンにつき$4.40で、Z.aiのプロバイダーレートで課金され、マークアップはゼロです。
大規模言語モデルとして、GLM 5.2は要約、質問応答、翻訳、コード生成、クリエイティブライティングなど、多様なテキストベースのタスクを実行できます。その主な強みは、非常に長いコンテキストを処理できることにあり、1つのプロンプトで文書全体や会話履歴を理解する必要があるタスクに優れています。例としては、500ページのレポートから主要なテーマを抽出する、トランスクリプト全体から議事録を生成する、何百ものターンにわたって首尾一貫した対話を維持する、などがあります。
あなたのタスクが、より小さなモデル(例:32kトークンや128kトークン)が扱えるよりも大きなコンテキストウィンドウを必要とする場合、GLM 5.2を選択すべきです。例えば、書籍全体、完全な法的契約書、大規模なコードリポジトリを一度に分析する場合などです。タスクがより小さなコンテキストに収まるのであれば、同程度の性能を持つより低コストのモデルの方が費用対効果が高いかもしれません。このモデルは、応答を複数の呼び出しに分割せずに非常に長い出力(最大128kトークン)を生成する必要がある場合にも適しています。
このモデルはテキストのみを入力・出力でき、画像や音声などの他のモダリティは処理しません。また、ユーザーは大規模なコンテキストモデルがより小型の代替モデルよりも低速で高コストになる可能性があることに留意すべきです。100万トークンのコンテキストウィンドウは最大値であり、実際に利用可能なコンテキストはタスクの複雑さやAPIのインフラによって変動する場合があります。OrcaRouterはトークンキャッシングや割引ティアを提供していないため、コストは使用量に比例して増加します。
1Mトークンのコンテキストウィンドウにより、モデルは一度に大量のテキストを考慮できるようになり、長文要約や多段階推論のようなタスクにおける一貫性と精度が向上します。しかし、プロンプトがウィンドウの大部分を占めると、モデルの注意機構が計算コスト高になるため、パフォーマンスが低下する可能性があります。実際には、長いコンテキストの中間から正確に情報を検索する必要があるタスクでは、情報が最初または最後にあるタスクと比較して精度が低くなる場合があります。
利用可能な事実には、GLM 5.2の具体的なベンチマークスコアは提供されていません。このモデルはテキスト専用のLLMで、100万トークンのコンテキストウィンドウを持ちますが、標準的な評価(MMLU、HellaSwag、コーディングベンチマークなど)における性能は開示されていません。ユーザーは自身のデータセットでモデルを評価し、ユースケースにおける有効性を判断する必要があります。大きなコンテキストウィンドウは、長距離依存関係を要するタスクでの強みを示唆しますが、公開された数字がないため、他のモデルとの比較は定性的なものにとどまります。
非常に大きなコンテキストウィンドウ(100万トークン)を持つため、GLM 5.2はコンテキストウィンドウが小さいモデルよりもリクエストあたりのレイテンシが高くなる可能性があり、特に入力が長い場合に顕著です。アテンションメカニズムはシーケンス長に対して2次的にスケールするため、100万トークンの完全な処理は4kトークンの入力よりも大幅に時間がかかります。低レイテンシが求められるユースケース(例:リアルタイムチャットボット)では、より小さいモデルの方が適している場合があります。OrcaRouterはこのモデルのレイテンシ数値を公開していません。
このモデルの主な強みは、最大100万トークンの入力と最大128,000トークンの出力を受け入れられる点にあり、他のモデルでは1回の呼び出しで処理できるものがほとんどないタスクを可能にします。そのため、チャンク分割なしで書籍全体や法律文書、コードベースを分析するのに理想的です。さらに、ゼロマークアップの価格モデルにより、OrcaRouterを通じてZ.aiのレートのみを支払います。ただし、特定のタスクにおけるパフォーマンスを確認する公式のベンチマークデータはありません。
料金はトークン数に基づきます:入力トークン100万トークンあたり1.40ドル、出力トークン100万トークンあたり4.40ドルです。入力と出力の両方について、Z.aiのプロバイダー料金が適用され、OrcaRouterによるマークアップは一切ありません。キャッシュ、プロンプトプレフィックス、特別な機能に対する追加費用は発生しません。このトークン単位の料金体系はシンプルで、使用量に応じてスケールします。例えば、入力トークン10万トークン、出力トークン5,000トークンのリクエストの場合、おおよそ0.16ドルになります。
OrcaRouterは、GLM 5.2に関してボリュームディスカウント、段階的価格設定、またはキャッシング特典を一切宣伝していません。入力トークン100万件あたり1.40ドル、出力トークン100万件あたり4.40ドルという表示価格は、全ユーザーに適用される料金です。マークアップがゼロであるため、表示されるコストはZ.ai自身の料金です。非常に高い使用量がある場合は、Z.aiに直接連絡してエンタープライズ契約について問い合わせることを検討しても構いませんが、そのような取り決めはOrcaRouterを通して処理されるものではありません。
GLM 5.2のトークン単価は、多くの小規模モデル(例えば、百万入力トークンあたり0.15ドルのモデル)よりも高いです。そのプレミアムは、非常に大きなコンテキストウィンドウと出力制限を反映しています。タスクに必要なトークンが数千程度であれば、より安価なモデルの方が費用対効果に優れています。ただし、100万トークンのウィンドウ全体を必要とするタスクでは、このモデルが唯一の選択肢となる可能性があり、そのコストは手動チャンキングや複数回の呼び出しの削減によって正当化されるかもしれません。
OrcaRouter が提供する OpenAI 互換 API を使用します。ベース URL を https://api.orcarouter.ai/v1、モデル ID を「z-ai/glm-5.2」に設定します。標準のチャット補完エンドポイント(/v1/chat/completions)は、messages、max_tokens、temperature などのパラメータを含む JSON ペイロードを受け入れます。認証は OrcaRouter から取得する API キーを介して行われます。例:curl https://api.orcarouter.ai/v1/chat/completions -H "Authorization: Bearer YOUR_KEY" -d '{"model":"z-ai/glm-5.2","messages":[{"role":"user","content":"このドキュメントを要約してください。"}],"max_tokens":1000}'
このAPIは、OpenAI互換エンドポイントに標準的なパラメータをサポートしています: model(必須)、messages(roleとcontentを持つメッセージオブジェクトの配列)、max_tokens(最大128000の整数)、temperature(浮動小数点数)、top_p、frequency_penalty、presence_penalty、stop、stream(ブール値)など。モデルはテキストのみのため、contentは文字列でなければなりません。1Mトークンのコンテキストウィンドウ制限は、リクエスト内のすべてのメッセージと生成された出力の合計に適用されます。制限を超えるとエラーが返されます。
はい、APIは`stream`パラメーターを介してストリーミングをサポートしています。`true`に設定すると、レスポンスは一連のサーバー送信イベント(SSE)として送信され、それぞれが部分的な生成結果を含みます。これはユーザーに中間結果を表示するのに役立ちます。ストリーミングはOpenAIのストリーミング形式と同様に動作します。ストリーミングでも、完全な出力はプロバイダーのレートに従ってトークン使用量にカウントされることに注意してください。
別のAPIプロバイダーからOrcaRouter for GLM 5.2に移行するには、ベースURLとモデル名を変更するだけで済みます。OpenAIのクライアントライブラリを使用している場合は、ベースURLをhttps://api.orcarouter.ai/v1に置き換え、モデルを「z-ai/glm-5.2」に設定してください。メッセージとパラメータのJSON形式は同じものが使用できます。APIキーがOrcaRouterのものであることを確認してください。エンドポイント以外のコード変更は不要です。
GLM 5.2は100万トークンのコンテキストウィンドウを提供しており、これは利用可能な中で最大級のものです。多くの競合他社は128kまたは200kトークンで上限を設けています。出力制限も128kトークンと、一般的なものより高くなっています。ただし、テキストのみ対応であり、画像や音声をサポートする競合も存在します。価格は100万トークンあたり1.40ドル/4.40ドルで、このような大きなウィンドウとしては適度な範囲です。一部の競合はより高い料金を設定しています。ベンチマークデータがないため、直接的な品質比較は不可能です。
GLM 5.2を選択するのは、アプリケーションが本当に100万トークンというコンテキストウィンドウを必要とする場合のみにしてください。プロンプトや期待される出力が32kまたは128kトークンに収まるのであれば、より安価なモデル(例えば、入力100万トークンあたり0.15ドルのもの)の方がはるかに低コストで、おそらく高速です。GLM 5.2の利点は、長いテキストを分割する必要がなくなることで、エンジニアリング時間を節約し、相互参照のコンテキストを保持できる点にあります。
多くの高品質モデル(例えば128kトークンウィンドウを持つもの)は、典型的なタスクでGLM 5.2の性能に匹敵するかもしれませんが、それらのウィンドウよりも長い文書を処理することはできません。より小さいコンテキストに収まるタスクでは、そのようなモデルは多くの場合、より高速で費用対効果が高いです。GLM 5.2のニッチは、非常に長い入力を1パスで処理できる能力であり、これは全書籍分析、完全なコードベースの要約、または非常に長時間の会話などのユースケースに不可欠です。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="z-ai/glm-5.2",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 入力 / 1M tokens | $1.40 |
| 出力 / 1M tokens | $4.40 |
| キャッシュ読み取り / 1M | $0.260 |
| 通貨 | USD |