GLM 5.2

z-ai/glm-5.2
NouveauEn vedette
par Z.ai · text in · text out · 1M ctx · 2026-06-16

Fenêtre de contexte de 1M tokens pour le traitement de textes longs, accessible via l'API d'OrcaRout…

Points de terminaison:/v1/chat/completions
ENTRÉE$1.40/ 1M tokens
SORTIE$4.40/ 1M tokens
p50 TTFT5.60 s7 j
TTFT p957.54 s7 j
TRAFIC8.0Mtokens / 7 j

Qu'est-ce que Z.ai: GLM 5.2?

Z.ai : GLM 5.2 est un modèle de langage de grande taille uniquement textuel avec une fenêtre contextuelle de 1,000,000‑jetons et une sortie maximale de 128,000 jetons. Il est développé par Z.ai et proposé via l'API d'OrcaRouter. Le modèle ne traite que des entrées textuelles, ce qui le rend idéal pour les tâches nécessitant la lecture et la génération de très longs passages, comme l'analyse de livres complets ou le résumé complet de bases de code multi-fichiers. La tarification suit le taux du fournisseur : $1.40 par million de jetons d'entrée et $4.40 par million de jetons de sortie, sans majoration par OrcaRouter.

À qui ce modèle est-il destiné ?

Z.ai: GLM 5.2 cible les utilisateurs et les organisations qui ont besoin de traiter des séquences de texte extrêmement longues en un seul appel API. Les rôles courants incluent les professionnels du droit analysant des contrats entiers ou des documents de découverte, les chercheurs examinant une vaste littérature, les ingénieurs logiciels comprenant de grands dépôts de code, et les data scientists travaillant avec de longs fichiers journaux. La généreuse fenêtre de contexte réduit le besoin de découpage manuel, tandis que la limite de sortie élevée permet de générer des rapports détaillés ou des correctifs de code.

Quelles sont les spécifications clés ?

Les spécifications clés incluent une fenêtre de contexte totale de 1 000 000 tokens (entrée et sortie combinées), avec une sortie maximale de 128 000 tokens. Le modèle prend en charge uniquement l’entrée de texte ; aucune capacité multimodale n’est annoncée. Il est accessible via l’API compatible OpenAI d’OrcaRouter en utilisant l’ID de modèle « z‑ai/glm‑5.2 » à l’URL de base https://api.orcarouter.ai/v1. La tarification est par token : 1,40 $ par million de tokens d’entrée et 4,40 $ par million de tokens de sortie, facturée au tarif du fournisseur de Z.ai sans majoration.

Exemples de code

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="z-ai/glm-5.2",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Tarifs

Entrée / 1M tokens$1.40
Sortie / 1M tokens$4.40
Lecture cache / 1M$0.260
DeviseUSD

Performances

p50 TTFT
5.60 s
Vitesse de sortie
96.0 tok/s
TTFT p95
7.54 s
Taux d'erreur
0%

Benchmarks publics

AIME 2026
99.2
CritPt
16.7
DeepSWE
46.2
FrontierSWE (Dominance)
74.4
GPQA-Diamond
91.2
HLE
40.5
HLE (w/ Tools)
54.7
HMMT Feb. 2026
92.5
HMMT Nov. 2025
94.4
IMOAnswerBench
91.0
MCP-Atlas (Public Set)
76.8
NL2Repo
48.9
PostTrainBench
34.3
ProgramBench
63.7
SWE-bench Pro
62.1
SWE-Marathon
13.0
Terminal Bench 2.1 (Best Reported)
82.7
Terminal Bench 2.1 (Terminus-2)
81.0
Tool-Decathlon
48.2
Source: artificialanalysis.ai

FAQ

Quel est le coût par jeton pour GLM 5.2 ?
Les jetons d'entrée coûtent 1,40 $ par million de jetons, et les jetons de sortie coûtent 4,40 $ par million de jetons. Il n'y a pas de majoration par OrcaRouter ; vous payez le tarif du fournisseur de Z.ai.
Quelle est la taille de la fenêtre de contexte du modèle ?
La fenêtre de contexte est de 1 000 000 tokens (entrée et sortie combinées). La sortie maximale est de 128 000 tokens par requête.
Quels sont les points forts du modèle ?
Sa principale force est la grande fenêtre de contexte (1M tokens) et la limite de sortie élevée (128k tokens), permettant de traiter de très longs documents ou conversations en un seul appel. Il est uniquement textuel.
Comment GLM 5.2 se compare-t-il à d'autres modèles avec des fenêtres de contexte plus petites ?
Il possède une fenêtre de contexte beaucoup plus grande, ce qui le rend adapté aux tâches qui nécessitent la lecture de livres entiers ou de grandes bases de code. Les modèles plus petits sont moins chers et plus rapides pour les tâches qui s'inscrivent dans leurs limites de contexte.
OrcaRouter met-il en cache des jetons ou offre-t-il des remises ?
Non, OrcaRouter ne fait pas la publicité de la mise en cache des jetons ni de remises sur volume pour ce modèle. Le prix est par jeton au tarif du fournisseur avec une marge nulle.
Comment appeler GLM 5.2 via OrcaRouter ?
Utilisez l'API compatible OpenAI à l'URL de base https://api.orcarouter.ai/v1, ID de modèle “z-ai/glm-5.2”. Envoyez une requête standard de complétion de chat avec votre clé API.
Quelles modalités d'entrée le modèle prend-il en charge ?
Z.ai : GLM 5.2 ne prend en charge que l’entrée de texte. Il ne peut pas traiter les images, l’audio ou d’autres contenus multimodaux.
Existe-t-il des scores de benchmark connus ?
Aucun score de benchmark pour GLM 5.2 n'est fourni dans les faits disponibles. Les utilisateurs devraient évaluer le modèle sur leurs propres ensembles de données.
Puis-je streamer la sortie ?
Oui, définissez `stream: true` dans votre appel API. La réponse sera envoyée sous forme d'événements envoyés par le serveur, identique au format de streaming d'OpenAI.
Que se passe-t-il si je dépasse la limite de 1M tokens ?
Vous recevrez une erreur. Assurez-vous que le nombre total de jetons dans vos messages plus max_tokens ne dépasse pas 1 000 000.

Intégrer ce badge

Z.ai: GLM 5.2$1.40/M in5596ms p50via OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/z-ai/glm-5.2" target="_blank"> <img src="https://www.orcarouter.ai/embed/z-ai/glm-5.2.svg" alt="Z.ai: GLM 5.2 sur OrcaRouter" /> </a>
Markdown [![Z.ai: GLM 5.2](https://www.orcarouter.ai/embed/z-ai/glm-5.2.svg)](https://www.orcarouter.ai/models/z-ai/glm-5.2)