Fenêtre de contexte de 1M tokens pour le traitement de textes longs, accessible via l'API d'OrcaRout…
Z.ai : GLM 5.2 est un modèle de langage de grande taille uniquement textuel avec une fenêtre contextuelle de 1,000,000‑jetons et une sortie maximale de 128,000 jetons. Il est développé par Z.ai et proposé via l'API d'OrcaRouter. Le modèle ne traite que des entrées textuelles, ce qui le rend idéal pour les tâches nécessitant la lecture et la génération de très longs passages, comme l'analyse de livres complets ou le résumé complet de bases de code multi-fichiers. La tarification suit le taux du fournisseur : $1.40 par million de jetons d'entrée et $4.40 par million de jetons de sortie, sans majoration par OrcaRouter.
Z.ai: GLM 5.2 cible les utilisateurs et les organisations qui ont besoin de traiter des séquences de texte extrêmement longues en un seul appel API. Les rôles courants incluent les professionnels du droit analysant des contrats entiers ou des documents de découverte, les chercheurs examinant une vaste littérature, les ingénieurs logiciels comprenant de grands dépôts de code, et les data scientists travaillant avec de longs fichiers journaux. La généreuse fenêtre de contexte réduit le besoin de découpage manuel, tandis que la limite de sortie élevée permet de générer des rapports détaillés ou des correctifs de code.
Les spécifications clés incluent une fenêtre de contexte totale de 1 000 000 tokens (entrée et sortie combinées), avec une sortie maximale de 128 000 tokens. Le modèle prend en charge uniquement l’entrée de texte ; aucune capacité multimodale n’est annoncée. Il est accessible via l’API compatible OpenAI d’OrcaRouter en utilisant l’ID de modèle « z‑ai/glm‑5.2 » à l’URL de base https://api.orcarouter.ai/v1. La tarification est par token : 1,40 $ par million de tokens d’entrée et 4,40 $ par million de tokens de sortie, facturée au tarif du fournisseur de Z.ai sans majoration.
En tant que modèle de langage de grande taille, GLM 5.2 peut effectuer diverses tâches textuelles telles que le résumé, la réponse à des questions, la traduction, la génération de code et l'écriture créative. Sa principale force réside dans sa capacité à traiter de très longs contextes, ce qui le rend excellent pour les tâches qui nécessitent la compréhension d'un document complet ou de l'historique d'une conversation en une seule invite. Par exemple, extraire les thèmes clés d'un rapport de 500 pages, générer un compte rendu de réunion à partir d'une transcription entière, ou maintenir un dialogue cohérent sur des centaines de tours.
Vous devriez choisir GLM 5.2 lorsque votre tâche nécessite une fenêtre de contexte plus grande que ce que les modèles plus petits (par exemple, 32k ou 128k tokens) peuvent gérer. Par exemple, analyser un livre entier, un contrat juridique complet ou un grand dépôt de code en une seule fois. Si votre tâche tient dans un contexte plus petit, un modèle moins cher avec des performances similaires peut être plus rentable. Ce modèle est également adapté lorsque vous devez générer des sorties très longues (jusqu'à 128k tokens) sans diviser la réponse en plusieurs appels.
Le modèle accepte et produit uniquement du texte ; il ne traite pas les images, l'audio ou d'autres modalités. Les utilisateurs doivent également savoir que les modèles à grand contexte peuvent être plus lents et plus coûteux que les alternatives plus petites. La fenêtre de contexte de 1M jetons est un maximum ; le contexte réellement utilisable peut varier en fonction de la complexité de la tâche et de l'infrastructure de l'API. OrcaRouter ne fournit pas de mise en cache des jetons ni de paliers de réduction, les coûts évoluent donc linéairement avec l'utilisation.
Une fenêtre de contexte d'un million de jetons permet au modèle de considérer d'énormes quantités de texte à la fois, ce qui peut améliorer la cohérence et la précision dans des tâches comme la synthèse de longs textes ou le raisonnement en plusieurs étapes. Cependant, les performances peuvent se dégrader lorsque l'invite occupe une grande partie de la fenêtre, car le mécanisme d'attention du modèle devient coûteux en calcul. En pratique, les tâches qui nécessitent une récupération précise au milieu d'un long contexte peuvent voir une précision inférieure par rapport aux tâches dont les informations se situent près du début ou de la fin.
Aucun score de référence spécifique pour GLM 5.2 n'est fourni dans les faits disponibles. Le modèle est un LLM textuel uniquement avec une fenêtre de contexte de 1M ; ses performances sur les évaluations standard (par exemple, MMLU, HellaSwag ou les benchmarks de codage) ne sont pas divulguées. Les utilisateurs devraient évaluer le modèle sur leurs propres ensembles de données pour évaluer son efficacité pour leur cas d'usage. La grande fenêtre de contexte suggère des atouts dans les tâches nécessitant des dépendances à longue portée, mais en l'absence de chiffres publiés, la comparaison avec d'autres modèles doit être qualitative.
En raison de sa très grande fenêtre de contexte (1M tokens), GLM 5.2 est susceptible d'avoir une latence par requête plus élevée que les modèles avec des fenêtres de contexte plus petites, en particulier lorsque l'entrée est longue. Le mécanisme d'attention évolue de façon quadratique avec la longueur de la séquence, donc traiter un million de tokens complets prendra beaucoup plus de temps qu'une entrée de 4k tokens. Pour les cas d'utilisation à faible latence (par exemple, les chatbots en temps réel), un modèle plus petit peut être préférable. OrcaRouter ne publie pas de chiffres de latence pour ce modèle.
Le principal atout de ce modèle est sa capacité à accepter jusqu'à 1 million de tokens en entrée et à générer jusqu'à 128 000 tokens en sortie, ce qui permet d'effectuer des tâches que peu d'autres modèles peuvent réaliser en un seul appel. Cela le rend idéal pour analyser des livres entiers, des documents juridiques ou des bases de code sans avoir à les découper. De plus, le modèle de tarification sans marge signifie que vous ne payez que le tarif de Z.ai via OrcaRouter. Cependant, aucune donnée de référence officielle n'est disponible pour confirmer les performances sur des tâches spécifiques.
La tarification est basée sur le nombre de tokens : 1,40 $ par million de tokens d'entrée et 4,40 $ par million de tokens de sortie. L'entrée et la sortie sont facturées au tarif du fournisseur de Z.ai, sans aucune majoration ajoutée par OrcaRouter. Il n'y a pas de coûts distincts pour la mise en cache, les préfixes de prompts ou les fonctionnalités spéciales. Cette tarification par token est simple et évolue avec l'utilisation. Par exemple, une requête avec 100 000 tokens d'entrée et 5 000 tokens de sortie coûterait environ 0,16 $.
OrcaRouter n’offre aucun rabais sur le volume, aucune tarification par paliers ni aucun avantage de mise en cache pour GLM 5.2. Le prix indiqué de 1,40 $ par million de jetons d’entrée et de 4,40 $ par million de jetons de sortie est le tarif pour tous les utilisateurs. Comme il n’y a aucune marge bénéficiaire, le coût que vous voyez est le tarif propre de Z.ai. Si vous avez une utilisation très élevée, vous pouvez contacter Z.ai directement pour vous renseigner sur des contrats d’entreprise, mais ces arrangements ne sont pas traités via OrcaRouter.
Le prix par token de GLM 5.2 est plus élevé que celui de nombreux modèles plus petits (par ex., ceux coûtant 0,15 $ par million de tokens en entrée). Cette prime reflète sa fenêtre de contexte et sa limite de sortie exceptionnellement grandes. Si votre tâche ne nécessite que quelques milliers de tokens, un modèle moins cher sera plus rentable. Cependant, pour les tâches nécessitant la fenêtre complète de 1 million de tokens, ce modèle peut être la seule option, et son coût peut être justifié par la réduction du découpage manuel et des appels multiples.
Utilisez l'API compatible OpenAI fournie par OrcaRouter. Définissez l'URL de base sur https://api.orcarouter.ai/v1 et l'ID du modèle sur “z-ai/glm-5.2”. Le point de terminaison standard de complétion de chat (/v1/chat/completions) accepte un payload JSON avec messages, max_tokens, temperature et autres paramètres. L'authentification se fait via une clé API que vous obtenez auprès d'OrcaRouter. Exemple : curl https://api.orcarouter.ai/v1/chat/completions -H "Authorization: Bearer YOUR_KEY" -d '{"model":"z-ai/glm-5.2","messages":[{"role":"user","content":"Résumez ce document."}],"max_tokens":1000}'
L'API prend en charge les paramètres typiques des endpoints compatibles OpenAI : model (obligatoire), messages (tableau d'objets message avec role et content), max_tokens (entier jusqu'à 128000), temperature (float), top_p, frequency_penalty, presence_penalty, stop, stream (booléen) et autres. Comme le modèle est text‑only, content doit être une chaîne de caractères. La limite de fenêtre contextuelle de 1M tokens s'applique au total de tous les messages de la requête plus la sortie générée. Dépasser la limite renvoie une erreur.
Oui, l'API prend en charge le streaming via le paramètre `stream`. Lorsqu'il est défini sur `true`, la réponse sera envoyée sous forme d'une série d'événements envoyés par le serveur (SSE), chacun contenant une génération partielle. Ceci est utile pour afficher des résultats intermédiaires aux utilisateurs. Le streaming fonctionne de manière identique au format de streaming d'OpenAI. Notez que même avec le streaming, la sortie complète est comptabilisée dans votre utilisation de jetons au tarif du fournisseur.
Pour migrer d'un autre fournisseur d'API vers OrcaRouter pour GLM 5.2, vous devez uniquement modifier l'URL de base et le nom du modèle. Si vous utilisiez la bibliothèque client d'OpenAI, remplacez l'URL de base par https://api.orcarouter.ai/v1 et définissez le modèle sur "z-ai/glm-5.2". Le même format JSON pour les messages et les paramètres fonctionne. Assurez-vous que votre clé API provient d'OrcaRouter. Aucune modification de code au-delà du point de terminaison n'est requise.
GLM 5.2 propose une fenêtre de contexte de 1 million de tokens, l’une des plus grandes disponibles. De nombreux concurrents plafonnent à 128k ou 200k tokens. Sa limite de sortie de 128k tokens est également supérieure à la moyenne. Cependant, il est limité au texte, alors que certains rivaux prennent en charge les images ou l’audio. Les tarifs de 1,40 $ / 4,40 $ par million de tokens sont modérés pour une fenêtre aussi grande ; certains concurrents facturent des tarifs plus élevés. Sans données de référence, une comparaison directe de la qualité n’est pas possible.
Choisissez GLM 5.2 seulement lorsque votre application bénéficie réellement d'une fenêtre de contexte d'un million de tokens. Si vos prompts et sorties attendues tiennent dans 32k ou 128k tokens, un modèle moins cher (par exemple, un modèle coûtant 0,15 $ par million de tokens d'entrée) sera beaucoup moins coûteux et probablement plus rapide. L'avantage de GLM 5.2 réside dans l'élimination de la nécessité de diviser les longs textes, ce qui peut économiser du temps d'ingénierie et préserver le contexte des références croisées.
De nombreux modèles de haute qualité (par exemple, ceux dotés de fenêtres de 128k tokens) peuvent égaler les performances de GLM 5.2 sur des tâches typiques, mais ils ne peuvent pas traiter des documents plus longs que leur fenêtre. Pour les tâches s'inscrivant dans un contexte plus court, ces modèles sont souvent plus rapides et plus rentables. Le créneau de GLM 5.2 réside dans sa capacité à traiter des entrées extrêmement longues en un seul passage, ce qui est essentiel pour des cas d'usage comme l'analyse de livres complets, le résumé d'une base de code entière ou les conversations très longues.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="z-ai/glm-5.2",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Entrée / 1M tokens | $1.40 |
| Sortie / 1M tokens | $4.40 |
| Lecture cache / 1M | $0.260 |
| Devise | USD |