Cửa sổ ngữ cảnh 1M token cho xử lý văn bản dài, được truy cập qua API của OrcaRouter.
Z.ai: GLM 5.2 là một mô hình ngôn ngữ lớn chỉ xử lý văn bản với cửa sổ ngữ cảnh 1,000,000 token và đầu ra tối đa 128,000 token. Nó được phát triển bởi Z.ai và được cung cấp thông qua API của OrcaRouter. Mô hình chỉ xử lý đầu vào văn bản, khiến nó trở nên lý tưởng cho các tác vụ yêu cầu đọc và tạo ra các đoạn văn rất dài, chẳng hạn như phân tích toàn bộ sách hoặc tóm tắt toàn diện các cơ sở mã nhiều tệp. Giá tuân theo tỷ lệ của nhà cung cấp: $1.40 cho mỗi triệu token đầu vào và $4.40 cho mỗi triệu token đầu ra, không có phụ phí từ OrcaRouter.
Z.ai: GLM 5.2 nhắm đến người dùng và tổ chức cần xử lý các chuỗi văn bản cực kỳ dài trong một lệnh gọi API duy nhất. Các vai trò phổ biến bao gồm chuyên gia pháp lý phân tích toàn bộ hợp đồng hoặc tài liệu khám phá, nhà nghiên cứu xem xét tài liệu phong phú, kỹ sư phần mềm hiểu các kho mã nguồn lớn, và nhà khoa học dữ liệu làm việc với các tệp nhật ký dài. Cửa sổ ngữ cảnh rộng rãi giảm nhu cầu phân đoạn thủ công, trong khi giới hạn đầu ra cao hỗ trợ tạo báo cáo chi tiết hoặc bản vá mã.
Các thông số kỹ thuật chính bao gồm tổng cửa sổ ngữ cảnh 1,000,000 token (cả đầu vào và đầu ra), với đầu ra tối đa 128,000 token. Mô hình chỉ hỗ trợ đầu vào văn bản; không có khả năng đa phương thức nào được quảng cáo. Mô hình được truy cập thông qua API tương thích OpenAI của OrcaRouter bằng model ID “z-ai/glm-5.2” tại base URL https://api.orcarouter.ai/v1. Giá được tính theo token: $1.40 cho mỗi triệu token đầu vào và $4.40 cho mỗi triệu token đầu ra, được tính theo tỷ lệ nhà cung cấp của Z.ai với markup bằng 0.
Là một mô hình ngôn ngữ lớn, GLM 5.2 có thể thực hiện nhiều tác vụ dựa trên văn bản như tóm tắt, trả lời câu hỏi, dịch thuật, tạo mã và viết sáng tạo. Sức mạnh chính của nó nằm ở khả năng xử lý các ngữ cảnh rất dài, do đó nó xuất sắc trong các tác vụ liên quan đến việc hiểu toàn bộ tài liệu hoặc lịch sử hội thoại trong một lời nhắc duy nhất. Ví dụ bao gồm trích xuất các chủ đề chính từ một báo cáo dài 500 trang, tạo biên bản cuộc họp từ toàn bộ bản ghi chép, hoặc duy trì một cuộc đối thoại mạch lạc qua hàng trăm lượt tương tác.
Bạn nên chọn GLM 5.2 khi tác vụ yêu cầu một cửa sổ ngữ cảnh lớn hơn khả năng xử lý của các mô hình nhỏ hơn (ví dụ: 32k hoặc 128k token). Ví dụ: phân tích toàn bộ một cuốn sách, một hợp đồng pháp lý đầy đủ hoặc một kho mã nguồn lớn chỉ trong một lần. Nếu tác vụ của bạn nằm trong một ngữ cảnh nhỏ hơn, một mô hình rẻ hơn với hiệu năng tương tự có thể tiết kiệm chi phí hơn. Mô hình này cũng phù hợp khi bạn cần tạo đầu ra rất dài (lên đến 128k token) mà không cần chia phản hồi thành nhiều lệnh gọi.
Mô hình chỉ chấp nhận và tạo ra văn bản; nó không xử lý hình ảnh, âm thanh hoặc các phương thức khác. Người dùng cũng nên lưu ý rằng các mô hình ngữ cảnh lớn có thể chậm hơn và đắt hơn so với các lựa chọn thay thế nhỏ hơn. Cửa sổ ngữ cảnh 1M‑token là mức tối đa; ngữ cảnh thực tế có thể sử dụng có thể thay đổi tùy thuộc vào độ phức tạp của nhiệm vụ và cơ sở hạ tầng của API. OrcaRouter không cung cấp bộ nhớ đệm token hoặc các bậc giảm giá, do đó chi phí tăng tuyến tính theo mức sử dụng.
Cửa sổ ngữ cảnh 1M‑token cho phép mô hình xử lý khối lượng văn bản lớn cùng một lúc, từ đó có thể cải thiện tính mạch lạc và độ chính xác trong các tác vụ như tóm tắt văn bản dài hoặc suy luận nhiều bước. Tuy nhiên, hiệu suất có thể suy giảm khi lời nhắc chiếm phần lớn cửa sổ, vì cơ chế chú ý của mô hình trở nên tốn kém về mặt tính toán. Trong thực tế, các tác vụ yêu cầu truy xuất chính xác từ giữa ngữ cảnh dài có thể đạt độ chính xác thấp hơn so với các tác vụ có thông tin ở gần đầu hoặc cuối.
Không có điểm chuẩn cụ thể nào cho GLM 5.2 được cung cấp trong các dữ kiện hiện có. Mô hình này là một LLM chỉ xử lý văn bản với cửa sổ ngữ cảnh 1M; hiệu suất của nó trên các bài đánh giá tiêu chuẩn (ví dụ: MMLU, HellaSwag, hoặc các bài kiểm tra lập trình) không được công bố. Người dùng nên tự đánh giá mô hình trên tập dữ liệu của riêng mình để đo lường hiệu quả cho trường hợp sử dụng của họ. Cửa sổ ngữ cảnh lớn cho thấy thế mạnh trong các tác vụ yêu cầu phụ thuộc đường dài, nhưng nếu không có số liệu công bố, việc so sánh với các mô hình khác phải dựa trên định tính.
Do kích thước cửa sổ ngữ cảnh rất lớn (1 triệu token), GLM 5.2 có khả năng có độ trễ mỗi yêu cầu cao hơn so với các mô hình có cửa sổ ngữ cảnh nhỏ hơn, đặc biệt khi đầu vào dài. Cơ chế attention mở rộng theo bình phương độ dài chuỗi, vì vậy xử lý một triệu token đầy đủ sẽ mất nhiều thời gian hơn đáng kể so với đầu vào 4k token. Đối với các trường hợp sử dụng yêu cầu độ trễ thấp (ví dụ: chatbot thời gian thực), một mô hình nhỏ hơn có thể phù hợp hơn. OrcaRouter không công bố số liệu độ trễ cho mô hình này.
Điểm mạnh chính của mô hình là khả năng chấp nhận đầu vào lên đến 1 triệu token và tạo ra đầu ra lên đến 128.000 token, cho phép thực hiện các tác vụ mà ít mô hình khác có thể xử lý trong một lần gọi. Điều này khiến nó trở nên lý tưởng để phân tích toàn bộ sách, tài liệu pháp lý hoặc cơ sở mã mà không cần chia nhỏ. Ngoài ra, mô hình định giá không chênh lệch có nghĩa là bạn chỉ trả theo mức giá của Z.ai thông qua OrcaRouter. Tuy nhiên, không có dữ liệu điểm chuẩn chính thức nào để xác nhận hiệu suất trên các tác vụ cụ thể.
Giá được tính dựa trên số lượng token: $1.40 cho mỗi 1 triệu token đầu vào và $4.40 cho mỗi 1 triệu token đầu ra. Cả đầu vào và đầu ra đều được tính theo giá của nhà cung cấp Z.ai, không có phí chênh lệch nào từ OrcaRouter. Không có chi phí riêng cho caching, tiền tố prompt, hay các tính năng đặc biệt. Cách tính giá theo từng token này rất đơn giản và thay đổi theo mức sử dụng. Ví dụ, một yêu cầu với 100.000 token đầu vào và 5.000 token đầu ra sẽ có chi phí khoảng $0.16.
OrcaRouter không quảng cáo bất kỳ chiết khấu theo khối lượng, giá theo bậc hay lợi ích bộ nhớ đệm nào cho GLM 5.2. Mức giá niêm yết $1,40 cho mỗi triệu token đầu vào và $4,40 cho mỗi triệu token đầu ra là mức giá áp dụng cho tất cả người dùng. Vì không có phụ phí, chi phí bạn thấy chính là mức giá của Z.ai. Nếu bạn có nhu cầu sử dụng rất cao, bạn có thể liên hệ trực tiếp với Z.ai để hỏi về các thỏa thuận doanh nghiệp, nhưng những thỏa thuận như vậy không được xử lý qua OrcaRouter.
Giá mỗi token của GLM 5.2 cao hơn so với nhiều mô hình nhỏ hơn (ví dụ: các mô hình có giá $0.15 mỗi triệu token đầu vào). Mức giá cao này phản ánh cửa sổ ngữ cảnh và giới hạn đầu ra đặc biệt lớn của mô hình. Nếu tác vụ của bạn chỉ yêu cầu vài nghìn token, một mô hình rẻ hơn sẽ hiệu quả hơn về chi phí. Tuy nhiên, đối với các tác vụ cần toàn bộ cửa sổ 1M token, mô hình này có thể là lựa chọn duy nhất và chi phí của nó có thể được biện minh nhờ việc giảm phân đoạn thủ công và số lần gọi API.
Sử dụng API tương thích với OpenAI do OrcaRouter cung cấp. Đặt base URL là https://api.orcarouter.ai/v1 và ID mô hình là “z-ai/glm-5.2”. Endpoint chat‑completion tiêu chuẩn (/v1/chat/completions) chấp nhận payload JSON với các tham số messages, max_tokens, temperature và các tham số khác. Xác thực thông qua khóa API mà bạn nhận được từ OrcaRouter. Ví dụ: curl https://api.orcarouter.ai/v1/chat/completions -H "Authorization: Bearer YOUR_KEY" -d '{"model":"z-ai/glm-5.2","messages":[{"role":"user","content":"Tóm tắt tài liệu này."}],"max_tokens":1000}'
API hỗ trợ các tham số điển hình của endpoint tương thích OpenAI: model (bắt buộc), messages (mảng các đối tượng tin nhắn với role và content), max_tokens (số nguyên lên tới 128000), temperature (float), top_p, frequency_penalty, presence_penalty, stop, stream (boolean), và các tham số khác. Vì model chỉ hỗ trợ văn bản, content phải là một chuỗi. Giới hạn cửa sổ ngữ cảnh 1 triệu token áp dụng cho tổng số tất cả các tin nhắn trong yêu cầu cộng với đầu ra được tạo. Vượt quá giới hạn sẽ trả về lỗi.
Có, API hỗ trợ streaming thông qua tham số `stream`. Khi được đặt thành `true`, phản hồi sẽ được gửi dưới dạng một chuỗi các server‑sent events (SSE), mỗi sự kiện chứa một phần kết quả sinh ra. Điều này hữu ích để hiển thị kết quả trung gian cho người dùng. Streaming hoạt động giống hệt với định dạng streaming của OpenAI. Lưu ý rằng ngay cả khi sử dụng streaming, toàn bộ đầu ra vẫn được tính vào mức sử dụng token của bạn theo tỷ giá của nhà cung cấp.
Để chuyển từ nhà cung cấp API khác sang OrcaRouter cho GLM 5.2, bạn chỉ cần thay đổi URL cơ sở và tên mô hình. Nếu bạn đang sử dụng thư viện client của OpenAI, hãy thay thế URL cơ sở bằng https://api.orcarouter.ai/v1 và đặt mô hình thành “z-ai/glm-5.2”. Định dạng JSON tương tự cho các thông điệp và tham số vẫn hoạt động. Đảm bảo khóa API của bạn đến từ OrcaRouter. Không cần thay đổi mã nguồn nào ngoài điểm cuối.
GLM 5.2 cung cấp cửa sổ ngữ cảnh 1M‑token, một trong những mức lớn nhất hiện có. Nhiều đối thủ cạnh tranh chỉ giới hạn ở 128k hoặc 200k token. Giới hạn đầu ra 128k token của nó cũng cao hơn thông thường. Tuy nhiên, nó chỉ hỗ trợ văn bản, trong khi một số đối thủ hỗ trợ hình ảnh hoặc âm thanh. Mức giá $1.40/$4.40 mỗi triệu token là vừa phải cho một cửa sổ lớn như vậy; một số đối thủ tính phí cao hơn. Nếu không có dữ liệu chuẩn (benchmark), không thể so sánh chất lượng trực tiếp.
Chỉ chọn GLM 5.2 khi ứng dụng của bạn thực sự cần cửa sổ ngữ cảnh triệu token. Nếu prompt và đầu ra dự kiến của bạn nằm trong 32k hoặc 128k token, một mô hình ít tốn kém hơn (ví dụ, mô hình có giá $0.15 mỗi triệu token đầu vào) sẽ rẻ hơn nhiều và thường nhanh hơn. Lợi thế của GLM 5.2 là loại bỏ nhu cầu phải chia nhỏ văn bản dài, giúp tiết kiệm thời gian kỹ thuật và giữ nguyên ngữ cảnh tham chiếu chéo.
Nhiều mô hình chất lượng cao (ví dụ: những mô hình có cửa sổ 128k token) có thể sánh ngang hiệu suất của GLM 5.2 trong các tác vụ điển hình, nhưng chúng không thể xử lý các tài liệu dài hơn cửa sổ của mình. Đối với các tác vụ vừa vặn trong một ngữ cảnh nhỏ hơn, các mô hình như vậy thường nhanh hơn và tiết kiệm chi phí hơn. Thế mạnh của GLM 5.2 là khả năng xử lý các đầu vào cực kỳ dài trong một lần, điều này rất cần thiết cho các trường hợp sử dụng như phân tích toàn bộ sách, tóm tắt toàn bộ cơ sở mã, hoặc các cuộc hội thoại rất dài.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="z-ai/glm-5.2",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Đầu vào / 1M tokens | $1.40 |
| Đầu ra / 1M tokens | $4.40 |
| Đọc cache / 1M | $0.260 |
| Tiền tệ | USD |