Google Gemini 3.1 Pro Preview: mô hình đa phương thức chủ lực với cửa sổ ngữ cảnh 1M và điểm số τ²-Bench 95.6, truy cập qua OrcaRouter API.
Google Gemini 3.1 Pro Preview là một mô hình chủ lực của Google, được cung cấp dưới dạng xem trước. Đây là một mô hình đa phương thức có khả năng xử lý đầu vào văn bản, hình ảnh, video, âm thanh và tệp. Mô hình được phân loại ở cấp độ chủ lực, cho thấy nó được thiết kế cho các ứng dụng phức tạp, có nhu cầu cao, nơi hiệu suất và dung lượng là rất quan trọng. Là một bản xem trước, nó có thể có những hạn chế về độ ổn định hoặc khả năng sẵn có so với các bản phát hành ổn định. Quyền truy cập được cung cấp thông qua OrcaRouter API.
Mô hình này được thiết kế dành cho các nhà phát triển và doanh nghiệp cần xử lý các cửa sổ ngữ cảnh lớn lên đến 1.048.576 token và yêu cầu khả năng hiểu đa phương thức. Các trường hợp sử dụng bao gồm phân tích tài liệu dài, kiểm duyệt video, chatbot nâng cao có khả năng ghi nhớ toàn bộ cuộc hội thoại và trích xuất dữ liệu phức tạp từ nội dung hỗn hợp. Trạng thái xem trước khiến mô hình phù hợp cho việc thử nghiệm và tích hợp sớm, nhưng triển khai sản xuất cần đánh giá độ ổn định. Mô hình cũng lý tưởng cho các nhóm đã sử dụng API tương thích OpenAI của OrcaRouter muốn thử nghiệm các khả năng hàng đầu mới nhất của Google.
Mô hình hỗ trợ cửa sổ ngữ cảnh 1,048,576 token (đầu vào) và tối đa đầu ra 65,536 token. Nó chấp nhận đầu vào đa phương thức: âm thanh, tệp (ví dụ: PDF, tệp mã nguồn), hình ảnh, văn bản và video. Điểm chuẩn chính là 95.6 trên τ²-Bench, một chỉ số đo lường hiệu suất hoàn thành tác vụ. Mô hình được nhà cung cấp Google phân loại là cấp độ hàng đầu. Nó được truy cập qua API của OrcaRouter tại base URL https://api.orcarouter.ai/v1 với model ID "google/gemini-3.1-pro-preview".
Là một phiên bản xem trước của Gemini 3.1 Pro, mô hình này đứng đầu trong số các bản phát hành xem trước hiện tại của Google. Nó cung cấp cửa sổ ngữ cảnh lớn hơn đáng kể (1M token) và giới hạn đầu ra cao hơn (65K token) so với các mô hình Gemini 2.0 trước đây hoặc các bản xem trước Gemini 3.0. Điểm τ²-Bench 95.6 cung cấp một chuẩn định lượng cho hiệu suất hướng nhiệm vụ. So với các mô hình xem trước khác của Google, mô hình này nhắm đến các trường hợp sử dụng đòi hỏi khắt khe nhất, nơi cần cả bề rộng ngữ cảnh lẫn chiều sâu suy luận.
Gemini 3.1 Pro Preview là đa phương thức và có thể xử lý đầu vào là âm thanh, tệp tin (bao gồm tài liệu, mã nguồn và bảng tính), hình ảnh, văn bản và video. Điều này cho phép nó suy luận qua các loại dữ liệu khác nhau trong một cuộc hội thoại duy nhất. Ví dụ: bạn có thể tải lên một hình ảnh kèm theo lời nhắc văn bản hỏi về nội dung của nó, hoặc phân tích một video cùng với bản ghi chép. Phương thức nhập tệp hỗ trợ dữ liệu có cấu trúc và phi cấu trúc, giúp nó hữu ích cho các tác vụ phân tích tài liệu và trích xuất dữ liệu.
Mô hình hỗ trợ cửa sổ ngữ cảnh lên đến 1,048,576 token cho đầu vào. Đây là một trong những cửa sổ ngữ cảnh lớn nhất hiện có trong một mô hình hàng đầu. Nó cho phép xử lý các tài liệu rất dài, toàn bộ mã nguồn, hoặc hàng giờ ghi chép video trong một yêu cầu duy nhất. Khi kết hợp với giới hạn đầu ra 65,536 token, nó cho phép tạo ra các báo cáo, tóm tắt, hoặc chuỗi suy luận nhiều bước một cách mở rộng mà không cần phân trang hoặc chia nhỏ đầu vào.
Các trường hợp sử dụng lý tưởng bao gồm tóm tắt tài liệu dài, tác nhân hội thoại đa lượt có khả năng ghi nhớ toàn bộ lịch sử người dùng, phân tích nội dung video, trích xuất dữ liệu phức tạp từ các phương tiện hỗn hợp, và các tác vụ tác nhân đòi hỏi độ chính xác cao (thể hiện qua điểm số τ²-Bench). Mô hình này cũng vượt trội trong các tác vụ kết hợp nhiều loại đầu vào, chẳng hạn như phân tích biểu đồ trong hình ảnh trong khi đọc một đoạn văn bản liên quan. Đối với các tác vụ đơn giản hơn, một mô hình rẻ hơn có thể hiệu quả hơn về chi phí, nhưng chi phí cho ngữ cảnh lớn là hợp lý cho các ứng dụng phức tạp.
Đối với các tác vụ chỉ yêu cầu tạo văn bản ngắn, phân loại đơn giản hoặc phản hồi có độ trễ thấp, một mô hình nhỏ hơn hoặc không phải flagship có thể phù hợp hơn. Bản xem trước Gemini 3.1 Pro với cửa sổ ngữ cảnh lớn và khả năng đa phương thức đi kèm chi phí tính toán cao hơn cho mỗi yêu cầu. Nếu trường hợp sử dụng của bạn không cần toàn bộ ngữ cảnh 1 triệu token hoặc đầu ra 65K token, hãy cân nhắc sử dụng mô hình nhẹ hơn có sẵn qua OrcaRouter, chẳng hạn như Gemini 2.0 Flash hoặc các lựa chọn thay thế hiệu quả về chi phí khác. Luôn đánh giá sự đánh đổi giữa chi phí và hiệu suất dựa trên mức sử dụng token đầu vào và đầu ra trung bình của bạn.
Mô hình đã đạt được số điểm 95.6 trên τ²-Bench. τ²-Bench là một benchmark đánh giá hiệu suất hoàn thành nhiệm vụ trên nhiều tác vụ đòi hỏi năng lực tác nhân, suy luận và lập kế hoạch. Số điểm 95.6 cho thấy độ chính xác cao trong việc hoàn thành các nhiệm vụ như vậy. Mặc dù thành phần chính xác của τ²-Bench không được cung cấp, nhưng số điểm này đưa mô hình vào vị trí một tác nhân mạnh mẽ cho các thách thức ra quyết định có cấu trúc và suy luận đa bước. Nó đóng vai trò là một chỉ số định lượng về khả năng của mô hình so với các mô hình lớn khác.
Chi tiết về độ trễ của Gemini 3.1 Pro Preview không được cung cấp trong các dữ kiện hiện có. Tuy nhiên, với tư cách là mô hình hàng đầu và ngữ cảnh lớn (1M token) cùng giới hạn đầu ra (65K token), thời gian phản hồi sẽ thay đổi tùy theo độ dài đầu vào, yêu cầu đầu ra và tải máy chủ. Xử lý các đầu vào rất dài hoặc tạo đầu ra lớn sẽ mất nhiều thời gian hơn so với các mô hình nhỏ hơn. Đối với các ứng dụng thời gian thực, hãy cân nhắc sử dụng mô hình nhanh hơn. API của OrcaRouter không cung cấp các cam kết về độ trễ cụ thể cho mô hình xem trước này.
Các điểm mạnh của mô hình, được suy luận từ thông số kỹ thuật, bao gồm dung lượng ngữ cảnh rất lớn (1.048.576 token), giới hạn token đầu ra cao (65.536 token), hỗ trợ đầu vào đa phương thức và điểm τ²-Bench mạnh mẽ (95,6). Những tính năng này giúp mô hình phù hợp với các tác vụ phức tạp yêu cầu suy luận trên ngữ cảnh dài và nhiều loại dữ liệu. Trạng thái xem trước có thể cho phép truy cập sớm vào các khả năng nâng cao trước khi phát hành ổn định. Việc phân loại cấp cao nhất cho thấy mô hình được thiết kế cho các ứng dụng có nhu cầu cao.
Là một mô hình xem trước, Gemini 3.1 Pro Preview có thể không có cùng mức độ ổn định, khả dụng hoặc hỗ trợ như một bản phát hành ổn định. Nó có thể trải qua các thay đổi hoặc ngừng hoạt động mà không báo trước. Không có số liệu về độ trễ hoặc thông lượng cụ thể nào được đưa ra, vì vậy hiệu suất khi chịu tải là không xác định. Điểm benchmark trên τ²-Bench là một chỉ số duy nhất và có thể không phản ánh hiệu suất trên tất cả các tác vụ. Ngoài ra, cửa sổ ngữ cảnh lớn có thể làm tăng chi phí và thời gian phản hồi. Người dùng nên kiểm tra kỹ lưỡng trước khi sử dụng trong sản xuất.
Thông tin chi tiết về giá cho Gemini 3.1 Pro Preview không được cung cấp trong các dữ kiện hiện có. Là một mô hình chủ lực, nó thường có giá cao hơn so với các biến thể nhỏ hơn hoặc không phải chủ lực, với chi phí thường dựa trên số lượng token đầu vào và đầu ra. Cửa sổ ngữ cảnh lớn (1M token) và giới hạn đầu ra (65K token) có thể dẫn đến việc sử dụng token đáng kể cho mỗi yêu cầu. OrcaRouter có thể áp dụng định giá theo token cho cả đầu vào và đầu ra, với khả năng có phụ phí cho đầu vào đa phương thức. Người dùng nên tham khảo trang giá của OrcaRouter để biết mức giá hiện tại.
Khi sử dụng Gemini 3.1 Pro Preview, yếu tố chi phí lớn nhất là mức tiêu thụ token. Một yêu cầu duy nhất sử dụng toàn bộ ngữ cảnh 1M token sẽ phát sinh chi phí token đầu vào cao. Tương tự, việc tạo ra tới 65K token đầu ra sẽ làm tăng chi phí đầu ra. Đối với các trường hợp sử dụng không yêu cầu toàn bộ ngữ cảnh hoặc đầu ra, người dùng có thể giảm chi phí bằng cách cắt bớt đầu vào hoặc đặt max_tokens thấp hơn. Caching (nếu được OrcaRouter hỗ trợ) có thể giảm chi phí đầu vào dư thừa, nhưng không có thông tin chi tiết về caching nào được cung cấp. Đánh giá các mẫu sử dụng trung bình để quyết định xem một mô hình rẻ hơn có tiết kiệm hơn hay không.
Các dữ liệu hiện có không xác định liệu OrcaRouter có hỗ trợ caching cho Gemini 3.1 Pro Preview hay không. Nhiều nhà cung cấp API cung cấp caching token cho các tiền tố đầu vào lặp lại, giúp giảm chi phí và cải thiện độ trễ. Nếu có caching, nó sẽ có lợi cho các trường hợp sử dụng có các hướng dẫn hoặc system prompts lặp lại thường xuyên. Người dùng nên kiểm tra tài liệu của OrcaRouter để biết hỗ trợ caching. Trong trường hợp không có caching, toàn bộ chi phí của input tokens sẽ phải chịu trên mỗi yêu cầu.
Không có so sánh giá cụ thể nào được cung cấp. Nhìn chung, các mẫu flagship đắt hơn trên mỗi token so với các mẫu nhỏ hơn. Gemini 3.1 Pro Preview, là một bản xem trước flagship, có khả năng có chi phí trên mỗi token cao hơn so với Gemini 2.0 Flash hoặc Gemini 2.0 Pro. Tuy nhiên, vì đây là bản xem trước, giá có thể mang tính khuyến mãi hoặc có thể thay đổi. Người dùng nên so sánh giá niêm yết của OrcaRouter cho từng mẫu Google để xác định lựa chọn hiệu quả nhất về chi phí cho khối lượng công việc của mình.
Để sử dụng Gemini 3.1 Pro Preview trên OrcaRouter, hãy gửi yêu cầu đến điểm cuối API tương thích OpenAI tại https://api.orcarouter.ai/v1/chat/completions. Đặt tham số model thành "google/gemini-3.1-pro-preview". API chấp nhận các tham số tiêu chuẩn như messages, max_tokens, temperature và top_p. Đối với đầu vào đa phương thức, hãy sử dụng mảng content với type phù hợp (text, image_url, v.v.). Mã ví dụ và SDK có sẵn trong tài liệu của OrcaRouter.
Bạn có thể cấu hình số token đầu ra tối đa lên đến 65.536 bằng tham số max_tokens. Mô hình hỗ trợ temperature, top_p và các tham số lấy mẫu phổ biến khác. Đối với đầu vào đa phương thức, hãy chỉ định loại nội dung trong mảng messages. Cửa sổ ngữ cảnh gồm 1.048.576 token áp dụng cho tất cả token đầu vào kết hợp. Tất cả các tham số tuân theo đặc tả hoàn thiện chat của OpenAI. Tham khảo tài liệu tham khảo API của OrcaRouter để biết các giới hạn hoặc tham số bổ sung dành riêng cho từng mô hình.
Việc chuyển sang OrcaRouter rất đơn giản vì nó sử dụng API tương thích với OpenAI. Chỉ cần thay đổi URL gốc thành https://api.orcarouter.ai/v1 và cập nhật ID mô hình thành "google/gemini-3.1-pro-preview". Các phương thức xác thực (API key) cũng tương tự. Nếu bạn đang sử dụng một mô hình Google khác, bạn có thể cần điều chỉnh cho phù hợp với các khả năng khác nhau (ví dụ: kích thước cửa sổ ngữ cảnh, xử lý đa phương thức). Hãy kiểm tra với các yêu cầu mẫu để đảm bảo tương thích. Tài liệu hướng dẫn của OrcaRouter cung cấp các hướng dẫn di chuyển cho các thiết lập phổ biến.
Là một mô hình xem trước, Gemini 3.1 Pro Preview có thể có giới hạn tốc độ thấp hơn, độ tin cậy kém hơn hoặc có thể thay đổi mà không cần thông báo. Nó được thiết kế để thử nghiệm và đánh giá. Nếu bạn cần một mô hình sản xuất ổn định, hãy cân nhắc sử dụng một mô hình không xem trước. API có thể trả về phản hồi nhanh hơn hoặc chậm hơn tùy thuộc vào tải. Theo dõi hiệu suất và có một mô hình dự phòng. OrcaRouter có thể cập nhật ID mô hình hoặc ngừng các phiên bản xem trước; hãy lên kế hoạch phù hợp.
So với các mô hình Google đời cũ như Gemini 2.0 Pro, bản xem trước này cung cấp dung lượng ngữ cảnh lớn hơn đáng kể (1M so với 32K token) và giới hạn đầu ra cao hơn (65K so với 8K token). Mô hình cũng hỗ trợ thêm các phương thức đầu vào như video và tệp tin một cách tích hợp hơn. Điểm τ²-Bench 95.6 là riêng cho mô hình này và cho thấy hiệu suất tác vụ mạnh mẽ. Tuy nhiên, vì là bản xem trước, mô hình có thể thiếu tính ổn định của các phiên bản ổn định Gemini 2.0 hay Gemini 3.0. Cấp độ flagship đặt mô hình này trên Gemini 2.0 Flash cả về năng lực lẫn chi phí.
Không có so sánh trực tiếp với các điểm chuẩn được cung cấp. Cửa sổ ngữ cảnh 1M token của mô hình này là một trong những cửa sổ lớn nhất hiện có, ngang bằng hoặc vượt trội so với nhiều đối thủ cạnh tranh. Hỗ trợ đầu vào đa phương thức của nó rộng (âm thanh, tệp, hình ảnh, văn bản, video). Điểm τ²-Bench 95.6 cung cấp một điểm so sánh cho các tác vụ tác nhân, nhưng nếu không có điểm của các mô hình khác trên cùng một điểm chuẩn, thì không thể so sánh đầy đủ. Người dùng nên đánh giá dựa trên các yêu cầu trường hợp sử dụng cụ thể của họ.
Chọn mô hình này khi tác vụ của bạn yêu cầu cửa sổ ngữ cảnh lớn nhất có thể (lên đến 1M token) và khả năng sinh đầu ra cao (lên đến 65K token). Đây cũng là lựa chọn tốt nhất khi bạn cần xử lý nhiều phương thức đầu vào – đặc biệt là tệp và video – trong một lần suy luận duy nhất. Điểm τ²-Bench cao cho thấy mô hình này vượt trội trong các tác vụ tác nhân phức tạp. Nếu bạn đã sử dụng OrcaRouter và muốn thử nghiệm các khả năng hàng đầu mới nhất của Google, bản xem trước này là một điểm khởi đầu tốt.
Hãy chọn một giải pháp thay thế nếu bạn cần một mô hình ổn định, đã được kiểm chứng trong sản xuất (vì đây là bản xem trước). Nếu trường hợp sử dụng của bạn có yêu cầu độ trễ thấp hoặc mức sử dụng token nhỏ, một mô hình rẻ hơn như Gemini 2.0 Flash hoặc mô hình không phải của Google sẽ tiết kiệm chi phí hơn. Ngoài ra, nếu tác vụ của bạn không yêu cầu ngữ cảnh 1 triệu token đầy đủ hoặc đầu vào đa phương thức, một mô hình nhỏ hơn có thể cung cấp phản hồi nhanh hơn và rẻ hơn. Hãy đánh giá sự đánh đổi giữa khả năng, chi phí và độ tin cậy cho ứng dụng cụ thể của bạn.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Bậc | Đầu vào / 1M tokens | Đầu ra / 1M tokens | Đọc cache / 1M | Ghi cache / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| Bậc được chọn theo số token đầu vào của mỗi yêu cầu | ||||