Google Gemini 3.1 Pro Preview Custom Tools – 1M ngữ cảnh, 95.6 τ²-Bench, đa phương thức qua OrcaRouter.
Google Gemini 3.1 Pro Preview Custom Tools là một mô hình ngôn ngữ lớn ở giai đoạn xem trước do Google phát triển. Mô hình này được thiết kế cho các tác vụ yêu cầu suy luận dài hạn, ngữ cảnh lớn, và tích hợp với các công cụ bên ngoài. Mô hình chấp nhận đầu vào ở các định dạng văn bản, âm thanh, hình ảnh, video và tệp tin, biến nó thành một giải pháp đa phương thức cho cả hiểu và sinh nội dung. Thông qua OrcaRouter, bạn có thể gọi mô hình bằng API tương thích với OpenAI tại base URL https://api.orcarouter.ai/v1 với ID mô hình là "google/gemini-3.1-pro-preview-customtools". Tính tương thích này giúp đơn giản hóa việc tích hợp cho các nhóm đã quen thuộc với OpenAI SDK hoặc các client tương tự. Là một mô hình xem trước, nó có thể có những hạn chế về khả năng sẵn sàng hoặc hiệu suất so với các bản phát hành ổn định.
Mô hình này phù hợp cho các nhà phát triển, nhà khoa học dữ liệu và nhóm doanh nghiệp cần xử lý các tài liệu rất dài (lên đến 1 triệu token) hoặc kết hợp nhiều phương thức đầu vào (văn bản, âm thanh, hình ảnh, video, tệp) trong một bước suy luận duy nhất. Nó đặc biệt hữu ích cho các tác vụ liên quan đến việc sử dụng công cụ tùy chỉnh—nơi mô hình phải quyết định khi nào và cách gọi các hàm hoặc API bên ngoài. Các nhóm làm việc trong lĩnh vực nghiên cứu, phân tích pháp lý, xử lý phương tiện truyền thông hoặc tự động hóa tiên tiến sẽ thấy ngữ cảnh lớn và hiệu suất benchmark mạnh mẽ hữu ích. Vì đây là bản xem trước, nó có thể lý tưởng cho việc tạo mẫu thử nghiệm và đánh giá hơn là các hệ thống sản xuất yêu cầu thời gian hoạt động hoặc độ trễ được đảm bảo.
Mô hình cung cấp cửa sổ ngữ cảnh 1,048,576 token và đầu ra tối đa 65,536 token. Các phương thức đầu vào bao gồm văn bản, âm thanh, hình ảnh, video và tải lên tệp. Điểm chuẩn chính là 95.6 trên τ²-Bench, một bài kiểm tra về lý luận sử dụng công cụ. Giá là $4.00 cho 1M token đầu vào và $18.00 cho 1M token đầu ra, không tính phí chênh lệch khi truy cập qua OrcaRouter. API tương thích với OpenAI, và ID mô hình là "google/gemini-3.1-pro-preview-customtools". Là bản xem trước, nó phản ánh các khả năng mới nhất nhưng có thể thay đổi.
Gemini 3.1 Pro Preview Custom Tools chấp nhận đầu vào ở các định dạng văn bản, âm thanh, hình ảnh, video và tập tin. Điều này cho phép bạn đưa các bản ghi âm, ảnh chụp, đoạn video và tài liệu đã tải lên cùng với lời nhắc văn bản trong một yêu cầu duy nhất. Mô hình có thể suy luận qua các phương thức này để tạo ra đầu ra văn bản. Khả năng đa phương thức này giúp bạn có thể mô tả một hình ảnh và đặt câu hỏi về nó, phiên âm âm thanh trong khi thực hiện phân tích, hoặc kết hợp video với một hướng dẫn văn bản. Các giới hạn chính xác về độ phân giải, codec hoặc kích thước tập tin không được cung cấp trong các dữ kiện có sẵn, nhưng mô hình có thể xử lý trực tiếp các nội dung đa phương tiện đa dạng.
Danh hiệu "Công cụ Tùy chỉnh" có nghĩa là mô hình được tối ưu hóa để gọi các hàm do người dùng định nghĩa hoặc API như một phần trong quá trình suy luận của nó. Trong một quy trình làm việc điển hình, bạn cung cấp một tập hợp các định nghĩa hàm (bao gồm tên, tham số và mô tả), và mô hình sẽ quyết định khi nào gọi chúng để đáp ứng yêu cầu. Khả năng này cho phép các quy trình làm việc tự động như truy vấn cơ sở dữ liệu, gửi email hoặc thực thi một đoạn mã. Mô hình có thể kết nối nhiều lệnh gọi công cụ với nhau. Điểm τ²-Bench cao (95,6) cho thấy hiệu suất mạnh mẽ trong các tác vụ yêu cầu lập kế hoạch và điều phối công cụ.
Mô hình hỗ trợ cửa sổ ngữ cảnh lên tới 1.048.576 token (tương đương khoảng 1 triệu token). Điều này cho phép bạn truyền vào toàn bộ sách, kho mã nguồn dài, các cuộc hội thoại nhiều lượt hoặc nhật ký mở rộng làm ngữ cảnh. Số lượng đầu ra tối đa là 65.536 token cho mỗi yêu cầu. Các kích thước này nằm trong số lớn nhất hiện có trong bối cảnh các mô hình hiện tại. Ngữ cảnh lớn hữu ích cho các tác vụ như tóm tắt toàn bộ bản ghi, trả lời câu hỏi trên một bộ tài liệu lớn hoặc duy trì lịch sử hội thoại rất dài mà không bị cắt bớt.
Vì Gemini 3.1 Pro Preview Custom Tools có giá $4,00 cho mỗi 1M token đầu vào và $18,00 cho mỗi 1M token đầu ra, đây là một dịch vụ cao cấp. Đối với các tác vụ đơn giản hơn—như phân loại văn bản ngắn, tóm tắt cơ bản, hoặc trò chuyện một lượt—một mô hình nhỏ hơn, rẻ hơn có thể tiết kiệm chi phí hơn. Hãy cân nhắc các lựa chọn thay thế từ OrcaRouter như Gemini 1.5 Flash (chi phí thấp hơn, độ trễ thấp hơn) hoặc các mô hình nhẹ khác nếu bạn không cần cửa sổ ngữ cảnh 1M, đầu vào đa phương thức, hoặc hiệu suất điểm chuẩn sử dụng công cụ. Sử dụng mô hình này khi độ phức tạp của tác vụ biện minh cho chi phí cao hơn mỗi token.
Mô hình đạt điểm số 95.6 trên τ²-Bench (τ²-Bench). Chuẩn đánh giá này đo lường khả năng suy luận sử dụng công cụ của mô hình: lập kế hoạch và thực thi các chuỗi lệnh gọi hàm để hoàn thành một tác vụ thực tế. Điểm số cao này cho thấy năng lực mạnh mẽ trong việc tự động hoàn thành tác vụ và ra quyết định. τ²-Bench là một chuẩn đánh giá mới hơn, tập trung vào độ phức tạp của các tình huống thực tế. Điểm 95.6 được coi là rất cao, mặc dù bạn cần lưu ý rằng không có một chuẩn đánh giá đơn lẻ nào có thể nắm bắt toàn bộ các khía cạnh chất lượng của mô hình. Mô hình có thể có hiệu suất khác trên các chuẩn đánh giá khác không được liệt kê ở đây.
Dựa trên kết quả τ²-Bench, mô hình này vượt trội trong các tác vụ yêu cầu lập luận có cấu trúc và điều phối công cụ, bao gồm truy xuất đa bước, chuyển đổi dữ liệu và gọi API. Cửa sổ ngữ cảnh lớn cũng cho phép nó xử lý các hướng dẫn rất dài hoặc dữ liệu bên ngoài mà không mất mạch lạc. Khả năng đầu vào đa phương thức là một điểm mạnh khác, giúp mô hình có thể lập luận qua nhiều loại phương tiện khác nhau. Đối với các trường hợp sử dụng như phân tích một đoạn video và trả lời câu hỏi về nó, hoặc xử lý tệp âm thanh kèm theo truy vấn văn bản, mô hình này có lợi thế hơn so với các giải pháp chỉ xử lý văn bản.
Không có benchmark hay mô hình nào là hoàn hảo. Điểm τ²-Bench 95.6 không đảm bảo hiệu suất tương tự trên mọi tác vụ thực tế, đặc biệt là những tác vụ nằm ngoài phạm vi của benchmark. Mô hình có thể hoạt động kém hơn trên các tác vụ yêu cầu kiến thức chuyên ngành rất cụ thể hoặc trên các đánh giá hướng đến an toàn không được τ²-Bench bao phủ. Là một mô hình xem trước, nó có thể có độ trễ cao hơn hoặc độ tin cậy thấp hơn so với mô hình được phát hành chính thức. Các thông tin sẵn có không bao gồm số liệu về độ trễ, vì vậy bạn nên tự kiểm tra với khối lượng công việc của mình. Ngoài ra, cửa sổ ngữ cảnh lớn có thể làm tăng thời gian xử lý và chi phí, và không phải tác vụ nào cũng tận dụng được toàn bộ dung lượng triệu token.
Các con số về độ trễ chính xác không được cung cấp trong các dữ liệu có sẵn cho Gemini 3.1 Pro Preview Custom Tools. Nhìn chung, các mô hình có cửa sổ ngữ cảnh rất lớn (trên 1M token) có thể mất nhiều thời gian hơn để xử lý các yêu cầu, đặc biệt là những yêu cầu sử dụng toàn bộ ngữ cảnh. Độ trễ cũng phụ thuộc vào độ phức tạp của yêu cầu, số lượng lệnh gọi công cụ và tải máy chủ hiện tại. OrcaRouter có thể cung cấp các phản hồi dạng luồng để giảm thời gian đến token đầu tiên. Đối với các ứng dụng thời gian thực, bạn có thể muốn so sánh hiệu suất với các mô hình nhỏ hơn. Hãy cân nhắc chạy các bài kiểm tra độ trễ của riêng bạn với các lời nhắc điển hình để xác định xem tốc độ có đáp ứng yêu cầu của bạn hay không.
Giá cho Gemini 3.1 Pro Preview Custom Tools là $4.00 cho mỗi 1 triệu token đầu vào và $18.00 cho mỗi 1 triệu token đầu ra. Các mức giá này được tính theo tỷ lệ của nhà cung cấp với mức chênh lệch bằng 0 khi truy cập qua OrcaRouter. Điều đó có nghĩa là mức giá bạn thấy là mức giá Google tính, không có thêm phí từ OrcaRouter. Token đầu vào bao gồm tất cả các token trong lời nhắc (token văn bản, token hình ảnh, token âm thanh, v.v.). Token đầu ra là phản hồi được tạo ra. Đầu ra tối đa của mô hình là 65,536 token, vì vậy một yêu cầu đơn lẻ có thể tốn tới 65,536 / 1,000,000 * 18.00 = khoảng $1.18 cho token đầu ra, cộng với chi phí token đầu vào.
"Zero markup" nghĩa là OrcaRouter chuyển tiếp chính xác chi phí mỗi token từ nhà cung cấp (Google) đến bạn, mà không thêm bất kỳ khoản phụ phí nào. Bạn trả $4.00 cho mỗi 1 triệu token đầu vào và $18.00 cho mỗi 1 triệu token đầu ra—mức giá giống như khi bạn gọi trực tiếp API của Google. OrcaRouter có thể có phí đăng ký hoặc phí sử dụng riêng cho dịch vụ gateway, nhưng giá mỗi token của mô hình không bị thổi phồng. Cấu trúc giá này minh bạch và giúp bạn lập ngân sách chính xác. Luôn kiểm tra các điều khoản hiện tại của OrcaRouter để biết bất kỳ khoản phí bổ sung nào.
Chi phí cao cho mỗi token đồng nghĩa với việc bạn cần ước lượng kỹ lưỡng mức độ sử dụng. Đối với các prompt sử dụng toàn bộ cửa sổ ngữ cảnh 1M, chi phí đầu vào có thể lên tới $4.00 cho mỗi yêu cầu. Nếu tác vụ của bạn có thể hoàn thành với ngữ cảnh nhỏ hơn, hãy cân nhắc việc cắt bớt hoặc sử dụng một mô hình rẻ hơn. Tính năng caching không được đề cập trong các dữ kiện hiện có; nếu OrcaRouter cung cấp prompt caching, nó có thể giảm chi phí cho các đầu vào lặp lại. Ngoài ra, vì mô hình này đang trong giai đoạn xem trước, mức giá có thể thay đổi khi phiên bản ổn định được phát hành. Hãy đánh giá số lượng token điển hình trong khối lượng công việc của bạn để quyết định xem chi phí có hợp lý hay không.
Bạn truy cập mô hình thông qua API tương thích OpenAI của OrcaRouter. Đặt base URL của bạn thành `https://api.orcarouter.ai/v1` và sử dụng model ID `google/gemini-3.1-pro-preview-customtools`. API chấp nhận các định dạng yêu cầu theo phong cách OpenAI tiêu chuẩn. Một ví dụ sử dụng thư viện openai của Python: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` Bạn cần một khóa API OrcaRouter hợp lệ. Xác thực thông qua header `Authorization`.
Vì API tương thích với OpenAI, bạn có thể sử dụng các tham số chuẩn như `temperature`, `top_p`, `max_tokens`, `stop`, `frequency_penalty`, `presence_penalty` và `stream`. Đối với các yêu cầu đa phương thức, bạn có thể bao gồm hình ảnh, âm thanh, video hoặc tệp trong nội dung tin nhắn bằng cách sử dụng định dạng mảng. Đối với việc sử dụng công cụ, hãy định nghĩa các hàm trong tham số `tools` dưới dạng danh sách các đối tượng JSON. Mô hình có thể trả về `tool_calls` trong phản hồi. Các tham số riêng của API Google (như `safetySettings`) có thể có hoặc không; hãy tham khảo tài liệu của OrcaRouter để biết chi tiết. Hỗ trợ tham số chính xác có thể khác nhau đối với các mô hình xem trước.
Việc di chuyển từ API OpenAI tiêu chuẩn rất đơn giản. Thay đổi `base_url` thành `https://api.orcarouter.ai/v1` và cập nhật tham số `model` thành `google/gemini-3.1-pro-preview-customtools`. Thay thế khóa API của bạn bằng khóa OrcaRouter. Hầu hết mã sử dụng `openai.ChatCompletion.create` hoặc `client.chat.completions.create` mới hơn sẽ hoạt động với những thay đổi tối thiểu. Nếu bạn sử dụng các cuộc gọi công cụ, định dạng giống hệt với của OpenAI. Tuy nhiên, lưu ý rằng mô hình này có bộ token hóa khác và có thể tạo ra đầu ra khác cho cùng một lời nhắc. Hãy kiểm tra kỹ lưỡng trước khi chuyển đổi.
OrcaRouter sử dụng xác thực bằng API key. Bao gồm khóa của bạn trong header yêu cầu dưới dạng `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`. Bạn có được khóa bằng cách đăng ký OrcaRouter. Khóa này cần được giữ bí mật và không được tiết lộ trong mã phía máy khách. Phương thức xác thực chính xác có thể thay đổi; luôn tham khảo tài liệu API hiện tại của OrcaRouter. Một số điểm cuối có thể hỗ trợ các phương thức xác thực bổ sung, nhưng điểm cuối tương thích OpenAI sử dụng mẫu token bearer tiêu chuẩn. Hãy đảm bảo các yêu cầu của bạn được gửi qua HTTPS.
Gemini 1.5 Pro cũng hỗ trợ cửa sổ ngữ cảnh 1M token và đầu vào đa phương thức, nhưng bản Preview Gemini 3.1 Pro với Custom Tools đã đạt điểm τ²-Bench là 95,6, một cải tiến đáng kể so với dòng 1.5 (số liệu chính xác cho 1.5 không được cung cấp). Tối ưu hóa "Custom Tools" là điểm khác biệt chính, cho thấy hiệu suất tốt hơn trên các tác vụ sử dụng công cụ. Định giá cho mô hình Preview cao hơn: Gemini 1.5 Pro thường rẻ hơn. Nếu bạn không cần hiệu suất sử dụng công cụ mới nhất, Gemini 1.5 Pro có thể là lựa chọn hiệu quả hơn về chi phí. Vì Gemini 3.1 Pro là bản Preview, nó có thể có độ ổn định hoặc thời gian hoạt động được đảm bảo thấp hơn so với 1.5 Pro ổn định.
GPT‑4o cũng hỗ trợ đầu vào đa phương thức và sử dụng công cụ, nhưng cửa sổ ngữ cảnh của nó thường là 128k token—nhỏ hơn nhiều so với 1M token của mô hình này. Điểm τ²-Bench cho GPT‑4o không được cung cấp trong các dữ kiện có sẵn, vì vậy không thể so sánh trực tiếp. Nhìn chung, Gemini 3.1 Pro Preview Custom Tools cung cấp cửa sổ ngữ cảnh lớn hơn đáng kể, giúp nó phù hợp hơn cho các tác vụ với tài liệu dài. GPT‑4o có thể có hiệu suất tốt hơn trên một số điểm chuẩn ngôn ngữ nhất định hoặc hỗ trợ hệ sinh thái rộng hơn. Giá của GPT‑4o cũng khác; hãy so sánh chi phí trên mỗi token, nhưng lưu ý rằng chi phí đầu ra của mô hình này ($18/M) tương đối cao.
Claude 3 Opus hỗ trợ cửa sổ ngữ cảnh 200k token, ít hơn nhiều so với 1M của Gemini 3.1 Pro Preview. Các benchmark như τ²-Bench thường không được báo cáo cho Claude, vì vậy việc so sánh trực tiếp chỉ mang tính suy đoán. Claude nổi tiếng về khả năng suy luận mạnh mẽ và tuân theo hướng dẫn. Việc lựa chọn giữa chúng phụ thuộc vào nhu cầu của bạn về ngữ cảnh 1M và đầu vào đa phương thức so với các thế mạnh cụ thể về an toàn, phong cách viết, hoặc hệ sinh thái. Nếu trường hợp sử dụng của bạn yêu cầu xử lý các tài liệu rất lớn hoặc nhiều loại phương tiện, thì ngữ cảnh lớn hơn và hỗ trợ đa phương thức của mô hình Gemini là lợi thế. Chi phí và khả năng cung cấp thông qua OrcaRouter cũng là các yếu tố cần cân nhắc.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Đầu vào / 1M tokens | $4.00 |
| Đầu ra / 1M tokens | $18.00 |
| Đọc cache / 1M | $0.400 |
| Tiền tệ | USD |