Google Gemini 3 Flash Preview – Mô hình đa phương thức với ngữ cảnh 1M token, 88.2 MMLU-Pro, có thể truy cập qua OrcaRouter.
Google Gemini 3 Flash Preview là mô hình đa phương thức do Google phát triển, được tối ưu hóa về tốc độ và khả năng xử lý ngữ cảnh lớn. Mô hình chấp nhận đầu vào ở các định dạng văn bản, hình ảnh, tệp, âm thanh và video, đồng thời có thể tạo ra tối đa 65.536 token đầu ra. Mô hình có cửa sổ ngữ cảnh lên tới 1.048.576 token, cho phép suy luận trên các chuỗi rất dài. Mô hình đạt 88,2 điểm trên điểm chuẩn MMLU-Pro, cho thấy hiệu suất mạnh mẽ trên nhiều tác vụ học thuật và suy luận. Phiên bản xem trước này có sẵn thông qua API tương thích với OpenAI của OrcaRouter với mã mô hình google/gemini-3-flash-preview.
Gemini 3 Flash Preview hướng đến các nhà phát triển và tổ chức đang xây dựng những ứng dụng yêu cầu suy luận đa phương thức nhanh với ngữ cảnh lớn. Mô hình này phù hợp cho các trường hợp sử dụng như phân tích video, tóm tắt tài liệu dài và hiểu âm thanh-hình ảnh theo thời gian thực. Mức giá của mô hình—$0.50 cho mỗi triệu token đầu vào và $3.00 cho mỗi triệu token đầu ra—giúp nó trở nên dễ tiếp cận với cả startup lẫn doanh nghiệp lớn. Vì đây là bản xem trước, những người dùng sớm có thể đánh giá khả năng của nó trước khi phiên bản ổn định được phát hành. OrcaRouter cung cấp khả năng truy cập liền mạch vào mô hình này, bao gồm các endpoint tương thích với OpenAI và không tính phí chênh lệch trên giá nhà cung cấp.
Gemini 3 Flash Preview hỗ trợ năm phương thức đầu vào: văn bản, hình ảnh, tệp tin, âm thanh và video. Văn bản có thể ở dạng thuần túy hoặc có cấu trúc; hình ảnh bao gồm ảnh chụp, sơ đồ và ảnh chụp màn hình; tệp tin bao gồm các định dạng như PDF và tài liệu; âm thanh bao gồm giọng nói và nhạc; video có thể được xử lý với cả luồng hình ảnh và âm thanh. Mô hình có thể kết hợp nhiều phương thức trong một câu lệnh duy nhất—ví dụ: phân tích video đồng thời đọc một tệp PDF đính kèm. Sự linh hoạt này cho phép nó xử lý các tác vụ phức tạp, đa phương tiện mà không cần các quy trình riêng biệt. Các token đầu vào được tính dựa trên quy tắc tokenizer cụ thể của từng phương thức.
Gemini 3 Flash Preview là phiên bản tiền phát hành của mô hình Flash thế hệ thứ ba của Google. Là bản xem trước, mô hình này có thể thay đổi về hành vi, hiệu suất và khả năng khả dụng. Google thường cập nhật các mô hình xem trước dựa trên phản hồi của người dùng và cuối cùng có thể thay thế các endpoint xem trước bằng các bản phát hành ổn định. Mặc dù mô hình hoạt động tốt và phù hợp để thử nghiệm và phát triển, các triển khai sản xuất nên theo dõi các bản cập nhật. OrcaRouter phản chiếu endpoint của nhà cung cấp, đảm bảo rằng mọi thay đổi từ Google đều được phản ánh kịp thời. ID mô hình google/gemini-3-flash-preview sẽ duy trì nhất quán trừ khi Google sửa đổi cách đặt tên của mình.
Mô hình có thể xử lý đồng thời văn bản và hình ảnh cho các tác vụ như chú thích ảnh, trả lời câu hỏi trực quan và trích xuất tài liệu. Mô hình có thể đọc văn bản từ tài liệu quét, diễn giải biểu đồ và trả lời các câu hỏi về nội dung. Đối với đầu vào chỉ gồm văn bản, mô hình hỗ trợ hiểu ngôn ngữ, tóm tắt, dịch thuật và sinh mã. Cửa sổ ngữ cảnh lớn (1.048.576 token) cho phép mô hình xử lý các cuộc hội thoại rất dài, toàn bộ sách hoặc các kho mã nguồn lớn. Điểm MMLU-Pro 88,2 của mô hình cho thấy khả năng suy luận mạnh mẽ trên nhiều lĩnh vực, bao gồm khoa học, toán học và nhân văn.
Đầu vào âm thanh có thể là giọng nói trực tiếp hoặc âm thanh đã ghi; mô hình có thể phiên âm, dịch thuật hoặc phân tích nội dung. Đầu vào video kết hợp khung hình và luồng âm thanh—phù hợp để tóm tắt nội dung video, phát hiện đối tượng hoặc hiểu bối cảnh có lời thuyết minh. Cửa sổ ngữ cảnh có nghĩa là các tệp video hoặc âm thanh dài có thể được xử lý trong một lượt duy nhất, miễn là số token nằm trong giới hạn. Đầu ra dựa trên văn bản; mô hình không tạo ra âm thanh hay video. API của OrcaRouter hỗ trợ gửi tệp âm thanh (ví dụ: MP3, WAV) và tệp video (ví dụ: MP4) như một phần của nội dung tin nhắn.
Biến thể Flash được tối ưu hóa về tốc độ và chi phí, khiến nó trở nên lý tưởng cho các ứng dụng thời gian thực: phiên âm trực tiếp, chatbot đa phương thức tương tác, tóm tắt tài liệu nhanh và kiểm duyệt nội dung trên nhiều loại phương tiện. Nó cũng vượt trội trong các tình huống yêu cầu ngữ cảnh lớn, chẳng hạn như phân tích toàn bộ bản ghi cuộc họp hoặc xử lý các bài nghiên cứu dài có kèm hình ảnh. Các trường hợp sử dụng được hưởng lợi từ cả tốc độ và suy luận đa phương thức—như chú thích video hoặc xem xét tài liệu pháp lý—là phù hợp. Tuy nhiên, đối với các tác vụ yêu cầu suy luận sâu hơn trên một phương thức duy nhất (ví dụ: tạo mã thuần túy), một mô hình chuyên biệt có thể hoạt động tốt hơn.
Gemini 3 Flash Preview có giá $0.50/1M đầu vào và $3.00/1M đầu ra, đây là mức giá thấp đối với một mô hình đa phương thức nhưng không phải là thấp nhất hiện có. Nếu trường hợp sử dụng của bạn chỉ thuần văn bản và yêu cầu độ trễ hoặc chi phí thậm chí còn thấp hơn, hãy cân nhắc các mô hình văn bản chuyên dụng như Gemini 2.0 Flash (nếu có) hoặc các lựa chọn thay thế có giá tương tự. Mặt khác, nếu bạn cần khả năng suy luận vượt trội trên các điểm chuẩn phức tạp (ví dụ: MATH, GPQA) và có ngân sách lớn hơn, bạn có thể chọn mô hình lớn hơn như Gemini 3 Pro hoặc GPT-4o. Đối với khối lượng công việc đa phương thức lớn và nhạy cảm với độ trễ, mô hình Flash này mang lại sự cân bằng tốt.
MMLU-Pro là phiên bản mở rộng của chuẩn đánh giá Khả năng Hiểu Ngôn ngữ Đa nhiệm Quy mô lớn, bao gồm 57 chủ đề với các câu hỏi khó hơn. Điểm số 88,2 cho thấy mô hình đã trả lời đúng 88,2% số câu hỏi, đưa nó vào những mô hình hoạt động tốt nhất trong đánh giá này. Điều này phản ánh kiến thức và khả năng suy luận mạnh mẽ trên nhiều lĩnh vực khác nhau, từ luật đến vật lý. Điểm số này có tính cạnh tranh so với các mô hình tiên tiến khác, đặc biệt khi xét rằng các mô hình Flash được tối ưu hóa cho tốc độ thay vì độ chính xác tối đa. Điểm số được cung cấp là số liệu chuẩn chính của mô hình này và cần được hiểu như một chỉ báo tổng quát về năng lực, không phải là sự đảm bảo cho từng tác vụ cụ thể.
Mặc dù không có số liệu về độ trễ cụ thể, các mô hình Flash của Google được thiết kế để có thông lượng cao và độ trễ thấp. Mô hình này được dự kiến sẽ nhanh hơn các đối tác lớn hơn như Gemini 3 Pro, phù hợp cho các tương tác thời gian thực. Người dùng có thể mong đợi thời gian mỗi yêu cầu thấp hơn so với các biến thể không phải Flash, mặc dù tốc độ thực tế phụ thuộc vào các yếu tố như độ dài đầu vào, độ dài đầu ra và mức sử dụng đồng thời. OrcaRouter không gây thêm độ trễ ngoài API của nhà cung cấp. Để có hiệu suất tốt nhất, hãy giữ lời nhắc ngắn gọn và sử dụng phản hồi phát trực tiếp. Giới hạn đầu ra lớn (65.536 token) có thể làm tăng thời gian tạo cho các câu trả lời dài hơn.
Điểm MMLU-Pro (88.2) cho thấy khả năng suy luận và kiến thức tổng quát mạnh mẽ. Khả năng của mô hình xử lý ngữ cảnh 1M-token và nhiều phương thức đầu vào (văn bản, hình ảnh, tệp tin, âm thanh, video) mang lại lợi thế trong các tác vụ đa phương thức so với các mô hình chỉ hỗ trợ văn bản. Các mô hình Flash truyền thống vượt trội về tốc độ và hiệu quả chi phí. Giới hạn token đầu ra cao (65,536) cho phép tạo ra các bản tóm tắt dài hoặc phân tích mở rộng. Những điểm mạnh này khiến nó trở thành lựa chọn linh hoạt cho các ứng dụng cần xử lý nhanh nhiều loại dữ liệu khác nhau, ở quy mô lớn.
Là một bản xem trước Flash, nó có thể không đạt được độ chính xác như các mô hình không phải Flash lớn hơn trên các điểm chuẩn chuyên biệt (ví dụ: các cuộc thi lập trình, suy luận toán học nhiều bước). Mô hình không tạo ra hình ảnh hoặc âm thanh—chỉ đầu ra văn bản. Trạng thái xem trước của nó có nghĩa là nó có thể có tính khả dụng gián đoạn hoặc bao phủ tính năng một phần. Ngoài ra, mặc dù cửa sổ ngữ cảnh lớn, các đầu vào rất dài sẽ bị cắt bớt nếu vượt quá 1,048,576 token. Điểm MMLU-Pro là một điểm dữ liệu đơn lẻ; hiệu suất thực tế có thể khác nhau. Đối với các tác vụ yêu cầu độ chính xác tuyệt đối trong các lĩnh vực chuyên ngành, nên thực hiện xác thực.
Giá là $0.50 trên một triệu token đầu vào và $3.00 trên một triệu token đầu ra. Các mức giá này do Google cung cấp và được tính theo giá của nhà cung cấp—OrcaRouter không thêm phí chênh lệch. Token đầu vào bao gồm tất cả token văn bản và token hình ảnh/âm thanh được mã hóa từ tệp, hình ảnh và video. Token đầu ra chỉ là văn bản do mô hình tạo ra. Không có phí bổ sung nào cho truy cập API qua OrcaRouter ngoài chi phí trên mỗi token. Mức giá minh bạch này cho phép bạn ước tính chi phí dễ dàng: ví dụ, đầu vào 1.000 token và đầu ra 500 token sẽ có chi phí xấp xỉ $0.0005 + $0.0015 = $0.002.
Với mức giá $0.50/1M đầu vào và $3.00/1M đầu ra, Gemini 3 Flash Preview có mức giá cạnh tranh cho một mô hình đa phương thức với cửa sổ ngữ cảnh 1M. Các mô hình lớn hơn như Gemini 3 Pro hoặc GPT-4o thường có chi phí cao hơn mỗi token, đặc biệt là cho đầu ra. Các mô hình chỉ xử lý văn bản nhỏ hơn có thể rẻ hơn (ví dụ: Gemini 2.0 Flash ở mức $0.10/$0.40 mỗi 1M token, nếu có). Đối với khối lượng công việc đa phương thức, mô hình này mang lại một giải pháp trung gian hiệu quả về chi phí. Mức chênh lệch 0% từ OrcaRouter đảm bảo bạn trả chính xác mức giá của Google. Nếu bạn có mức sử dụng cao, ngay cả một khác biệt nhỏ mỗi token cũng có thể quan trọng, vì vậy hãy so sánh với hồ sơ token của nhiệm vụ cụ thể của bạn.
Các thông tin giá được cung cấp không bao gồm bất kỳ khoản giảm giá bộ nhớ đệm hoặc các bậc khối lượng nào. Google có thể cung cấp mức giá giảm cho các token được lưu trong bộ nhớ đệm ở một số mô hình, nhưng điều đó chưa được xác nhận cho Gemini 3 Flash Preview. Giá của OrcaRouter phản ánh chi phí thô trên mỗi token mà không có phụ phí, vì vậy bạn không phải trả thêm cho cổng kết nối. Đối với các triển khai quy mô lớn, hãy liên hệ trực tiếp với Google để có các thỏa thuận doanh nghiệp tiềm năng. Luôn kiểm tra giá mới nhất trên trang giá của OrcaRouter hoặc trong bảng điều khiển tài khoản của bạn, vì mức giá có thể thay đổi bởi nhà cung cấp. Hiện tại, mức giá trên mỗi triệu token đã nêu là áp dụng.
Bạn sử dụng API tương thích với OpenAI của OrcaRouter tại URL gốc https://api.orcarouter.ai/v1. ID mô hình là "google/gemini-3-flash-preview". Xác thực được thực hiện thông qua khóa API từ OrcaRouter. Ví dụ, với curl, bạn có thể gửi yêu cầu POST đến /v1/chat/completions. Định dạng yêu cầu tuân theo cấu trúc Chat Completions của OpenAI. Bạn phải bao gồm tham số model được đặt chính xác với ID mô hình. OrcaRouter xử lý việc định tuyến đến điểm cuối của Google. Đảm bảo khóa API của bạn có quyền thích hợp. Luồng streaming được hỗ trợ bằng cách đặt stream: true trong phần thân yêu cầu.
Bạn có thể sử dụng các tham số tiêu chuẩn của OpenAI Chat Completions: model, messages (với role: system, user, assistant), temperature, top_p, max_tokens (giới hạn ở 65,536), chuỗi dừng (stop sequences), frequency_penalty, presence_penalty, logit_bias, và stream. Đối với các tin nhắn đa phương thức, hãy bao gồm dữ liệu mã hóa base64 hoặc ID tệp trong mảng content. Model tự động phát hiện phương thức đầu vào. Lưu ý rằng không phải tất cả các tính năng của OpenAI (như function calling) đều được hỗ trợ—hãy kiểm tra tài liệu OrcaRouter. Cửa sổ ngữ cảnh 1,048,576 token được áp dụng cho tổng số token của tin nhắn. Nếu vượt quá, các tin nhắn cũ nhất sẽ bị cắt bớt.
Nếu bạn đã đang sử dụng Vertex AI hoặc Gemini API của Google, việc di chuyển chỉ yêu cầu thay đổi tối thiểu. Điều chỉnh URL cơ sở API của bạn thành https://api.orcarouter.ai/v1, trỏ đến ID mô hình "google/gemini-3-flash-preview", và thay thế xác thực Google của bạn bằng khóa API OrcaRouter. Định dạng tin nhắn tương tự—OrcaRouter dịch giữa các định dạng OpenAI và Google. Đối với nội dung đa phương thức, hãy đảm bảo bạn tuân theo hướng dẫn đính kèm của OrcaRouter (ví dụ: dữ liệu mã hóa base64 với các loại MIME phù hợp). Kiểm tra với một số lượng nhỏ yêu cầu để xác nhận tính tương đương. OrcaRouter cung cấp tài liệu hỗ trợ và mã ví dụ cho nhiều ngôn ngữ khác nhau.
Cấu trúc phản hồi khớp với định dạng Chat Completion của OpenAI: một đối tượng với các trường choices, usage và id. Mỗi choice bao gồm một đối tượng message với role và content. Mức sử dụng token được báo cáo dưới dạng prompt_tokens và completion_tokens. Trường finish_reason cho biết lý do kết thúc quá trình sinh (stop, length). Các phản hồi truyền phát phát ra các đối tượng delta. Nếu bạn đang sử dụng SDK OpenAI, bạn chỉ cần thay đổi API key và base URL. Điểm cuối của OrcaRouter hoạt động giống như API OpenAI, đơn giản hóa việc tích hợp. Mọi đặc thù riêng của mô hình Google (ví dụ: bộ lọc an toàn) đều được giữ nguyên; hãy kiểm tra phản hồi để phát hiện các thông báo từ chối tiềm ẩn.
Gemini 3 Flash Preview là thế hệ mới của mô hình Flash của Google, cung cấp cửa sổ ngữ cảnh lớn hơn (1.048.576 so với mức 32K–1M trước đây tùy phiên bản) và hỗ trợ đa phương thức cải tiến bao gồm cả video. Điểm MMLU-Pro 88,2 của 3 Flash Preview cho thấy khả năng suy luận tốt hơn so với điểm số được báo cáo của 2 Flash (không được cung cấp, nhưng thường thấp hơn). Giá cho 2 Flash thấp hơn mỗi token, phù hợp với ngân sách hơn cho các tác vụ đơn giản. Gemini 3 Flash Preview nhanh hơn và có khả năng suy luận đa phương thức phức tạp hơn, nhưng 2 Flash vẫn là một lựa chọn tiết kiệm chi phí cho các tác vụ chỉ văn bản hoặc hình ảnh đơn giản.
GPT-4o từ OpenAI cũng hỗ trợ đầu vào đa phương thức (văn bản, hình ảnh, âm thanh) và có cửa sổ ngữ cảnh 128K token, nhỏ hơn đáng kể so với 1M token của Gemini 3 Flash Preview. Giá GPT-4o thay đổi nhưng thường cao hơn trên mỗi token (ví dụ: $2,50/1M đầu vào, $10/1M đầu ra). Chi phí thấp hơn và ngữ cảnh lớn hơn của Gemini 3 Flash Preview giúp nó phù hợp hơn cho các tác vụ đa phương thức dài hoặc khối lượng lớn. Tuy nhiên, GPT-4o có thể có thế mạnh khác trong viết sáng tạo hoặc sinh mã, và các điểm chuẩn của nó (ví dụ: MMLU) là tương đương. Lựa chọn phụ thuộc vào nhu cầu kích thước ngữ cảnh và sở thích tích hợp.
Trong dòng sản phẩm của Google, Gemini 3 Pro là một mô hình lớn hơn, đắt tiền hơn được thiết kế cho độ chính xác tối đa (điểm MMLU-Pro cao hơn). Flash là biến thể được tối ưu hóa về chi phí và tốc độ. Gemini 2 Flash cũ hơn và rẻ hơn nhưng có ngữ cảnh nhỏ hơn và có thể điểm benchmark thấp hơn. Gemini 3 Flash Preview mang đến một giải pháp trung gian: suy luận gần bằng cấp Pro (88.2 MMLU-Pro) với chi phí chỉ bằng một phần nhỏ. Đối với người dùng cần ngữ cảnh lớn nhất và tốc độ tốt nhất, 3 Flash Preview là lý tưởng. Đối với suy luận cao cấp trên các đầu vào nhỏ hơn, 3 Pro có thể tốt hơn. Đối với các tác vụ đơn giản, 2 Flash hoặc các mô hình nhẹ khác có thể đủ dùng.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Đầu vào / 1M tokens | $0.500 |
| Đầu ra / 1M tokens | $3.00 |
| Đọc cache / 1M | $0.050 |
| Tiền tệ | USD |