Gemini 3 Flash Preview

google/gemini-3-flash-preview
bởi Google · 2025-12-17

Google Gemini 3 Flash Preview – Mô hình đa phương thức với ngữ cảnh 1M token, 88.2 MMLU-Pro, có thể truy cập qua OrcaRouter.

ngữ cảnh1.05M token
Đầu vàotext + image + file + audio + video
Đầu ratext
TTFT p503.81 s
ĐẦU VÀO$0.50/ 1M token
ĐẦU RA$3.00/ 1M token
TTFT p503.81 s7 ngày
p95 TTFT10.00 s7 ngày
LƯU LƯỢNG1.1Mtokens / 7 ngày

Chi tiết mô hình

Google Gemini 3 Flash Preview là gì?

Google Gemini 3 Flash Preview là mô hình đa phương thức do Google phát triển, được tối ưu hóa về tốc độ và khả năng xử lý ngữ cảnh lớn. Mô hình chấp nhận đầu vào ở các định dạng văn bản, hình ảnh, tệp, âm thanh và video, đồng thời có thể tạo ra tối đa 65.536 token đầu ra. Mô hình có cửa sổ ngữ cảnh lên tới 1.048.576 token, cho phép suy luận trên các chuỗi rất dài. Mô hình đạt 88,2 điểm trên điểm chuẩn MMLU-Pro, cho thấy hiệu suất mạnh mẽ trên nhiều tác vụ học thuật và suy luận. Phiên bản xem trước này có sẵn thông qua API tương thích với OpenAI của OrcaRouter với mã mô hình google/gemini-3-flash-preview.

Ai là đối tượng mục tiêu cho mô hình này?

Gemini 3 Flash Preview hướng đến các nhà phát triển và tổ chức đang xây dựng những ứng dụng yêu cầu suy luận đa phương thức nhanh với ngữ cảnh lớn. Mô hình này phù hợp cho các trường hợp sử dụng như phân tích video, tóm tắt tài liệu dài và hiểu âm thanh-hình ảnh theo thời gian thực. Mức giá của mô hình—$0.50 cho mỗi triệu token đầu vào và $3.00 cho mỗi triệu token đầu ra—giúp nó trở nên dễ tiếp cận với cả startup lẫn doanh nghiệp lớn. Vì đây là bản xem trước, những người dùng sớm có thể đánh giá khả năng của nó trước khi phiên bản ổn định được phát hành. OrcaRouter cung cấp khả năng truy cập liền mạch vào mô hình này, bao gồm các endpoint tương thích với OpenAI và không tính phí chênh lệch trên giá nhà cung cấp.

Nó hỗ trợ những đầu vào đa phương thức nào?

Gemini 3 Flash Preview hỗ trợ năm phương thức đầu vào: văn bản, hình ảnh, tệp tin, âm thanh và video. Văn bản có thể ở dạng thuần túy hoặc có cấu trúc; hình ảnh bao gồm ảnh chụp, sơ đồ và ảnh chụp màn hình; tệp tin bao gồm các định dạng như PDF và tài liệu; âm thanh bao gồm giọng nói và nhạc; video có thể được xử lý với cả luồng hình ảnh và âm thanh. Mô hình có thể kết hợp nhiều phương thức trong một câu lệnh duy nhất—ví dụ: phân tích video đồng thời đọc một tệp PDF đính kèm. Sự linh hoạt này cho phép nó xử lý các tác vụ phức tạp, đa phương tiện mà không cần các quy trình riêng biệt. Các token đầu vào được tính dựa trên quy tắc tokenizer cụ thể của từng phương thức.

Trạng thái xem trước là gì và nó ổn định như thế nào?

Gemini 3 Flash Preview là phiên bản tiền phát hành của mô hình Flash thế hệ thứ ba của Google. Là bản xem trước, mô hình này có thể thay đổi về hành vi, hiệu suất và khả năng khả dụng. Google thường cập nhật các mô hình xem trước dựa trên phản hồi của người dùng và cuối cùng có thể thay thế các endpoint xem trước bằng các bản phát hành ổn định. Mặc dù mô hình hoạt động tốt và phù hợp để thử nghiệm và phát triển, các triển khai sản xuất nên theo dõi các bản cập nhật. OrcaRouter phản chiếu endpoint của nhà cung cấp, đảm bảo rằng mọi thay đổi từ Google đều được phản ánh kịp thời. ID mô hình google/gemini-3-flash-preview sẽ duy trì nhất quán trừ khi Google sửa đổi cách đặt tên của mình.

Mã ví dụ

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3-flash-preview",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Giá

Đầu vào / 1M tokens$0.500
Đầu ra / 1M tokens$3.00
Đọc cache / 1M$0.050
Tiền tệUSD

Hiệu suất

TTFT p50
3.81 s
Tốc độ đầu ra
851 tok/s
p95 TTFT
10.00 s
Tỷ lệ lỗi
0%

Benchmark công khai

37.8
AA Coding
Tốt hơn 47% số mô hình được so sánh
35.0
AA Intelligence
Tốt hơn 35% số mô hình được so sánh
55.7
AA Math
Tốt hơn 32% số mô hình được so sánh
AIME 2025
55.7
GPQA Diamond
81.2
Humanity's Last Exam
14.1
IFBench
55.1
LiveCodeBench
79.7
Long-Context Recall
48.0
MMLU-Pro
88.2
SciCode
49.9
TerminalBench Hard
31.8
τ²-Bench
43.3
Nguồn: artificialanalysis.ai

Câu hỏi thường gặp

Chi phí để sử dụng Gemini 3 Flash Preview là bao nhiêu?
Giá là $0.50 cho mỗi triệu token đầu vào và $3.00 cho mỗi triệu token đầu ra, được tính phí theo tỷ giá nhà cung cấp, không có phí chênh lệch nào được thêm vào bởi OrcaRouter.
Kích thước cửa sổ ngữ cảnh là bao nhiêu?
Cửa sổ ngữ cảnh là 1,048,576 token cho đầu vào và mô hình có thể tạo ra tối đa 65,536 token đầu ra.
Các phương thức nhập liệu được hỗ trợ là gì?
Văn bản, hình ảnh, tệp, âm thanh và video đều được chấp nhận làm đầu vào. Đầu ra chỉ là văn bản.
Nó so sánh thế nào với Gemini 2 Flash?
Gemini 3 Flash Preview có cửa sổ ngữ cảnh lớn hơn (1M so với lên đến 1M nhưng thường nhỏ hơn), điểm MMLU-Pro cao hơn (88.2) và hỗ trợ đa phương thức mở rộng bao gồm cả video. Nó nhanh hơn và có khả năng xử lý các tác vụ phức tạp tốt hơn, nhưng Gemini 2 Flash rẻ hơn cho mỗi token.
OrcaRouter xử lý quyền riêng tư dữ liệu như thế nào?
OrcaRouter chuyển các yêu cầu của bạn đến API của Google. Việc xử lý dữ liệu tuân theo chính sách bảo mật của Google. OrcaRouter không ghi nhật ký hoặc lưu trữ nội dung của bạn ngoài những gì cần thiết để xử lý yêu cầu. Xem xét chính sách của cả hai nhà cung cấp để biết chi tiết.
Tôi có thể gọi Gemini 3 Flash Preview bằng API tương thích với OpenAI không?
Vâng. Sử dụng API của OrcaRouter tại https://api.orcarouter.ai/v1 với model ID "google/gemini-3-flash-preview". Xác thực sử dụng khóa API OrcaRouter. Định dạng yêu cầu và phản hồi tuân theo lược đồ Chat Completions của OpenAI.
Những điểm mạnh chính của mô hình là gì?
Tốc độ suy luận cao, ngữ cảnh 1M token lớn, đầu vào đa phương thức (văn bản, hình ảnh, tệp, âm thanh, video), điểm chuẩn MMLU-Pro mạnh (88.2), và chi phí thấp so với các mô hình lớn hơn.
Gemini 3 Flash Preview có sẵn cho sản xuất không?
Đây là phiên bản xem trước, nghĩa là nó có thể có thay đổi, khả năng sẵn có gián đoạn hoặc hỗ trợ hạn chế. Nó phù hợp cho việc thử nghiệm và phát triển; đối với khối lượng công việc sản xuất quan trọng, hãy cân nhắc sử dụng bản phát hành ổn định khi có sẵn.
Làm cách nào để ước tính mức sử dụng token cho đầu vào đa phương thức?
Mỗi phương thức (modality) đều có cách tokenization riêng. Hình ảnh, âm thanh và video được chia thành các token dựa trên độ phân giải và thời lượng. OrcaRouter báo cáo việc sử dụng token trong phản hồi API. Bạn cũng có thể tham khảo tài liệu của Google để biết các quy tắc đếm token chi tiết.
Điều gì xảy ra nếu tôi vượt quá cửa sổ ngữ cảnh?
Đầu vào vượt quá 1.048.576 token sẽ bị cắt bỏ từ nội dung cũ nhất. Mô hình sẽ bỏ qua các token vượt quá. Đảm bảo tin nhắn của bạn nằm trong giới hạn bằng cách theo dõi tổng số token trong yêu cầu của bạn.

Nhúng huy hiệu này

Google: Gemini 3 Flash Preview$0.50/M in3812ms p50qua OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3-flash-preview" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3-flash-preview.svg" alt="Google: Gemini 3 Flash Preview trên OrcaRouter" /> </a>
Markdown [![Google: Gemini 3 Flash Preview](https://www.orcarouter.ai/embed/google/gemini-3-flash-preview.svg)](https://www.orcarouter.ai/models/google/gemini-3-flash-preview)