Gemini 3.5 Flash

google/gemini-3.5-flash
bởi google · 2026-05-23

Mô hình đa phương thức hiệu quả của Google với ngữ cảnh 1M, sản lượng cao và mức giá hiệu quả về chi phí thông qua OrcaRouter.

ngữ cảnh1.05M token
Đầu vàotext + image + video + file + audio
Đầu ratext
TTFT p5010.00 s
ĐẦU VÀO$1.50/ 1M token
ĐẦU RA$9.00/ 1M token
TTFT p5010.00 s7 ngày
p95 TTFT10.00 s7 ngày
LƯU LƯỢNG4.5Mtokens / 7 ngày

Chi tiết mô hình

Gemini 3.5 Flash là gì?

Gemini 3.5 Flash là một mô hình ngôn ngữ lớn do Google phát triển, được tinh chỉnh để tối ưu tốc độ và hiệu suất. Nó thuộc dòng Gemini và được thiết kế để xử lý đầu vào đa phương thức—văn bản, hình ảnh, video, tệp tin và âm thanh—trong khi vẫn mang lại phản hồi nhanh chóng. Mô hình hỗ trợ cửa sổ ngữ cảnh 1.048.576 token, cho phép xử lý các chuỗi rất dài như toàn bộ sách, video dài một giờ hoặc kho mã nguồn lớn. Độ dài đầu ra tối đa 65.536 token cho phép tạo ra các nội dung dài, bao gồm báo cáo đầy đủ hoặc các tệp mã mở rộng. Gemini 3.5 Flash được truy cập thông qua API tương thích với OpenAI của OrcaRouter, nghĩa là bạn có thể tích hợp nó vào các ứng dụng hiện có với rất ít thay đổi mã.

Ai nên sử dụng Gemini 3.5 Flash?

Gemini 3.5 Flash là lý tưởng cho các nhà phát triển và tổ chức cần sự cân bằng giữa thông lượng cao, độ trễ thấp và chi phí. Nó đặc biệt phù hợp với môi trường sản xuất nơi tốc độ suy luận là quan trọng, như chatbot thời gian thực, quy trình kiểm duyệt nội dung hoặc hỗ trợ khách hàng tự động. Cửa sổ ngữ cảnh rộng lớn mang lại lợi ích cho người dùng cần phân tích tập dữ liệu lớn, tài liệu dài hoặc lịch sử hội thoại phong phú mà không cần phân đoạn. Ngoài ra, các nhóm xây dựng ứng dụng đa phương thức—như chú thích hình ảnh, tóm tắt video hoặc phiên âm âm thanh—có thể tận dụng hỗ trợ bản địa cho nhiều loại đầu vào. Nếu khối lượng công việc của bạn yêu cầu khả năng suy luận cực cao hoặc toán học phức tạp, hãy cân nhắc một mô hình mạnh mẽ hơn, chậm hơn.

Gemini 3.5 Flash hỗ trợ những phương thức nhập liệu nào?

Gemini 3.5 Flash chấp nhận năm dạng thức đầu vào: văn bản, hình ảnh, video, tệp và âm thanh. Đầu vào văn bản có thể là chuỗi thuần hoặc tin nhắn có cấu trúc. Hình ảnh có thể được truyền dưới dạng dữ liệu mã hóa base64 hoặc URL; mô hình có thể diễn giải nội dung trực quan như biểu đồ, sơ đồ hoặc ảnh chụp. Đầu vào video được hỗ trợ dưới dạng chuỗi khung hình hoặc tệp video nén, cho phép mô hình phân tích chuyển động và thay đổi theo thời gian. Đầu vào tệp bao gồm các định dạng phổ biến như PDF, DOCX hoặc tệp mã; mô hình có thể trích xuất và suy luận nội dung của chúng. Đầu vào âm thanh có thể ở dạng thô hoặc nén (ví dụ: MP3, WAV), hỗ trợ phiên âm giọng nói và phân tích âm thanh. Tất cả các dạng thức có thể được kết hợp trong một yêu cầu duy nhất, khiến Gemini 3.5 Flash trở thành công cụ linh hoạt cho các tác vụ đa phương thức.

Làm thế nào để truy cập Gemini 3.5 Flash thông qua OrcaRouter?

OrcaRouter cung cấp Gemini 3.5 Flash thông qua API tương thích OpenAI của nó. URL cơ sở là https://api.orcarouter.ai/v1, và ID mô hình cụ thể là "google/gemini-3.5-flash". Bạn có thể gọi nó bằng bất kỳ SDK OpenAI nào hoặc các yêu cầu HTTP trực tiếp, chỉ cần thay đổi URL cơ sở và tên mô hình. Xác thực được xử lý thông qua một khóa API do OrcaRouter cung cấp. API hỗ trợ các endpoint chat completions tiêu chuẩn, streaming, và các tham số tùy chọn như temperature, top_p, và max_tokens. OrcaRouter không thêm bất kỳ khoản phụ phí nào vào giá nhà cung cấp, vì vậy bạn trả chính xác $1.50 cho mỗi 1M token đầu vào và $9.00 cho mỗi 1M token đầu ra. Không có phí cổng bổ sung nào được áp dụng.

Mã ví dụ

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Giá

Đầu vào / 1M tokens$1.50
Đầu ra / 1M tokens$9.00
Đọc cache / 1M$0.150
Ghi cache / 1M$0.083
Tiền tệUSD

Hiệu suất

TTFT p50
10.00 s
Tốc độ đầu ra
10766 tok/s
p95 TTFT
10.00 s
Tỷ lệ lỗi
0.44%

Benchmark công khai

49.0
AA Coding
Tốt hơn 68% số mô hình được so sánh
47.0
AA Intelligence
Tốt hơn 58% số mô hình được so sánh
51.0
AA Math
Tốt hơn 27% số mô hình được so sánh
GPQA Diamond
45.0 index
MMLU-Pro
59.0 index
τ²-Bench
42.0 index
Nguồn: artificialanalysis.ai

Câu hỏi thường gặp

Chi phí Gemini 3.5 Flash trên OrcaRouter là bao nhiêu?
Token đầu vào có giá $1.50 cho mỗi 1 triệu token; token đầu ra có giá $9.00 cho mỗi 1 triệu token. OrcaRouter tính phí theo giá của nhà cung cấp mà không có phần chênh lệch. Không có bất kỳ khoản phí bổ sung nào.
Kích thước cửa sổ ngữ cảnh của Gemini 3.5 Flash là bao nhiêu?
Nó hỗ trợ cửa sổ ngữ cảnh lên đến 1,048,576 token (khoảng 1 triệu token). Con số này bao gồm cả token đầu vào và đầu ra.
Các điểm mạnh chính của Gemini 3.5 Flash là gì?
Nó được tối ưu hóa cho độ trễ thấp, thông lượng cao và hiệu quả chi phí. Nó hỗ trợ đầu vào đa phương thức (văn bản, hình ảnh, video, tệp, âm thanh) và cửa sổ ngữ cảnh lớn, khiến nó trở nên lý tưởng cho các ứng dụng thời gian thực và xử lý tài liệu dài.
Gemini 3.5 Flash so sánh như thế nào với Gemini 3.5 Pro?
Flash nhanh hơn và rẻ hơn nhưng có hiệu suất benchmark thấp hơn trong các tác vụ suy luận phức tạp và toán học. Pro chính xác hơn nhưng chậm hơn và đắt hơn. Flash phù hợp hơn cho các ứng dụng có khối lượng lớn, nhạy cảm với độ trễ.
Dữ liệu được xử lý như thế nào khi sử dụng Gemini 3.5 Flash qua OrcaRouter?
OrcaRouter hoạt động như một proxy và không lưu trữ dữ liệu của bạn. Tuy nhiên, các chính sách xử lý dữ liệu của Google áp dụng cho mô hình cơ bản. OrcaRouter khuyên bạn nên xem xét các điều khoản của Google về lưu giữ dữ liệu và quyền riêng tư.
Làm thế nào để gọi Gemini 3.5 Flash bằng API tương thích với OpenAI?
Sử dụng URL cơ sở https://api.orcarouter.ai/v1, ID mô hình "google/gemini-3.5-flash", và truyền khóa API OrcaRouter trong header Authorization. API hỗ trợ các chat completions tiêu chuẩn và phát trực tuyến.
Gemini 3.5 Flash có thể tạo ra độ dài đầu ra là bao nhiêu?
Nó có thể tạo ra lên tới 65,536 token mỗi phản hồi. Điều này lớn hơn đáng kể so với nhiều mô hình, cho phép tạo nội dung dài, mã nguồn, hoặc suy luận mở rộng.
Có giảm giá nào cho các token lặp lại hoặc được lưu trong bộ nhớ đệm không?
Dựa trên các thông tin đã cung cấp, OrcaRouter không cung cấp bộ nhớ đệm hay chiết khấu theo khối lượng. Mỗi token được tính phí theo mức giá tiêu chuẩn bất kể việc tái sử dụng.

Nhúng huy hiệu này

Gemini 3.5 Flash$1.50/M in10000ms p50qua OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash trên OrcaRouter" /> </a>
Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)