Mô hình đa phương thức hiệu quả của Google với ngữ cảnh 1M, sản lượng cao và mức giá hiệu quả về chi phí thông qua OrcaRouter.
Gemini 3.5 Flash là một mô hình ngôn ngữ lớn do Google phát triển, được tinh chỉnh để tối ưu tốc độ và hiệu suất. Nó thuộc dòng Gemini và được thiết kế để xử lý đầu vào đa phương thức—văn bản, hình ảnh, video, tệp tin và âm thanh—trong khi vẫn mang lại phản hồi nhanh chóng. Mô hình hỗ trợ cửa sổ ngữ cảnh 1.048.576 token, cho phép xử lý các chuỗi rất dài như toàn bộ sách, video dài một giờ hoặc kho mã nguồn lớn. Độ dài đầu ra tối đa 65.536 token cho phép tạo ra các nội dung dài, bao gồm báo cáo đầy đủ hoặc các tệp mã mở rộng. Gemini 3.5 Flash được truy cập thông qua API tương thích với OpenAI của OrcaRouter, nghĩa là bạn có thể tích hợp nó vào các ứng dụng hiện có với rất ít thay đổi mã.
Gemini 3.5 Flash là lý tưởng cho các nhà phát triển và tổ chức cần sự cân bằng giữa thông lượng cao, độ trễ thấp và chi phí. Nó đặc biệt phù hợp với môi trường sản xuất nơi tốc độ suy luận là quan trọng, như chatbot thời gian thực, quy trình kiểm duyệt nội dung hoặc hỗ trợ khách hàng tự động. Cửa sổ ngữ cảnh rộng lớn mang lại lợi ích cho người dùng cần phân tích tập dữ liệu lớn, tài liệu dài hoặc lịch sử hội thoại phong phú mà không cần phân đoạn. Ngoài ra, các nhóm xây dựng ứng dụng đa phương thức—như chú thích hình ảnh, tóm tắt video hoặc phiên âm âm thanh—có thể tận dụng hỗ trợ bản địa cho nhiều loại đầu vào. Nếu khối lượng công việc của bạn yêu cầu khả năng suy luận cực cao hoặc toán học phức tạp, hãy cân nhắc một mô hình mạnh mẽ hơn, chậm hơn.
Gemini 3.5 Flash chấp nhận năm dạng thức đầu vào: văn bản, hình ảnh, video, tệp và âm thanh. Đầu vào văn bản có thể là chuỗi thuần hoặc tin nhắn có cấu trúc. Hình ảnh có thể được truyền dưới dạng dữ liệu mã hóa base64 hoặc URL; mô hình có thể diễn giải nội dung trực quan như biểu đồ, sơ đồ hoặc ảnh chụp. Đầu vào video được hỗ trợ dưới dạng chuỗi khung hình hoặc tệp video nén, cho phép mô hình phân tích chuyển động và thay đổi theo thời gian. Đầu vào tệp bao gồm các định dạng phổ biến như PDF, DOCX hoặc tệp mã; mô hình có thể trích xuất và suy luận nội dung của chúng. Đầu vào âm thanh có thể ở dạng thô hoặc nén (ví dụ: MP3, WAV), hỗ trợ phiên âm giọng nói và phân tích âm thanh. Tất cả các dạng thức có thể được kết hợp trong một yêu cầu duy nhất, khiến Gemini 3.5 Flash trở thành công cụ linh hoạt cho các tác vụ đa phương thức.
OrcaRouter cung cấp Gemini 3.5 Flash thông qua API tương thích OpenAI của nó. URL cơ sở là https://api.orcarouter.ai/v1, và ID mô hình cụ thể là "google/gemini-3.5-flash". Bạn có thể gọi nó bằng bất kỳ SDK OpenAI nào hoặc các yêu cầu HTTP trực tiếp, chỉ cần thay đổi URL cơ sở và tên mô hình. Xác thực được xử lý thông qua một khóa API do OrcaRouter cung cấp. API hỗ trợ các endpoint chat completions tiêu chuẩn, streaming, và các tham số tùy chọn như temperature, top_p, và max_tokens. OrcaRouter không thêm bất kỳ khoản phụ phí nào vào giá nhà cung cấp, vì vậy bạn trả chính xác $1.50 cho mỗi 1M token đầu vào và $9.00 cho mỗi 1M token đầu ra. Không có phí cổng bổ sung nào được áp dụng.
Gemini 3.5 Flash vượt trội trong các tác vụ yêu cầu tốc độ và hiệu quả mà không hy sinh quá nhiều chất lượng. Nó đặc biệt tốt trong việc tóm tắt văn bản, trả lời câu hỏi trên các tài liệu dài và các tác nhân hội thoại cần thời gian phản hồi thấp. Khả năng đa phương thức cho phép nó tạo mô tả về hình ảnh, trích xuất văn bản từ khung hình video hoặc xử lý bản ghi âm. Cửa sổ ngữ cảnh lớn giúp nó hiệu quả cho các tác vụ như phân tích toàn bộ cơ sở mã, xem xét các tài liệu pháp lý dài hoặc duy trì các cuộc đối thoại nhiều lượt mạch lạc. Các nhà phát triển làm việc trên các ứng dụng nhạy cảm về chi phí sẽ được hưởng lợi từ mức giá cạnh tranh của nó. Tuy nhiên, đối với các tác vụ yêu cầu suy luận logic sâu, tạo nội dung sáng tạo hoặc độ chính xác cao trên các benchmark phức tạp, một mô hình cao cấp có thể phù hợp hơn.
Nếu trường hợp sử dụng của bạn liên quan đến các tác vụ rất đơn giản như phân loại một lượt, trích xuất từ khóa hoặc phản hồi được xác định trước, bạn có thể cân nhắc một mô hình nhỏ hơn, rẻ hơn—chẳng hạn như Gemini Nano hoặc một biến thể được chưng cất. Các mô hình này thường có chi phí token thấp hơn nhiều và có thể xử lý các mẫu đơn giản mà không cần cửa sổ ngữ cảnh đầy đủ của Gemini 3.5 Flash. Ngoài ra, nếu bạn yêu cầu độ trễ tối thiểu và sẵn sàng hy sinh một số độ chính xác, một mô hình nhỏ hơn có thể phù hợp hơn. Ngược lại, nếu khối lượng công việc của bạn liên quan đến lý luận phức tạp, tích hợp đa phương thức hoặc ngữ cảnh rất dài, thì việc đầu tư vào Gemini 3.5 Flash sẽ mang lại lợi ích thông qua việc giảm phân đoạn thủ công và chất lượng đầu ra cao hơn. OrcaRouter cung cấp nhiều mô hình để giúp bạn so sánh chi phí và hiệu suất.
Có, Gemini 3.5 Flash hỗ trợ streaming qua API của OrcaRouter, cho phép các token được gửi đi ngay khi chúng được tạo ra thay vì chờ phản hồi hoàn chỉnh. Điều này rất quan trọng với các ứng dụng thời gian thực như chat trực tiếp, trợ lý giọng nói, hay công cụ lập trình tương tác. Thiết kế của mô hình này ưu tiên độ trễ thấp, vì vậy thời gian đến token đầu tiên thường ngắn. Bạn có thể bật streaming bằng cách đặt tham số 'stream' thành true trong lệnh gọi API. Khi đó, phản hồi sẽ là một chuỗi các chunk theo định dạng streaming chuẩn của OpenAI. Điều này giúp Gemini 3.5 Flash phù hợp với các trải nghiệm hướng đến người dùng, nơi tốc độ cảm nhận rất quan trọng. Tuy nhiên, lưu ý rằng streaming có thể làm tăng nhẹ chi phí token do chi phí overhead.
Với cửa sổ ngữ cảnh 1.048.576 token, Gemini 3.5 Flash có thể xử lý các đầu vào rất dài. Để tận dụng tối đa điều này, hãy cấu trúc prompt của bạn sao cho bao gồm ngữ cảnh liên quan ở đầu và cuối, vì mô hình chú ý đến tất cả các token (dù có thể tồn tại thiên lệch vị trí). Đối với đầu vào đa phương thức, hãy lưu ý rằng hình ảnh và video tiêu tốn token tỷ lệ thuận với kích thước và độ phân giải của chúng. Sử dụng tham số 'max_tokens' để kiểm soát độ dài đầu ra. Nếu tác vụ của bạn liên quan đến nhiều tài liệu, hãy cân nhắc nối chúng một cách logic. Đối với hội thoại, duy trì cửa sổ trượt hoặc cắt bỏ các tin nhắn cũ hơn để nằm trong giới hạn. API của OrcaRouter không tự động cắt ngắn đầu vào; hãy đảm bảo tổng số token trong prompt của bạn nằm trong cửa sổ ngữ cảnh để tránh lỗi.
Gemini 3.5 Flash được thiết kế để mang lại hiệu suất mạnh mẽ trên nhiều điểm chuẩn ngôn ngữ tự nhiên và đa phương thức. Mặc dù điểm số cụ thể cho phiên bản mô hình này không được cung cấp trong các dữ kiện đã cho, nhưng dòng Gemini Flash thường vượt trội ở các tác vụ như MMLU (hiểu ngôn ngữ đa nhiệm khổng lồ), HellaSwag (suy luận thông thường), và các điểm chuẩn đa phương thức như VQA và TextVQA. Mô hình đặc biệt mạnh trong các kịch bản yêu cầu ngữ cảnh ngắn và suy luận nhanh. Quá trình huấn luyện của nó tập trung vào độ chính xác thực tế và khả năng tuân theo hướng dẫn. Người dùng thường báo cáo chất lượng cao trong các tác vụ tóm tắt, dịch thuật và sinh mã. Tuy nhiên, vì các điểm chuẩn luôn phát triển, các nhà phát triển được khuyến khích thử nghiệm mô hình trên tập dữ liệu của riêng họ để đánh giá hiệu suất thực tế.
Mặc dù có nhiều điểm mạnh, Gemini 3.5 Flash vẫn tồn tại những hạn chế. Mô hình có thể không đạt được khả năng suy luận đẳng cấp cao nhất của các mô hình lớn hơn như Gemini 3.5 Pro hay GPT-4 trong các bài toán phức tạp, câu đố logic, hoặc sáng tác văn chương tinh tế. Việc tối ưu hóa tốc độ đôi khi dẫn đến sự đánh đổi về chiều sâu. Mô hình thỉnh thoảng có thể tạo ra những câu trả lời nghe có vẻ hợp lý nhưng không chính xác (ảo giác), đặc biệt về các chủ đề hiếm gặp hoặc chuyên môn cao. Đối với đầu vào đa phương thức, hiệu suất trên hình ảnh độ phân giải thấp hoặc bị che khuất nhiều có thể kém hơn so với các mô hình thị giác chuyên dụng. Ngoài ra, việc xử lý các ngữ cảnh rất dài (gần giới hạn token) có thể làm giảm độ chính xác, vì mô hình có thể mất dấu các chi tiết ở phần giữa. OrcaRouter khuyến nghị kiểm tra lại các đầu ra quan trọng, đặc biệt trong các lĩnh vực có rủi ro cao.
Gemini 3.5 Flash được tối ưu hóa cho độ trễ thấp, nghĩa là thời gian phản hồi thường nhanh hơn so với các mô hình lớn hơn, hiệu suất cao hơn. Trong điều kiện điển hình, thời gian đến token đầu tiên được đo bằng hàng trăm mili giây đối với các prompt ngắn, và thông lượng (token mỗi giây) cạnh tranh với các mô hình thuộc lớp Flash khác. Tuy nhiên, độ trễ thực tế phụ thuộc vào độ dài đầu vào, độ dài đầu ra và số lượng yêu cầu đồng thời. Cơ sở hạ tầng của OrcaRouter có thể giúp giảm biến động. Đối với các ứng dụng cực kỳ nhạy cảm với độ trễ (ví dụ: tương tác giọng nói), cài đặt nhiệt độ và phát trực tuyến có thể được điều chỉnh để cân bằng tốc độ và chất lượng. Không có con số độ trễ chuẩn chính thức nào được cung cấp cho mô hình này, nhưng các so sánh định tính cho thấy nó nằm trong số các lựa chọn nhanh hơn hiện có qua OrcaRouter.
Gemini 3.5 Flash cho thấy kết quả mạnh mẽ trong các tác vụ sinh mã, sửa lỗi và giải thích. Nó hỗ trợ nhiều ngôn ngữ lập trình và có thể tạo ra các hàm, lớp hoặc toàn bộ tập lệnh. Giới hạn đầu ra lớn (65.536 token) cho phép nó tạo ra các khối mã hoặc tài liệu dài trong một lần. Đối với dữ liệu có cấu trúc (JSON, XML, YAML), mô hình có thể định dạng đầu ra một cách đáng tin cậy khi được hướng dẫn. Tuy nhiên, để đảm bảo tính đúng đắn về cú pháp rất chính xác hoặc thiết kế thuật toán phức tạp, việc kiểm tra là cần thiết. Mô hình thỉnh thoảng có thể tạo ra mã biên dịch được nhưng chứa lỗi logic. Nó không được tinh chỉnh cụ thể cho các tác vụ chỉ về mã, vì vậy đối với các điểm chuẩn mã hóa chuyên biệt, các mô hình mã chuyên dụng (như CodeGemma) có thể hoạt động tốt hơn.
OrcaRouter tính phí Gemini 3.5 Flash theo giá nhà cung cấp, không có phụ phí. Cụ thể, token đầu vào có giá $1.50 cho mỗi 1 triệu token, và token đầu ra có giá $9.00 cho mỗi 1 triệu token. Không có phí nền tảng bổ sung, phí gọi API, hay mức tối thiểu hàng tháng. Bạn chỉ trả tiền cho các token bạn thực sự sử dụng. Token đầu vào bao gồm tất cả các token trong prompt (văn bản, token hình ảnh, v.v.), trong khi token đầu ra đếm phản hồi được tạo ra. Việc tính phí được thực hiện theo từng yêu cầu và tổng hợp trong một chu kỳ thanh toán. OrcaRouter cung cấp theo dõi sử dụng minh bạch qua bảng điều khiển của mình. Mức giá này khiến Gemini 3.5 Flash trở thành một trong những lựa chọn phải chăng hơn cho các khối lượng công việc đa phương thức có ngữ cảnh dài và khối lượng lớn.
Giá token đầu ra (9,00 $ mỗi 1M) cao gấp sáu lần giá token đầu vào (1,50 $ mỗi 1M). Điều này có nghĩa là các ứng dụng tạo phản hồi rất dài có thể khiến chi phí tăng nhanh, trong khi những ứng dụng chủ yếu truyền các lời nhắc dài (ví dụ: phân tích tài liệu) sẽ rẻ hơn mỗi yêu cầu. Để tối ưu hóa chi phí, hãy cân nhắc sử dụng đầu ra ngắn hơn khi có thể, hoặc triển khai bộ nhớ đệm cho các phản hồi đối với các truy vấn lặp lại. OrcaRouter hiện không cung cấp giá ưu đãi cho bộ nhớ đệm (theo các dữ kiện được cung cấp), vì vậy mỗi lần gọi API đều được tính theo giá đầy đủ. Nếu trường hợp sử dụng của bạn liên quan đến nhiều lời nhắc ngắn với ngữ cảnh dài, chi phí đầu vào có thể chiếm ưu thế. Đối với các ứng dụng trò chuyện có đầu ra dài, hãy tập trung vào việc kiểm soát độ dài tạo ra thông qua max_tokens.
Dựa trên các dữ kiện được cung cấp, OrcaRouter tính phí Gemini 3.5 Flash theo giá của nhà cung cấp mà không có bất kỳ khoản chênh lệch nào, nhưng không đề cập đến bất kỳ chương trình giảm giá theo bộ nhớ đệm (caching) hoặc chiết khấu theo khối lượng cụ thể nào. Điều này có nghĩa là mỗi token đều bị tính phí theo mức tiêu chuẩn, bất kể sự lặp lại hay tần suất sử dụng. Không có chiết khấu bộ nhớ đệm prompt (prompt caching) hoặc bộ nhớ đệm kết quả tính toán sẵn nào để giảm chi phí. Tuy nhiên, giá của OrcaRouter rất minh bạch và có thể dự đoán được: bạn chỉ trả tiền cho các token đã tiêu thụ. Đối với những người dùng có thể mong đợi bộ nhớ đệm từ các nhà cung cấp như Google AI Studio hoặc Vertex AI, cần lưu ý rằng dịch vụ của OrcaRouter là dạng chuyển tiếp (pass-through) mà không có chi phí phụ trội nào. Sự đơn giản này có thể hữu ích cho việc lập kế hoạch ngân sách.
Gemini 3.5 Flash được định vị là một lựa chọn tiết kiệm chi phí so với các mô hình lớn hơn như Gemini 3.5 Pro hoặc GPT-4 Turbo, vốn thường có mức giá trên mỗi token cao hơn. Ví dụ, Gemini 3.5 Pro có thể có giá $3.50/1M đầu vào và $10.50/1M đầu ra (giả định, không được cung cấp). Ngược lại, biến thể Flash rẻ hơn trên mỗi token, phù hợp cho sản xuất khối lượng lớn. Trong số các mô hình lớp flash, giá cả mang tính cạnh tranh, mặc dù so sánh chính xác phụ thuộc vào hiệu suất của mô hình cho tác vụ cụ thể của bạn. OrcaRouter cung cấp danh mục mô hình nơi bạn có thể xem giá cả cạnh nhau. Luôn xác minh giá mới nhất trên nền tảng OrcaRouter, vì mức giá có thể thay đổi.
Để gọi Gemini 3.5 Flash, sử dụng điểm cuối API tương thích với OpenAI tại https://api.orcarouter.ai/v1/chat/completions. Đặt tham số model thành "google/gemini-3.5-flash". Xác thực yêu cầu khóa API từ OrcaRouter, được truyền trong header Authorization dưới dạng "Bearer YOUR_API_KEY". Bạn có thể sử dụng SDK Python của OpenAI, thư viện Node.js hoặc các yêu cầu HTTP thô. Ví dụ với Python: openai.base_url = "https://api.orcarouter.ai/v1/"; openai.api_key = "your-key"; openai.ChatCompletion.create(model="google/gemini-3.5-flash", messages=[{"role":"user","content":"Hello"}]). Streaming hoạt động như tiêu chuẩn. Tất cả các tham số khác như temperature, top_p, presence_penalty và chuỗi dừng (stop sequences) đều được hỗ trợ.
API của OrcaRouter dành cho Gemini 3.5 Flash hỗ trợ các tham số hoàn thành cuộc trò chuyện tiêu chuẩn: model (bắt buộc), messages (mảng các đối tượng role/content), temperature (0–2, mặc định 1), top_p (0–1, mặc định 1), max_tokens (tối đa 65536), stop (chuỗi hoặc mảng các chuỗi), presence_penalty và frequency_penalty (0–2), logit_bias (bản đồ từ ID token đến bias) và stream (boolean). Đối với đầu vào đa phương thức, nội dung tin nhắn có thể là một mảng các phần (text, image_url, v.v.) theo định dạng vision của OpenAI. Đầu vào âm thanh và video có thể yêu cầu mã hóa cụ thể (ví dụ: base64). Không có tham số cho kích thước cửa sổ ngữ cảnh—mô hình tự động sử dụng tối đa 1.048.576 token. Nếu prompt của bạn vượt quá giới hạn, API sẽ trả về lỗi.
Có, việc di chuyển khá đơn giản vì OrcaRouter triển khai một API tương thích với OpenAI, giúp trừu tượng hóa nhà cung cấp bên dưới. Nếu bạn ban đầu sử dụng Google Generative AI SDK hoặc Vertex AI, bạn sẽ cần thay thế mã client của mình để sử dụng endpoint OpenAI. Cụ thể, hãy đổi base URL thành https://api.orcarouter.ai/v1 và chuyển sang SDK OpenAI. Định danh model thay đổi từ "gemini-3.5-flash" thành "google/gemini-3.5-flash". Xác thực chuyển từ Google OAuth sang một khóa API OrcaRouter đơn giản. Các định dạng phản hồi tương tự nhau, nhưng bạn có thể cần điều chỉnh cách cấu trúc đầu vào đa phương thức (ví dụ: sử dụng định dạng vision của OpenAI). Tài liệu của OrcaRouter cung cấp hướng dẫn di chuyển.
Các lỗi phổ biến bao gồm HTTP 400 do tham số không hợp lệ (ví dụ: vượt quá max_tokens, modality không được hỗ trợ), HTTP 401 do khóa API sai, HTTP 404 do model ID sai và HTTP 429 do giới hạn tốc độ. API trả về thông báo lỗi JSON kèm chi tiết. Đối với lỗi giới hạn token, hãy giảm độ dài đầu vào hoặc sử dụng cắt ngắn. Đối với giới hạn tốc độ, hãy triển khai exponential backoff. OrcaRouter có thể có giới hạn tốc độ riêng cho từng người dùng; hãy kiểm tra dashboard để biết chi tiết. Lỗi streaming có thể xuất hiện dưới dạng các chunk bị hỏng; hãy xử lý kết nối lại một cách nhẹ nhàng. Vì API tương thích với OpenAI, mã xử lý lỗi hiện có dành cho OpenAI thường sẽ hoạt động, nhưng hãy kiểm tra kỹ lưỡng.
Gemini 3.5 Flash được thiết kế cho tốc độ và chi phí, trong khi Gemini 3.5 Pro nhắm đến độ chính xác suy luận cao hơn và hiệu suất benchmark. Pro thường có mức giá cao hơn (không được nêu cụ thể ở đây) và có thể không hỗ trợ cùng ngữ cảnh 1M token (thường là 128K hoặc 200K). Flash phù hợp hơn cho sử dụng thời gian thực, thông lượng cao và các dự án có ngân sách hạn chế. Tuy nhiên, Pro vượt trội hơn Flash trong các tác vụ toán học phức tạp, khoa học và suy luận logic. Đối với các tác vụ đa phương thức, Flash xử lý hình ảnh và video nhưng có thể tạo ra mô tả ít chi tiết hơn Pro. Nếu ứng dụng của bạn yêu cầu đầu ra chất lượng cao nhất và có thể chấp nhận độ trễ và chi phí cao hơn, hãy chọn Pro. Nếu không, Flash là lựa chọn mặc định mạnh mẽ.
Cả hai đều là mô hình hiệu quả và nhanh, nhưng Gemini 3.5 Flash cung cấp cửa sổ ngữ cảnh lớn hơn đáng kể (1M so với 128K thông thường). Điều này làm cho nó phù hợp hơn cho các tác vụ yêu cầu xử lý tài liệu rất dài hoặc nhiều hình ảnh cùng lúc. Trên các bài benchmark, cả hai đều cạnh tranh, nhưng điểm số chính xác phụ thuộc vào bộ dữ liệu. GPT-4o Mini có thể có hiệu suất tốt hơn một chút trên các tác vụ đa ngôn ngữ do phân phối huấn luyện, trong khi Gemini 3.5 Flash có thể vượt trội trong tích hợp đa phương thức. Giá cả: Gemini 3.5 Flash là $1.50/$9.00 mỗi 1M token; GPT-4o Mini thường là $0.15/$0.60 mỗi 1M (không được nêu trong sự kiện, nhưng được biết đến rộng rãi). Vậy GPT-4o Mini rẻ hơn, nhưng Gemini 3.5 Flash cung cấp ngữ cảnh dài gấp 8 lần. Sự lựa chọn phụ thuộc vào nhu cầu về ngữ cảnh và ngân sách chi phí.
Claude 3 Haiku cũng là một mô hình nhanh, tiết kiệm chi phí từ Anthropic, với cửa sổ ngữ cảnh 200K token (nhỏ hơn Gemini 3.5 Flash). Cả hai đều hỗ trợ đầu vào đa phương thức, mặc dù Haiku chủ yếu là văn bản và hình ảnh. Giá của Gemini 3.5 Flash cao hơn (Haiku khoảng $0.25/$1.25 trên 1M token, được biết đến rộng rãi). Tuy nhiên, cửa sổ ngữ cảnh dài hơn và hỗ trợ âm thanh/video mang lại lợi thế cho Gemini 3.5 Flash trong các trường hợp sử dụng cụ thể. Hiệu suất về các tác vụ suy luận là tương đương, nhưng Gemini 3.5 Flash có thể làm theo hướng dẫn tốt hơn cho các ngữ cảnh dài. Nếu độ dài ngữ cảnh là yếu tố then chốt, Gemini 3.5 Flash thắng; nếu chi phí và các tác vụ đơn giản chiếm ưu thế, Haiku có thể rẻ hơn.
Lợi thế chính của Gemini 3.5 Flash so với các mô hình mã nguồn mở (như Llama 3.1 8B hoặc Mistral 7B) là cơ sở hạ tầng được quản lý và khả năng đa phương thức. Các mô hình mã nguồn mở yêu cầu bạn phải triển khai và duy trì máy chủ, xử lý việc mở rộng quy mô và thường có cửa sổ ngữ cảnh nhỏ hơn (thường là 8K–128K). Gemini 3.5 Flash cung cấp ngữ cảnh 1M ngay lập tức, hỗ trợ âm thanh/video gốc và không tốn chi phí ban đầu—chỉ trả tiền cho mỗi token qua OrcaRouter. Tuy nhiên, các mô hình mã nguồn mở có thể rẻ hơn ở khối lượng rất lớn nếu bạn có phần cứng riêng và chúng cung cấp quyền riêng tư dữ liệu đầy đủ. Đối với các startup và doanh nghiệp muốn tránh chi phí vận hành, Gemini 3.5 Flash là một lựa chọn tiện lợi.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.5-flash",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Đầu vào / 1M tokens | $1.50 |
| Đầu ra / 1M tokens | $9.00 |
| Đọc cache / 1M | $0.150 |
| Ghi cache / 1M | $0.083 |
| Tiền tệ | USD |