Google Gemini 3 Flash Preview – Мультимодальная модель с контекстом в 1M токенов, 88.2 MMLU-Pro, доступна через OrcaRouter.
Google Gemini 3 Flash Preview — это мультимодальная модель, разработанная Google, оптимизированная для скорости и обработки больших контекстов. Она принимает ввод в форматах текста, изображений, файлов, аудио и видео и может генерировать до 65 536 токенов на выходе. Модель имеет контекстное окно в 1 048 576 токенов, что позволяет ей рассуждать на очень длинных последовательностях. Она набирает 88,2 балла по бенчмарку MMLU-Pro, что свидетельствует о высокой производительности в широком спектре академических и логических задач. Эта предварительная версия доступна через совместимый с OpenAI API от OrcaRouter под идентификатором модели google/gemini-3-flash-preview.
Gemini 3 Flash Preview нацелен на разработчиков и организации, создающие приложения, требующие быстрого мультимодального рассуждения с большим контекстом. Он хорошо подходит для таких сценариев использования, как анализ видео, обработка длинных документов и понимание аудио-видео в реальном времени. Цена модели — $0.50 за миллион входных токенов и $3.00 за миллион выходных токенов — делает её доступной как для стартапов, так и для крупных компаний. Поскольку это предварительная версия, первые пользователи могут оценить её возможности до стабильного релиза. OrcaRouter обеспечивает плавный доступ к этой модели, включая конечные точки, совместимые с OpenAI, и нулевую наценку на тарифы провайдера.
Gemini 3 Flash Preview поддерживает пять режимов ввода: текст, изображение, файл, аудио и видео. Текст может быть простым или структурированным; изображения могут включать фотографии, диаграммы и скриншоты; файлы охватывают такие форматы, как PDF и документы; аудио включает речь и музыку; видео может обрабатываться как по визуальному, так и по аудиоряду. Модель может комбинировать несколько модальностей в одном запросе — например, анализируя видео и одновременно читая прикрепленный PDF-файл. Такая универсальность позволяет ей выполнять сложные, смешанные задачи без необходимости в отдельных конвейерах. Входные токены подсчитываются на основе правил токенизатора, специфичных для каждой модальности.
Gemini 3 Flash Preview — это предварительная версия модели Flash третьего поколения от Google. Как предварительная версия, она может претерпевать изменения в поведении, производительности и доступности. Google обычно обновляет предварительные модели на основе отзывов пользователей, и со временем они могут заменить конечные точки предварительных версий стабильными релизами. Хотя модель функциональна и подходит для тестирования и разработки, при развертывании в производственной среде следует отслеживать обновления. OrcaRouter зеркалирует конечную точку провайдера, гарантируя, что любые изменения от Google будут оперативно отражены. Идентификатор модели google/gemini-3-flash-preview останется неизменным, если только Google не изменит свое наименование.
Модель может обрабатывать текст и изображения вместе для таких задач, как создание подписей, ответы на вопросы по изображениям и извлечение данных из документов. Она способна читать текст с отсканированных документов, интерпретировать диаграммы и отвечать на вопросы о содержимом. Для ввода только текста поддерживаются понимание языка, суммаризация, перевод и генерация кода. Большое контекстное окно (1 048 576 токенов) позволяет обрабатывать очень длинные диалоги, целые книги или обширные базы кода. Её показатель MMLU-Pro, равный 88,2, свидетельствует о надежных рассуждениях по широкому кругу предметов, включая естественные науки, математику и гуманитарные дисциплины.
Аудиовход может быть прямой речью или записанным аудио; модель может расшифровывать, переводить или анализировать содержимое. Видеовход объединяет визуальные кадры и аудиодорожку — подходит для обобщения видеоконтента, обнаружения объектов или понимания сцен с голосовым повествованием. Контекстное окно означает, что длинные видео или аудиофайлы могут быть обработаны за один раз, если количество токенов остается в пределах лимита. Вывод основан на тексте; модель не генерирует аудио или видео. API OrcaRouter поддерживает отправку аудиофайлов (например, MP3, WAV) и видеофайлов (например, MP4) в составе содержимого сообщения.
Вариант Flash оптимизирован по скорости и стоимости, что делает его идеальным для приложений реального времени: живая транскрипция, интерактивные мультимодальные чат-боты, быстрая суммаризация документов и модерация контента разных типов носителей. Он также отлично подходит для сценариев с большим контекстом, таких как анализ полных стенограмм встреч или обработка длинных научных статей со встроенными иллюстрациями. Сферы использования, которые выигрывают как от скорости, так и от мультимодальных рассуждений — например, субтитрирование видео или проверка юридических документов, — отлично ему подходят. Однако для задач, требующих более глубоких рассуждений в рамках одной модальности (например, чистая генерация кода), специализированная модель может показать лучший результат.
Gemini 3 Flash Preview стоит $0.50 за 1 млн токенов на входе и $3.00 за 1 млн токенов на выходе, что недорого для мультимодальной модели, но не является самой низкой ценой на рынке. Если ваш случай использования — исключительно текст и требует ещё меньшей задержки или стоимости, рассмотрите специализированные текстовые модели, такие как Gemini 2.0 Flash (если доступна) или аналогичные по цене альтернативы. С другой стороны, если вам нужно превосходное рассуждение на сложных бенчмарках (например, MATH, GPQA) и у вас больший бюджет, вы можете выбрать более крупную модель, например Gemini 3 Pro или GPT-4o. Для высоконагруженных, чувствительных к задержке мультимодальных задач эта Flash-модель обеспечивает хороший баланс.
MMLU-Pro — это расширенная версия бенчмарка Massive Multitask Language Understanding, охватывающая 57 предметов с более сложными вопросами. Показатель 88.2 означает, что модель правильно ответила на 88.2% вопросов, что ставит её в число лучших моделей в этой оценке. Это свидетельствует о глубоких знаниях и способности рассуждать в самых разных областях — от права до физики. Данный результат сопоставим с другими передовыми моделями, особенно учитывая, что Flash-модели оптимизированы для скорости, а не для максимальной точности. Указанный показатель является основным фактическим результатом бенчмарка для этой модели и должен рассматриваться как общий индикатор возможностей, а не как гарантия для каждой конкретной задачи.
Хотя конкретные значения задержки не указаны, модели Flash от Google разработаны для высокой пропускной способности и низкой задержки. Эта модель призвана быть быстрее более крупных аналогов, таких как Gemini 3 Pro, что делает её подходящей для взаимодействий в реальном времени. Пользователи могут ожидать меньшего времени обработки запроса по сравнению с вариантами, не относящимися к Flash, хотя фактическая скорость зависит от таких факторов, как длина входных и выходных данных, а также одновременное использование. OrcaRouter не добавляет дополнительной задержки сверх API провайдера. Для наилучшей производительности делайте подсказки краткими и используйте потоковые ответы. Большой лимит вывода (65 536 токенов) может увеличить время генерации для более длинных ответов.
Оценка MMLU-Pro (88.2) указывает на сильные способности к рассуждению и общие знания. Способность модели обрабатывать контекст в 1M токенов и несколько модальностей ввода (текст, изображение, файл, аудио, видео) дает ей преимущество в мультимодальных задачах перед моделями, поддерживающими только текст. Flash модели традиционно преуспевают в скорости и экономической эффективности. Высокий лимит выходных токенов (65 536) позволяет генерировать длинные сводки или развернутые анализы. Эти сильные стороны делают ее универсальным вариантом для приложений, которым необходимо быстро обрабатывать разнообразные типы данных в больших масштабах.
Будучи предварительным просмотром Flash, он может не соответствовать точности более крупных моделей, не являющихся Flash, на специализированных эталонах (например, соревнования по программированию, многошаговые математические рассуждения). Модель не генерирует изображения или аудио — только текстовые выходные данные. Его статус предварительного просмотра означает, что он может иметь прерывистую доступность или частичное покрытие функций. Кроме того, хотя контекстное окно большое, очень длинные входные данные будут обрезаны, если они превышают 1,048,576 токенов. Показатель MMLU-Pro — это единственная точка данных; реальная производительность может варьироваться. Для задач, требующих абсолютной точности в нишевых областях, рекомендуется проверка.
Цены составляют $0.50 за миллион входных токенов и $3.00 за миллион выходных токенов. Эти тарифы предоставлены Google и выставляются по ставке провайдера — OrcaRouter не добавляет наценки. Входные токены включают весь текст, а также визуальные/аудио токены, закодированные из файлов, изображений и видео. Выходные токены — это только текст, сгенерированный моделью. Дополнительных сборов за доступ к API через OrcaRouter, помимо стоимости за токены, нет. Такая прозрачная цена позволяет легко оценить затраты: например, ввод 1 000 токенов и вывод 500 токенов будет стоить примерно $0.0005 + $0.0015 = $0.002.
При цене $0.50/1M входных и $3.00/1M выходных токенов Gemini 3 Flash Preview является конкурентоспособным вариантом для мультимодальной модели с контекстным окном в 1M токенов. Более крупные модели, такие как Gemini 3 Pro или GPT-4o, обычно стоят дороже за токен, особенно для выходных данных. Небольшие текстовые модели могут быть дешевле (например, Gemini 2.0 Flash по цене $0.10/$0.40 за 1M токенов, если применимо). Для мультимодальных задач эта модель предлагает экономически эффективную золотую середину. Нулевая наценка от OrcaRouter гарантирует, что вы платите ровно по тарифам Google. При высоком объёме использования даже небольшая разница в цене за токен может иметь значение, поэтому сравнивайте с профилем токенов вашей конкретной задачи.
Предоставленные данные о ценах не включают скидки за кэширование или объемные уровни. Google может предлагать сниженные тарифы для кэшированных токенов в некоторых моделях, но это не подтверждено для Gemini 3 Flash Preview. Цены OrcaRouter отражают сырую стоимость за токен без наценки, поэтому вы не переплачиваете за шлюз. Для крупномасштабных развертываний обращайтесь напрямую в Google для возможных корпоративных соглашений. Всегда проверяйте актуальные цены на странице тарифов OrcaRouter или в панели управления вашего аккаунта, так как ставки могут меняться поставщиком. В настоящее время применяются указанные ставки за миллион токенов.
Вы используете совместимый с OpenAI API от OrcaRouter по базовому URL https://api.orcarouter.ai/v1. Идентификатор модели — "google/gemini-3-flash-preview". Аутентификация осуществляется с помощью API-ключа от OrcaRouter. Например, с помощью curl вы можете отправить POST-запрос на /v1/chat/completions. Формат запроса соответствует структуре Chat Completions от OpenAI. Вы должны включить параметр model, установленный точно на идентификатор модели. OrcaRouter обрабатывает маршрутизацию к конечной точке Google. Убедитесь, что ваш API-ключ имеет соответствующие разрешения. Поддерживается потоковая передача путем установки stream: true в теле запроса.
Вы можете использовать стандартные параметры OpenAI Chat Completions: model, messages (с role: system, user, assistant), temperature, top_p, max_tokens (ограничено 65,536), stop sequences, frequency_penalty, presence_penalty, logit_bias и stream. Для мультимодальных сообщений включайте данные в кодировке base64 или идентификаторы файлов в массив content. Модель автоматически определяет модальность ввода. Обратите внимание, что не все функции OpenAI (например, вызов функций) могут поддерживаться — проверьте документацию OrcaRouter. Окно контекста размером 1,048,576 токенов применяется к общему количеству токенов сообщений. При превышении самые старые сообщения усекаются.
Если вы уже используете Google Vertex AI или Gemini API, миграция требует минимальных изменений. Измените базовый URL API на https://api.orcarouter.ai/v1, укажите идентификатор модели "google/gemini-3-flash-preview" и замените аутентификацию Google на ключ API OrcaRouter. Формат сообщений аналогичен — OrcaRouter переводит между форматами OpenAI и Google. Для мультимодального контента следуйте правилам прикрепления файлов OrcaRouter (например, данные в кодировке base64 с соответствующими MIME-типами). Протестируйте с небольшим количеством запросов, чтобы подтвердить паритетность. OrcaRouter предоставляет документацию поддержки и примеры кода для различных языков.
Структура ответа соответствует формату Chat Completion от OpenAI: объект с полями choices, usage и id. Каждый choice содержит объект message с полями role и content. Использование токенов сообщается в виде prompt_tokens и completion_tokens. Поле finish_reason указывает причину остановки генерации (stop, length). Потоковые ответы передают объекты delta. Если вы используете OpenAI SDK, вам нужно только изменить API-ключ и базовый URL. Конечная точка OrcaRouter ведет себя как API OpenAI, упрощая интеграцию. Любые особенности, специфичные для модели Google (например, фильтры безопасности), сохраняются; проверьте ответ на наличие потенциальных сообщений об отказе.
Gemini 3 Flash Preview — это следующее поколение модели Flash от Google, предлагающее больший контекстный окно (1,048,576 против предыдущих 32K–1M в зависимости от версии) и улучшенную мультимодальную поддержку, включая видео. Показатель MMLU-Pro, равный 88.2 для 3 Flash Preview, предполагает более высокие рассуждения, чем заявленные показатели для 2 Flash (не указаны, но обычно ниже). Ценообразование для 2 Flash ниже за токен, что делает его более бюджетным для простых задач. Gemini 3 Flash Preview быстрее и более способен для сложных мультимодальных рассуждений, но 2 Flash остаётся экономически эффективной альтернативой для задач, связанных только с текстом или простыми изображениями.
GPT-4o от OpenAI также поддерживает мультимодальные входные данные (текст, изображение, аудио) и имеет контекстное окно в 128K токенов, что значительно меньше, чем у Gemini 3 Flash Preview с 1M токенов. Ценообразование GPT-4o варьируется, но в целом выше за токен (например, $2.50/1M входных токенов, $10/1M выходных токенов). Более низкая стоимость и больший контекст Gemini 3 Flash Preview делают его более подходящим для длинных или высокообъемных мультимодальных задач. Однако GPT-4o может иметь иные сильные стороны в творческом написании или генерации кода, а его бенчмарки (например, MMLU) сопоставимы. Выбор зависит от потребностей в размере контекста и предпочтений по интеграции.
В линейке Google модель Gemini 3 Pro — это более крупная и дорогая модель, предназначенная для максимальной точности (более высокие баллы MMLU-Pro). Flash — это вариант, оптимизированный по стоимости и скорости. Gemini 2 Flash — старая и более дешёвая модель, но с меньшим контекстом и, возможно, более низкими показателями тестов. Gemini 3 Flash Preview предлагает компромисс: почти Pro-уровень рассуждений (88,2 MMLU-Pro) за небольшую часть стоимости. Для пользователей, которым нужен наибольший контекст и максимальная скорость, идеально подходит 3 Flash Preview. Для премиальных рассуждений с небольшими входными данными может быть лучше 3 Pro. Для простых задач можно обойтись 2 Flash или другими лёгкими моделями.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Ввод / 1M токенов | $0.500 |
| Вывод / 1M токенов | $3.00 |
| Чтение кэша / 1M | $0.050 |
| Валюта | USD |