Google Gemini 3.1 Pro Preview: флагманская мультимодальная модель с контекстным окном 1M и оценкой 95.6 τ²-Bench, доступная через OrcaRouter API.
Google Gemini 3.1 Pro Preview — это флагманская модель от Google, представленная в предварительной версии. Это мультимодальная модель, способная обрабатывать текстовые, графические, видео, аудио и файловые данные. Модель относится к флагманскому уровню, что означает ее предназначение для высоконагруженных сложных приложений, где критически важны производительность и емкость. Как предварительная версия, она может иметь ограничения по стабильности или доступности по сравнению со стабильными релизами. Доступ предоставляется через API OrcaRouter.
Эта модель предназначена для разработчиков и предприятий, которым требуется обрабатывать большие контекстные окна до 1 048 576 токенов и необходима поддержка мультимодального понимания. Примеры использования включают анализ длинных документов, модерацию видео, продвинутые чат-боты с памятью о всем диалоге и извлечение сложных данных из смешанных медиа. Статус предварительной версии делает её подходящей для экспериментов и ранней интеграции, но для промышленного развёртывания следует оценить стабильность. Она также идеально подходит командам, уже использующим OpenAI-совместимый API OrcaRouter, которые хотят протестировать новейшие флагманские возможности Google.
Модель поддерживает контекстное окно в 1 048 576 токенов (ввод) и максимальный вывод в 65 536 токенов. Она принимает ввод в нескольких модальностях: аудио, файлы (например, PDF, файлы кода), изображения, текст и видео. Основная оценка теста — 95.6 на τ²-Bench, метрике, измеряющей производительность выполнения задач. Модель классифицируется как флагманский уровень своим провайдером, Google. Доступ к ней осуществляется через API OrcaRouter по базовому URL https://api.orcarouter.ai/v1 с идентификатором модели "google/gemini-3.1-pro-preview".
Как предварительная версия Gemini 3.1 Pro, эта модель находится на вершине текущей линейки Google среди предварительных релизов. Она предлагает значительно больший контекстный буфер (1M токенов) и более высокие лимиты вывода (65K токенов) по сравнению с более ранними моделями Gemini 2.0 или предварительными версиями Gemini 3.0. Показатель τ²-Bench 95.6 обеспечивает количественный эталон для производительности, ориентированной на задачи. По сравнению с другими предварительными моделями от Google, эта нацелена на самые требовательные сценарии использования, где требуются как широта контекста, так и глубина рассуждений.
Gemini 3.1 Pro Preview является мультимодальной и может обрабатывать аудио, файлы (включая документы, код и электронные таблицы), изображения, текст и видео. Это позволяет ей рассуждать о различных типах данных в рамках одного разговора. Например, вы можете загрузить изображение вместе с текстовым запросом о его содержимом или проанализировать видео вместе с расшифровкой. Модальность ввода файлов поддерживает структурированные и неструктурированные данные, что делает её полезной для анализа документов и задач извлечения данных.
Модель поддерживает окно контекста размером 1 048 576 токенов для ввода. Это одно из самых больших окон контекста среди флагманских моделей. Оно позволяет обрабатывать очень длинные документы, целые кодовые базы или часы видеотранскрипции в одном запросе. В сочетании с лимитом вывода в 65 536 токенов это даёт возможность генерировать объёмные отчёты, сводки или цепочки многошаговых рассуждений без необходимости разбивать на страницы или разделять входные данные на части.
Идеальные случаи использования включают суммирование длинных документов, многошаговые разговорные агенты с памятью всей истории пользователя, анализ видеоконтента, сложное извлечение данных из смешанных медиа и агентные задачи, требующие высокой точности (о чем свидетельствует оценка τ²-Bench). Модель также отлично справляется с задачами, сочетающими несколько типов входных данных, например, анализ диаграммы на изображении при чтении соответствующего текстового фрагмента. Для более простых задач более дешевая модель может быть более экономически эффективной, но накладные расходы на большой контекст оправданы для сложных приложений.
Для задач, требующих лишь короткой генерации текста, простой классификации или ответов с низкой задержкой, более подходящей может быть меньшая или не флагманская модель. Предварительная версия Gemini 3.1 Pro Preview с её большим контекстным окном и мультимодальными возможностями имеет более высокую вычислительную стоимость на каждый запрос. Если ваш вариант использования не требует полного контекста в 1 млн токенов или вывода 65 тыс. токенов, рассмотрите возможность использования более лёгкой модели, доступной через OrcaRouter, например Gemini 2.0 Flash или других экономически эффективных альтернатив. Всегда оценивайте компромисс между стоимостью и производительностью на основе среднего использования входных и выходных токенов.
Модель достигла результата 95.6 на τ²-Bench. τ²-Bench — это эталон, оценивающий производительность выполнения задач в различных агентных, рассуждательных и планировочных задачах. Результат 95.6 указывает на высокий уровень точности при выполнении таких задач. Хотя точный состав τ²-Bench не указан, этот результат позиционирует модель как сильного исполнителя для структурированного принятия решений и многошаговых задач рассуждения. Он служит количественным показателем возможностей модели по сравнению с другими крупными моделями.
Детали задержки для Gemini 3.1 Pro Preview не предоставлены в доступных фактах. Однако, учитывая его флагманский уровень и большой контекстный окно (1M токенов) и лимит вывода (65K токенов), время ответа будет варьироваться в зависимости от длины ввода, запрошенного вывода и загрузки сервера. Обработка очень длинных входных данных или генерация больших выходных данных займет больше времени, чем с меньшими моделями. Для приложений реального времени рассмотрите возможность использования более быстрой модели. API OrcaRouter не предоставляет конкретных гарантий задержки для этой предварительной модели.
Сильные стороны модели, вытекающие из её спецификаций, включают очень большой объём контекста (1 048 576 токенов), высокий лимит выходных токенов (65 536 токенов), поддержку мультимодального ввода и высокий показатель τ²-Bench (95.6). Эти характеристики делают её подходящей для сложных задач, требующих рассуждений на длинных контекстах и работы с несколькими типами данных. Статус предварительной версии может предоставить ранний доступ к расширенным возможностям до стабильного релиза. Отнесение к высшему классу предполагает, что она предназначена для приложений с высокими требованиями.
Будучи предварительной моделью, Gemini 3.1 Pro Preview может не обладать той же стабильностью, доступностью или поддержкой, что и стабильный релиз. Она может подвергаться изменениям или прекращению поддержки без уведомления. Конкретные показатели задержки или пропускной способности не приводятся, поэтому производительность под нагрузкой неизвестна. Результат теста на τ²-Bench является единственным показателем и может не отражать производительность на всех задачах. Кроме того, большое окно контекста может увеличить стоимость и время ответа. Пользователям следует тщательно протестировать перед использованием в производственной среде.
Сведения о ценообразовании для Gemini 3.1 Pro Preview в доступных данных не указаны. Как флагманская модель, она обычно стоит дороже, чем меньшие или не флагманские варианты; стоимость, как правило, рассчитывается на основе количества токенов на входе и выходе. Большой контекстный окно (1M токенов) и лимит вывода (65K токенов) могут привести к значительному расходу токенов на один запрос. OrcaRouter может применять ценообразование за токен как для ввода, так и для вывода, с возможными дополнительными сборами за мультимодальные входные данные. Пользователям следует ознакомиться со страницей цен OrcaRouter для получения актуальных тарифов.
При использовании Gemini 3.1 Pro Preview основным фактором затрат является потребление токенов. Один запрос, использующий полный контекст в 1 млн токенов, приведет к высоким затратам на входные токены. Аналогично, генерация до 65 тыс. выходных токенов увеличит выходные затраты. Для случаев использования, не требующих полного контекста или вывода, пользователи могут снизить затраты, обрезая входные данные или устанавливая более низкое значение max_tokens. Кэширование (если оно поддерживается OrcaRouter) может уменьшить избыточные затраты на ввод, но сведения о кэшировании не предоставляются. Оцените средние шаблоны использования, чтобы решить, является ли более дешевая модель более экономичной.
Доступные факты не уточняют, предлагает ли OrcaRouter кэширование для Gemini 3.1 Pro Preview. Многие поставщики API предоставляют кэширование токенов для повторяющихся префиксов запросов, что может снизить затраты и улучшить задержку. Если кэширование доступно, это будет полезно для сценариев использования с частыми повторяющимися инструкциями или системными подсказками. Пользователям следует проверить документацию OrcaRouter на наличие поддержки кэширования. При отсутствии кэширования полная стоимость входных токенов взимается за каждый запрос.
Конкретные сравнения цен не приводятся. Как правило, флагманские модели дороже за токен, чем меньшие модели. Gemini 3.1 Pro Preview, будучи флагманской предварительной версией, вероятно, имеет более высокую стоимость за токен, чем Gemini 2.0 Flash или Gemini 2.0 Pro. Однако, поскольку это предварительная версия, цены могут быть рекламными или подлежать изменению. Пользователям следует сравнивать указанные цены OrcaRouter для каждой модели Google, чтобы определить наиболее экономически эффективный вариант для своей рабочей нагрузки.
Для использования Gemini 3.1 Pro Preview на OrcaRouter отправляйте запросы к совместимому с OpenAI API endpoint по адресу https://api.orcarouter.ai/v1/chat/completions. Установите параметр model в "google/gemini-3.1-pro-preview". API принимает стандартные параметры, такие как messages, max_tokens, temperature и top_p. Для мультимодальных входных данных используйте массив content с соответствующим типом (text, image_url и т.д.). Примеры кода и SDK доступны в документации OrcaRouter.
Вы можете настроить максимальное количество выходных токенов до 65 536 с помощью параметра max_tokens. Модель поддерживает temperature, top_p и другие стандартные параметры семплирования. Для мультимодального ввода укажите тип содержимого в массиве messages. Окно контекста в 1 048 576 токенов применяется ко всем входным токенам в совокупности. Все параметры соответствуют спецификации OpenAI chat completions. Обратитесь к справочнику API OrcaRouter для получения информации об ограничениях конкретной модели или дополнительных параметрах.
Переход на OrcaRouter прост, поскольку он использует API, совместимый с OpenAI. Просто измените базовый URL на https://api.orcarouter.ai/v1 и обновите идентификатор модели на "google/gemini-3.1-pro-preview". Методы аутентификации (API-ключ) аналогичны. Если вы использовали другую модель Google, возможно, потребуется настроиться на другие возможности (например, размер контекстного окна, мультимодальная обработка). Проверьте совместимость с помощью тестовых запросов. В документации OrcaRouter приведены руководства по миграции для типовых конфигураций.
As a preview model, Gemini 3.1 Pro Preview may have lower rate limits, less reliability, or be subject to changes without notice. It is intended for testing and evaluation. If you need a stable production model, consider using a non-preview model. The API may return responses faster or slower depending on load. Monitor performance and have a fallback model. OrcaRouter may update the model ID or deprecate preview versions; plan accordingly.
По сравнению с более ранними моделями Google, такими как Gemini 2.0 Pro, эта предварительная версия предлагает существенно большее контекстное окно (1M против 32K токенов) и более высокий лимит вывода (65K против 8K токенов). Она также поддерживает дополнительные модальности ввода, такие как видео и файлы, более интегрированным образом. Оценка τ²-Bench 95.6 является специфичной для этой модели и указывает на высокую производительность задач. Однако, будучи предварительной версией, она может не обладать стабильностью стабильных релизов Gemini 2.0 или Gemini 3.0. Флагманский уровень ставит её выше Gemini 2.0 Flash по возможностям и стоимости.
Прямые сравнения с эталонными тестами не приводятся. Контекстное окно модели в 1 миллион токенов является одним из самых больших среди доступных, конкурируя или превосходя многие аналоги. Поддержка мультимодального ввода широка (аудио, файлы, изображения, текст, видео). Показатель τ²-Bench, равный 95.6, дает точку отсчета для сравнения агентных задач, но без результатов других моделей на том же тесте полное сравнение невозможно. Пользователям следует оценивать модель исходя из требований их конкретного случая использования.
Выберите эту модель, когда ваша задача требует максимально возможное окно контекста (до 1M токенов) и высокую генерацию вывода (до 65K токенов). Это также лучший выбор, когда вам нужно обрабатывать несколько модальностей ввода – особенно файлы и видео – за один проход рассуждения. Высокий балл τ²-Bench указывает на то, что модель отлично справляется со сложными агентными задачами. Если вы уже используете OrcaRouter и хотите протестировать последние флагманские возможности Google, эта предварительная версия является хорошей отправной точкой.
Выберите альтернативу, если вам нужна стабильная, проверенная в production модель (поскольку это предварительная версия). Если ваш вариант использования имеет низкие требования к задержке или небольшое количество токенов, более экономичной будет более дешевая модель, например Gemini 2.0 Flash или модель не от Google. Кроме того, если ваша задача не требует полного контекста в 1 млн токенов или мультимодального ввода, модель меньшего размера может давать более быстрые и дешевые ответы. Оцените компромиссы между возможностями, стоимостью и надежностью для вашего конкретного приложения.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Уровень | Ввод / 1M токенов | Вывод / 1M токенов | Чтение кэша / 1M | Запись кэша / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| Уровень выбирается по количеству входных токенов запроса | ||||