Google Gemini 3.1 Pro Preview: modelo multimodal insignia con ventana de contexto de 1M y puntuación de 95.6 τ²-Bench, accedido mediante la API de OrcaRouter.
Google Gemini 3.1 Pro Preview es un modelo insignia de Google, ofrecido en forma de vista previa. Es un modelo multimodal capaz de procesar entradas de texto, imagen, video, audio y archivos. El modelo está categorizado como nivel insignia, lo que indica que está diseñado para aplicaciones de alta demanda y complejas donde el rendimiento y la capacidad son críticos. Como vista previa, puede tener limitaciones en estabilidad o disponibilidad en comparación con las versiones estables. El acceso se proporciona a través de la API de OrcaRouter.
Este modelo está diseñado para desarrolladores y empresas que necesitan manejar grandes ventanas de contexto de hasta 1,048,576 tokens y requieren comprensión multimodal. Los casos de uso incluyen análisis de documentos largos, moderación de videos, chatbots avanzados con memoria de conversaciones completas y extracción compleja de datos de medios mixtos. El estado de vista previa lo hace adecuado para experimentación e integración temprana, pero los despliegues en producción deben evaluar la estabilidad. También es ideal para equipos que ya utilizan la API compatible con OpenAI de OrcaRouter y que desean probar las últimas capacidades emblemáticas de Google.
El modelo admite una ventana de contexto de 1,048,576 tokens (entrada) y una salida máxima de 65,536 tokens. Acepta entrada en múltiples modalidades: audio, archivo (p. ej., PDF, archivos de código), imagen, texto y video. La puntuación de referencia principal es 95.6 en τ²-Bench, una métrica que mide el rendimiento en la finalización de tareas. El modelo está clasificado como nivel insignia por su proveedor, Google. Se accede a través de la API de OrcaRouter en la URL base https://api.orcarouter.ai/v1 con el ID de modelo "google/gemini-3.1-pro-preview".
Como versión preliminar de Gemini 3.1 Pro, este modelo se sitúa al frente de la oferta actual de Google entre las versiones de vista previa. Ofrece una ventana de contexto significativamente mayor (1M tokens) y límites de salida más altos (65K tokens) en comparación con los modelos anteriores de Gemini 2.0 o las vistas previas de Gemini 3.0. La puntuación de 95.6 en el benchmark τ²-Bench proporciona un punto de referencia cuantitativo para el rendimiento orientado a tareas. En comparación con otros modelos en vista previa de Google, este está dirigido a los casos de uso más exigentes, donde se requiere tanto amplitud de contexto como profundidad de razonamiento.
Gemini 3.1 Pro Preview es multimodal y puede procesar entradas de audio, archivos (incluyendo documentos, código y hojas de cálculo), imágenes, texto y video. Esto le permite razonar entre diferentes tipos de datos dentro de una sola conversación. Por ejemplo, puedes subir una imagen junto con un mensaje de texto preguntando sobre su contenido, o analizar un video junto con una transcripción. La modalidad de entrada de archivos admite datos estructurados y no estructurados, lo que la hace útil para tareas de análisis de documentos y extracción de datos.
El modelo admite una ventana de contexto de 1 048 576 tokens para la entrada. Esta es una de las ventanas de contexto más grandes disponibles en un modelo insignia. Permite procesar documentos muy extensos, bases de código completas o horas de transcripciones de video en una sola solicitud. Cuando se combina con el límite de salida de 65 536 tokens, permite la generación extensa de informes, resúmenes o cadenas de razonamiento de múltiples pasos sin necesidad de paginar o fragmentar las entradas.
Los casos de uso ideales incluyen la síntesis de documentos largos, agentes conversacionales de múltiples turnos con memoria de todo el historial de usuarios, análisis de contenido de video, extracción compleja de datos de medios mixtos y tareas agentivas que requieren alta precisión (como se refleja en la puntuación τ²-Bench). El modelo también sobresale en tareas que combinan múltiples tipos de entrada, como analizar un gráfico en una imagen mientras se lee un pasaje de texto relacionado. Para tareas más simples, un modelo más económico puede ser más rentable, pero la sobrecarga del contexto grande se justifica para aplicaciones sofisticadas.
Para tareas que requieren solo generación de texto corto, clasificación simple o respuestas de baja latencia, un modelo más pequeño o no insignia puede ser más apropiado. La gran ventana de contexto y la capacidad multimodal de Gemini 3.1 Pro Preview conllevan un mayor costo computacional por solicitud. Si su caso de uso no necesita el contexto completo de 1M tokens o la salida de 65K tokens, considere usar un modelo más ligero disponible a través de OrcaRouter, como Gemini 2.0 Flash u otras alternativas rentables. Evalúe siempre la relación costo-rendimiento en función de su uso promedio de tokens de entrada y salida.
El modelo obtuvo una puntuación de 95.6 en τ²-Bench. τ²-Bench es un benchmark que evalúa el rendimiento en la finalización de tareas a través de una variedad de tareas de agencia, razonamiento y planificación. Una puntuación de 95.6 indica un alto nivel de precisión en la realización de dichas tareas. Aunque no se proporciona la composición exacta de τ²-Bench, la puntuación posiciona a este modelo como un fuerte competidor para la toma de decisiones estructurada y los desafíos de razonamiento en múltiples pasos. Sirve como un indicador cuantitativo de las capacidades del modelo en comparación con otros modelos grandes.
Los detalles de latencia para Gemini 3.1 Pro Preview no se proporcionan en los hechos disponibles. Sin embargo, dado su nivel insignia y gran ventana de contexto (1M tokens) y límite de salida (65K tokens), los tiempos de respuesta variarán según la longitud de entrada, la salida solicitada y la carga del servidor. Procesar entradas muy largas o generar salidas grandes tomará más tiempo que con modelos más pequeños. Para aplicaciones en tiempo real, considere usar un modelo más rápido. La API de OrcaRouter no proporciona garantías de latencia específicas para este modelo de vista previa.
Los puntos fuertes del modelo, inferidos a partir de sus especificaciones, incluyen una capacidad de contexto muy grande (1.048.576 tokens), un límite alto de tokens de salida (65.536 tokens), soporte de entrada multimodal y una puntuación τ²-Bench sólida (95,6). Estas características lo hacen adecuado para tareas complejas que requieren razonamiento sobre contextos largos y múltiples tipos de datos. El estado de vista previa puede permitir el acceso temprano a capacidades avanzadas antes del lanzamiento estable. La clasificación de nivel insignia sugiere que está diseñado para aplicaciones de alta demanda.
Como modelo de vista previa, Gemini 3.1 Pro Preview puede no tener la misma estabilidad, disponibilidad o soporte que una versión estable. Podría experimentar cambios o desaprobación sin previo aviso. No se proporcionan números específicos de latencia o rendimiento, por lo que se desconoce el rendimiento bajo carga. La puntuación de referencia en τ²-Bench es una métrica única y puede no reflejar el rendimiento en todas las tareas. Además, la ventana de contexto grande puede aumentar el costo y el tiempo de respuesta. Los usuarios deben probar minuciosamente antes del uso en producción.
Los detalles de precios para Gemini 3.1 Pro Preview no se proporcionan en los hechos disponibles. Como modelo insignia, generalmente tiene un precio más alto que las variantes más pequeñas o no insignia, con costos típicamente basados en la cantidad de tokens de entrada y salida. La ventana de contexto grande (1M tokens) y el límite de salida (65K tokens) pueden generar un uso significativo de tokens por solicitud. OrcaRouter puede aplicar precios por token tanto para la entrada como para la salida, con posibles recargos por entradas multimodales. Los usuarios deben consultar la página de precios de OrcaRouter para conocer las tarifas actuales.
Cuando se utiliza Gemini 3.1 Pro Preview, el factor de costo más grande es el consumo de tokens. Una sola solicitud que utilice el contexto completo de 1M tokens incurrirá en altos costos de tokens de entrada. De manera similar, generar hasta 65K tokens de salida aumentará los costos de salida. Para casos de uso que no requieran el contexto completo o la salida completa, los usuarios pueden reducir costos truncando las entradas o estableciendo un max_tokens más bajo. El almacenamiento en caché (si es compatible con OrcaRouter) podría reducir los costos de entrada redundantes, pero no se proporcionan detalles sobre el almacenamiento en caché. Evalúe los patrones de uso promedio para decidir si un modelo más barato es más económico.
Los datos disponibles no especifican si OrcaRouter ofrece almacenamiento en caché para Gemini 3.1 Pro Preview. Muchos proveedores de API ofrecen almacenamiento en caché de tokens para prefijos de entrada repetidos, lo que puede reducir costos y mejorar la latencia. Si el almacenamiento en caché está disponible, sería beneficioso para casos de uso con instrucciones repetidas frecuentes o prompts de sistema. Los usuarios deben consultar la documentación de OrcaRouter para conocer la compatibilidad con almacenamiento en caché. En ausencia de almacenamiento en caché, el costo total de los tokens de entrada se incurre en cada solicitud.
No se proporcionan comparaciones de precios específicas. Generalmente, los modelos insignia son más caros por token que los modelos más pequeños. Gemini 3.1 Pro Preview, al ser una vista previa insignia, probablemente tenga un costo por token más alto que Gemini 2.0 Flash o Gemini 2.0 Pro. Sin embargo, debido a que es una vista previa, el precio puede ser promocional o estar sujeto a cambios. Los usuarios deben comparar los precios listados de OrcaRouter para cada modelo de Google para determinar la opción más rentable para su carga de trabajo.
Para usar Gemini 3.1 Pro Preview en OrcaRouter, realice solicitudes al endpoint de API compatible con OpenAI en https://api.orcarouter.ai/v1/chat/completions. Establezca el parámetro model en "google/gemini-3.1-pro-preview". La API acepta parámetros estándar como messages, max_tokens, temperature y top_p. Para entradas multimodales, use el arreglo content con el tipo adecuado (text, image_url, etc.). El código de ejemplo y los SDK están disponibles en la documentación de OrcaRouter.
Puede configurar hasta 65,536 tokens de salida máxima usando el parámetro max_tokens. El modelo admite temperature, top_p y otros parámetros de muestreo comunes. Para entrada multimodal, especifique el tipo de contenido en el arreglo messages. La ventana de contexto de 1,048,576 tokens se aplica a todos los tokens de entrada combinados. Todos los parámetros siguen la especificación de completaciones de chat de OpenAI. Consulte la referencia de API de OrcaRouter para cualquier limitación específica del modelo o parámetros adicionales.
Migrar a OrcaRouter es sencillo porque utiliza una API compatible con OpenAI. Simplemente cambie la URL base a https://api.orcarouter.ai/v1 y actualice el ID del modelo a "google/gemini-3.1-pro-preview". Los métodos de autenticación (clave API) son similares. Si estaba utilizando un modelo diferente de Google, es posible que deba ajustarse a distintas capacidades (por ejemplo, tamaño de la ventana de contexto, manejo multimodal). Pruebe con solicitudes de muestra para asegurar la compatibilidad. La documentación de OrcaRouter proporciona guías de migración para configuraciones comunes.
Como modelo de vista previa, Gemini 3.1 Pro Preview puede tener límites de velocidad más bajos, menor confiabilidad o estar sujeto a cambios sin previo aviso. Está diseñado para pruebas y evaluación. Si necesita un modelo de producción estable, considere usar un modelo que no sea de vista previa. La API puede devolver respuestas más rápidas o más lentas según la carga. Supervise el rendimiento y tenga un modelo de respaldo. OrcaRouter puede actualizar el ID del modelo o dejar de ofrecer versiones de vista previa; planifique en consecuencia.
En comparación con modelos anteriores de Google como Gemini 2.0 Pro, esta vista previa ofrece una ventana de contexto sustancialmente más grande (1M frente a 32K tokens) y un límite de salida más alto (65K frente a 8K tokens). También admite modalidades de entrada adicionales como video y archivos de una manera más integrada. La puntuación τ²-Bench de 95.6 es específica de este modelo e indica un fuerte rendimiento en tareas. Sin embargo, como vista previa, puede carecer de la estabilidad de las versiones estables de Gemini 2.0 o Gemini 3.0. El nivel insignia lo sitúa por encima de Gemini 2.0 Flash en capacidad y costo.
No se proporcionan comparaciones directas de puntos de referencia. La ventana de contexto de 1M tokens del modelo se encuentra entre las más grandes disponibles, rivalizando o superando a muchos competidores. Su soporte de entrada multimodal es amplio (audio, archivo, imagen, texto, video). La puntuación de 95.6 en τ²-Bench ofrece un punto de comparación para tareas agentivas, pero sin las puntuaciones de otros modelos en el mismo benchmark, no es posible una comparación completa. Los usuarios deben evaluar según los requisitos de su caso de uso específico.
Elige este modelo cuando tu tarea requiera la ventana de contexto más grande posible (hasta 1M tokens) y una alta generación de salida (hasta 65K tokens). También es la mejor opción cuando necesitas manejar múltiples modalidades de entrada – especialmente archivos y video – en un solo paso de razonamiento. La alta puntuación τ²-Bench indica que sobresale en tareas agénticas complejas. Si ya usas OrcaRouter y deseas probar las capacidades emblemáticas más recientes de Google, esta vista previa es un buen punto de partida.
Opta por una alternativa si necesitas un modelo estable y verificado para producción (ya que esto es una vista previa). Si tu caso de uso tiene requisitos de baja latencia o un uso pequeño de tokens, un modelo más barato como Gemini 2.0 Flash o un modelo que no sea de Google sería más rentable. Además, si tu tarea no requiere el contexto completo de 1M de tokens o entrada multimodal, un modelo más pequeño puede proporcionar respuestas más rápidas y económicas. Evalúa las compensaciones entre capacidad, costo y confiabilidad para tu aplicación específica.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Nivel | Entrada / 1M tokens | Salida / 1M tokens | Lectura caché / 1M | Escritura caché / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| El nivel se selecciona por el número de tokens de entrada de cada solicitud | ||||