Google Gemini 3 Flash Preview – Modelo multimodal con contexto de 1M tokens, 88.2 MMLU-Pro, accesible a través de OrcaRouter.
Google Gemini 3 Flash Preview es un modelo multimodal desarrollado por Google, optimizado para velocidad y procesamiento de contextos largos. Acepta entrada en formatos de texto, imagen, archivo, audio y video, y puede generar hasta 65,536 tokens de salida. El modelo tiene una ventana de contexto de 1,048,576 tokens, lo que le permite razonar a través de secuencias muy largas. Obtiene una puntuación de 88.2 en el benchmark MMLU-Pro, lo que indica un rendimiento sólido en una amplia gama de tareas académicas y de razonamiento. Esta versión preliminar está disponible a través de la API compatible con OpenAI de OrcaRouter bajo el ID de modelo google/gemini-3-flash-preview.
Gemini 3 Flash Preview se dirige a desarrolladores y organizaciones que construyen aplicaciones que requieren razonamiento multimodal rápido con gran contexto. Es ideal para casos de uso como análisis de video, resumen de documentos largos y comprensión de audio y video en tiempo real. El precio del modelo —$0.50 por millón de tokens de entrada y $3.00 por millón de tokens de salida— lo hace accesible tanto para startups como para empresas. Debido a que es una versión preliminar, los primeros usuarios pueden evaluar sus capacidades antes de un lanzamiento estable. OrcaRouter proporciona acceso sin interrupciones a este modelo, incluyendo endpoints compatibles con OpenAI y sin margen de beneficio en las tarifas del proveedor.
Gemini 3 Flash Preview admite cinco modalidades de entrada: texto, imagen, archivo, audio y video. El texto puede ser plano o estructurado; las imágenes pueden incluir fotos, diagramas y capturas de pantalla; los archivos cubren formatos como PDF y documentos; el audio incluye habla y música; el video puede procesarse con pistas tanto visuales como de audio. El modelo puede combinar múltiples modalidades en un solo prompt—por ejemplo, analizando un video mientras también lee un PDF adjunto. Esta versatilidad le permite manejar tareas complejas de medios mixtos sin requerir pipelines separados. Los tokens de entrada se cuentan según las reglas específicas del tokenizador de cada modalidad.
Gemini 3 Flash Preview es una versión preliminar del modelo Flash de tercera generación de Google. Como vista previa, puede experimentar cambios en el comportamiento, el rendimiento y la disponibilidad. Google normalmente actualiza los modelos de vista previa según los comentarios de los usuarios, y eventualmente pueden reemplazar los endpoints de vista previa con versiones estables. Aunque el modelo es funcional y adecuado para pruebas y desarrollo, los despliegues en producción deben monitorear las actualizaciones. OrcaRouter refleja el endpoint del proveedor, asegurando que cualquier cambio de Google se refleje rápidamente. El ID del modelo google/gemini-3-flash-preview se mantendrá consistente a menos que Google modifique su nomenclatura.
El modelo puede procesar texto e imágenes juntos para tareas como descripción de imágenes, respuesta a preguntas visuales y extracción de documentos. Puede leer texto de documentos escaneados, interpretar gráficos y responder preguntas sobre el contenido. Para entradas solo de texto, admite comprensión del lenguaje, resumen, traducción y generación de código. La gran ventana de contexto (1 048 576 tokens) le permite manejar conversaciones muy largas, libros completos o bases de código extensas. Su puntuación MMLU-Pro de 88.2 sugiere un razonamiento sólido en un amplio conjunto de materias, incluidas ciencias, matemáticas y humanidades.
La entrada de audio puede ser voz directa o audio grabado; el modelo puede transcribir, traducir o analizar el contenido. La entrada de video combina fotogramas visuales y la pista de audio, lo cual es adecuado para resumir contenido de video, detectar objetos o comprender escenas con narración hablada. La ventana de contexto significa que se pueden procesar videos o archivos de audio largos en una sola interacción, siempre que el recuento de tokens se ajuste al límite. La salida se basa en texto; el modelo no genera audio ni video. La API de OrcaRouter admite el envío de archivos de audio (por ejemplo, MP3, WAV) y archivos de video (por ejemplo, MP4) como parte del contenido del mensaje.
La variante Flash está optimizada para velocidad y costo, lo que la hace ideal para aplicaciones en tiempo real: transcripción en vivo, chatbots multimodales interactivos, resumen rápido de documentos y moderación de contenido en distintos tipos de medios. También destaca en escenarios que requieren un contexto amplio, como analizar transcripciones completas de reuniones o procesar extensos trabajos de investigación con figuras incrustadas. Los casos de uso que se benefician tanto de la velocidad como del razonamiento multimodal —como el subtitulado de videos o la revisión de documentos legales— son adecuados. Sin embargo, para tareas que requieren un razonamiento más profundo en una sola modalidad (por ejemplo, generación de código puro), un modelo especializado podría desempeñarse mejor.
Gemini 3 Flash Preview tiene un precio de $0.50/1M de entrada y $3.00/1M de salida, lo cual es bajo para un modelo multimodal pero no el más bajo disponible. Si su caso de uso es puramente de texto y requiere una latencia o costo aún menores, considere modelos de texto dedicados como Gemini 2.0 Flash (si está disponible) o alternativas de precio similar. Por otro lado, si necesita un razonamiento superior en benchmarks complejos (p. ej., MATH, GPQA) y tiene un presupuesto mayor, podría optar por un modelo más grande como Gemini 3 Pro o GPT-4o. Para cargas de trabajo multimodales de alto volumen y sensibles a la latencia, este modelo Flash ofrece un buen equilibrio.
MMLU-Pro es una versión ampliada del benchmark Massive Multitask Language Understanding, que cubre 57 materias con preguntas más desafiantes. Una puntuación de 88.2 indica que el modelo respondió correctamente el 88.2% de las preguntas, situándolo entre los modelos de mejor rendimiento en esta evaluación. Refleja un fuerte conocimiento y razonamiento en diversos dominios, desde derecho hasta física. Esta puntuación es competitiva con otros modelos de frontera, especialmente considerando que los modelos Flash están optimizados para velocidad en lugar de precisión máxima. La puntuación proporcionada es el hecho principal del benchmark para este modelo y debe interpretarse como un indicador general de capacidad, no como una garantía para cada tarea específica.
Si bien no se proporcionan cifras específicas de latencia, los modelos Flash de Google están diseñados para un alto rendimiento y baja latencia. El modelo pretende ser más rápido que sus contrapartes más grandes, como Gemini 3 Pro, lo que lo hace adecuado para interacciones en tiempo real. Los usuarios pueden esperar tiempos por solicitud más bajos en comparación con las variantes no Flash, aunque la velocidad real depende de factores como la longitud de entrada, la longitud de salida y el uso concurrente. OrcaRouter no introduce latencia adicional más allá de la API del proveedor. Para obtener el mejor rendimiento, mantenga las indicaciones concisas y use respuestas de transmisión. El límite grande de salida (65,536 tokens) puede aumentar el tiempo de generación para respuestas más largas.
El puntaje MMLU-Pro (88.2) sugiere un razonamiento sólido y conocimiento general. La capacidad del modelo para manejar un contexto de 1M-token y múltiples modalidades de entrada (texto, imagen, archivo, audio, video) le da una ventaja en tareas multimodales sobre modelos que solo soportan texto. Los modelos Flash tradicionalmente destacan en velocidad y eficiencia de costos. El límite alto de tokens de salida (65,536) permite generar resúmenes extensos o análisis detallados. Estas fortalezas lo convierten en una opción versátil para aplicaciones que necesitan procesar rápidamente diversos tipos de datos a gran escala.
Como vista previa Flash, puede que no iguale la precisión de modelos más grandes y no Flash en puntos de referencia especializados (p. ej., competencias de programación, razonamiento matemático de varios pasos). El modelo no genera imágenes ni audio, solo produce texto. Su estado de vista previa significa que podría tener disponibilidad intermitente o cobertura parcial de funciones. Además, aunque la ventana de contexto es grande, las entradas muy largas se truncarán si superan 1,048,576 tokens. La puntuación MMLU-Pro es un único dato; el rendimiento en el mundo real puede variar. Para tareas que requieren precisión absoluta en dominios especializados, se recomienda la validación.
El precio es de $0.50 por millón de tokens de entrada y $3.00 por millón de tokens de salida. Estas tarifas son proporcionadas por Google y se facturan según la tarifa del proveedor; OrcaRouter no agrega ningún margen. Los tokens de entrada incluyen todo el texto y los tokens visuales/auditivos codificados a partir de archivos, imágenes y video. Los tokens de salida son solo el texto generado por el modelo. No hay cargos adicionales por el acceso a la API a través de OrcaRouter más allá de los costos por token. Este precio transparente le permite estimar los costos fácilmente: por ejemplo, una entrada de 1,000 tokens y una salida de 500 tokens costaría aproximadamente $0.0005 + $0.0015 = $0.002.
A $0.50/1M de entrada y $3.00/1M de salida, Gemini 3 Flash Preview tiene un precio competitivo para un modelo multimodal con una ventana de contexto de 1M. Los modelos más grandes como Gemini 3 Pro o GPT-4o suelen costar más por token, especialmente en la salida. Los modelos más pequeños solo de texto pueden ser más baratos (p. ej., Gemini 2.0 Flash a $0.10/$0.40 por 1M de tokens, si corresponde). Para cargas de trabajo multimodales, este modelo ofrece un punto medio rentable. El margen cero de OrcaRouter garantiza que pagues exactamente la tarifa de Google. Si tu uso es alto, incluso una pequeña diferencia por token puede importar, así que compáralo con el perfil de tokens de tu tarea específica.
Los datos de precios proporcionados no incluyen descuentos por almacenamiento en caché ni niveles por volumen. Es posible que Google ofrezca tarifas reducidas por tokens en caché en algunos modelos, pero eso no está confirmado para Gemini 3 Flash Preview. El precio de OrcaRouter refleja el costo bruto por token sin margen adicional, por lo que no se paga un extra por la puerta de enlace. Para implementaciones a gran escala, contacta directamente a Google para posibles acuerdos empresariales. Siempre verifica los precios más recientes en la página de precios de OrcaRouter o en el panel de tu cuenta, ya que las tarifas están sujetas a cambios por parte del proveedor. Actualmente, las tarifas indicadas por millón de tokens son las que aplican.
Utilizas la API compatible con OpenAI de OrcaRouter en la URL base https://api.orcarouter.ai/v1. El ID del modelo es "google/gemini-3-flash-preview". La autenticación se gestiona mediante una clave API de OrcaRouter. Por ejemplo, con curl puedes enviar una solicitud POST a /v1/chat/completions. El formato de la solicitud sigue la estructura de Chat Completions de OpenAI. Debes incluir el parámetro model establecido exactamente al ID del modelo. OrcaRouter maneja el enrutamiento hacia el endpoint de Google. Asegúrate de que tu clave API tenga los permisos adecuados. El streaming es compatible configurando stream: true en el cuerpo de la solicitud.
Puede usar los parámetros estándar de OpenAI Chat Completions: model, messages (con role: system, user, assistant), temperature, top_p, max_tokens (límite de 65,536), stop sequences, frequency_penalty, presence_penalty, logit_bias y stream. Para mensajes multimodales, incluya datos codificados en base64 o IDs de archivo en el arreglo content. El modelo detecta automáticamente la modalidad de entrada. Tenga en cuenta que no todas las funciones de OpenAI (como function calling) pueden ser compatibles; consulte la documentación de OrcaRouter. La ventana de contexto de 1,048,576 tokens se aplica al recuento total de tokens de los mensajes. Si se supera, los mensajes más antiguos se truncan.
Si ya estás utilizando Vertex AI de Google o la API de Gemini, migrar requiere cambios mínimos. Ajusta tu URL base de API a https://api.orcarouter.ai/v1, apunta al ID del modelo "google/gemini-3-flash-preview" y reemplaza tu autenticación de Google por una clave API de OrcaRouter. El formato de los mensajes es similar: OrcaRouter traduce entre los formatos de OpenAI y Google. Para contenido multimodal, asegúrate de seguir las pautas de adjuntos de OrcaRouter (por ejemplo, datos codificados en base64 con tipos MIME adecuados). Realiza pruebas con un número reducido de solicitudes para confirmar la paridad. OrcaRouter proporciona documentación de soporte y código de ejemplo para varios lenguajes.
La estructura de la respuesta coincide con el formato de Chat Completion de OpenAI: un objeto con choices, usage e id. Cada choice incluye un objeto message con role y content. El uso de tokens se reporta como prompt_tokens y completion_tokens. El campo finish_reason indica por qué se detuvo la generación (stop, length). Las respuestas en streaming emiten objetos delta. Si estás usando un SDK de OpenAI, solo necesitas cambiar la clave API y la URL base. El endpoint de OrcaRouter se comporta como una API de OpenAI, simplificando la integración. Cualquier peculiaridad específica del modelo de Google (por ejemplo, filtros de seguridad) se conserva; verifica la respuesta en busca de posibles mensajes de rechazo.
Gemini 3 Flash Preview es la próxima generación del modelo Flash de Google, que ofrece una ventana de contexto más grande (1,048,576 vs. los anteriores 32K–1M según la versión) y soporte multimodal mejorado, incluido video. La puntuación MMLU-Pro de 88.2 para 3 Flash Preview sugiere un mejor razonamiento que las puntuaciones reportadas para 2 Flash (no proporcionadas, pero generalmente más bajas). El precio de 2 Flash es menor por token, lo que lo hace más económico para tareas simples. Gemini 3 Flash Preview es más rápido y más capaz para razonamiento multimodal complejo, pero 2 Flash sigue siendo una alternativa rentable para tareas de solo texto o imágenes simples.
GPT-4o de OpenAI también admite entradas multimodales (texto, imagen, audio) y tiene una ventana de contexto de 128K tokens, significativamente más pequeña que el 1M de tokens de Gemini 3 Flash Preview. Los precios de GPT-4o varían, pero generalmente son más altos por token (por ejemplo, $2.50/1M de entrada, $10/1M de salida). El menor costo y el contexto más grande de Gemini 3 Flash Preview lo hacen más adecuado para tareas multimodales de formato largo o alto volumen. Sin embargo, GPT-4o puede tener diferentes fortalezas en escritura creativa o generación de código, y sus puntos de referencia (por ejemplo, MMLU) son comparables. La elección depende de las necesidades de tamaño de contexto y preferencias de integración.
Dentro de la línea de Google, Gemini 3 Pro es un modelo más grande y más caro diseñado para máxima precisión (puntuaciones más altas en MMLU-Pro). Flash es la variante optimizada para costo y velocidad. Gemini 2 Flash es más antiguo y más barato, pero con un contexto más pequeño y posiblemente puntuaciones de referencia más bajas. Gemini 3 Flash Preview ofrece un punto medio: razonamiento casi al nivel de Pro (88.2 MMLU-Pro) a una fracción del costo. Para usuarios que necesitan el contexto más grande y la mejor velocidad, 3 Flash Preview es ideal. Para razonamiento premium en entradas más pequeñas, 3 Pro puede ser mejor. Para tareas simples, 2 Flash u otros modelos ligeros podrían ser suficientes.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Entrada / 1M tokens | $0.500 |
| Salida / 1M tokens | $3.00 |
| Lectura caché / 1M | $0.050 |
| Moneda | USD |