Google Gemini 3.1 Pro Preview: 플래그십 멀티모달 모델로, 1M 컨텍스트 윈도우와 95.6 τ²-Bench 점수를 갖추고 있으며, OrcaRouter API를 통해 접근 가능합니다.
Google Gemini 3.1 Pro Preview는 Google의 플래그십 모델로, 프리뷰 형태로 제공됩니다. 텍스트, 이미지, 비디오, 오디오 및 파일 입력을 처리할 수 있는 멀티모달 모델입니다. 이 모델은 플래그십 등급으로 분류되며, 성능과 용량이 중요한 고수요 및 복잡한 애플리케이션을 위해 설계되었음을 의미합니다. 프리뷰 버전이므로 안정적인 릴리스에 비해 안정성이나 가용성에 제한이 있을 수 있습니다. OrcaRouter API를 통해 액세스할 수 있습니다.
이 모델은 최대 1,048,576개의 토큰까지 처리해야 하는 대규모 컨텍스트 윈도우와 멀티모달 이해를 필요로 하는 개발자와 기업을 대상으로 합니다. 사용 사례로는 장문 문서 분석, 비디오 모더레이션, 전체 대화를 기억하는 고급 챗봇, 혼합 매체에서의 복잡한 데이터 추출이 포함됩니다. 미리보기 상태이므로 실험 및 초기 통합에 적합하지만, 프로덕션 배포 시 안정성을 평가해야 합니다. 또한 이미 OrcaRouter의 OpenAI 호환 API를 사용 중이며 Google의 최신 플래그십 기능을 테스트하려는 팀에게도 이상적입니다.
이 모델은 1,048,576개의 토큰(입력) 컨텍스트 창과 최대 65,536개의 토큰 출력을 지원합니다. 오디오, 파일(예: PDF, 코드 파일), 이미지, 텍스트, 비디오 등 여러 형식의 입력을 받습니다. 주요 벤치마크 점수는 작업 완료 성능을 측정하는 τ²-Bench에서 95.6입니다. 이 모델은 제공업체인 Google에서 플래그십 등급으로 분류됩니다. 이는 기본 URL https://api.orcarouter.ai/v1에서 모델 ID "google/gemini-3.1-pro-preview"로 OrcaRouter의 API를 통해 액세스됩니다.
Gemini 3.1 Pro의 미리보기 버전으로, 이 모델은 현재 Google의 프리뷰 릴리스 중 최상위에 위치합니다. 이전 Gemini 2.0 모델이나 Gemini 3.0 프리뷰에 비해 훨씬 더 큰 컨텍스트 창(100만 토큰)과 더 높은 출력 제한(65,000 토큰)을 제공합니다. τ²-Bench 점수 95.6은 작업 지향 성능에 대한 정량적 벤치마크를 제시합니다. Google의 다른 프리뷰 모델과 비교하여, 이 모델은 컨텍스트의 폭과 추론의 깊이가 모두 요구되는 가장 까다로운 사용 사례를 대상으로 합니다.
Gemini 3.1 Pro Preview는 멀티모달로 오디오, 파일(문서, 코드, 스프레드시트 포함), 이미지, 텍스트, 비디오 입력을 처리할 수 있습니다. 이를 통해 단일 대화 내에서 다양한 데이터 유형에 걸쳐 추론할 수 있습니다. 예를 들어, 이미지와 함께 해당 내용을 묻는 텍스트 프롬프트를 업로드하거나, 비디오와 대본을 함께 분석할 수 있습니다. 파일 입력 모드는 구조화 및 비구조화 데이터를 지원하므로 문서 분석 및 데이터 추출 작업에 유용합니다.
이 모델은 입력에 대해 1,048,576개의 토큰 컨텍스트 창을 지원합니다. 이는 플래그십 모델에서 사용 가능한 가장 큰 컨텍스트 창 중 하나입니다. 이를 통해 단일 요청으로 매우 긴 문서, 전체 코드베이스 또는 수 시간 분량의 비디오 대본을 처리할 수 있습니다. 65,536개의 토큰 출력 제한과 결합하면 입력을 페이지로 나누거나 청크로 분할할 필요 없이 보고서, 요약 또는 다단계 추론 체인을 광범위하게 생성할 수 있습니다.
이상적인 사용 사례로는 긴 문서 요약, 전체 사용자 기록을 기억하는 다중 턴 대화형 에이전트, 비디오 콘텐츠 분석, 혼합 미디어에서의 복잡한 데이터 추출, 그리고 높은 정확도(τ²-Bench 점수에 반영됨)가 요구되는 에이전트 작업이 있습니다. 또한 이 모델은 차트가 포함된 이미지를 분석하면서 관련 텍스트 구절을 읽는 등 여러 입력 유형을 결합한 작업에서 뛰어난 성능을 보입니다. 간단한 작업의 경우 저렴한 모델이 더 비용 효율적일 수 있지만, 큰 컨텍스트의 오버헤드는 정교한 애플리케이션에서 정당화됩니다.
짧은 텍스트 생성, 간단한 분류 또는 낮은 지연 시간 응답만 필요한 작업의 경우 더 작거나 플래그십이 아닌 모델이 더 적합할 수 있습니다. Gemini 3.1 Pro Preview의 큰 컨텍스트 윈도우와 멀티모달 기능은 요청당 더 높은 계산 비용을 수반합니다. 사용 사례에서 전체 1M 토큰 컨텍스트 또는 65K 토큰 출력이 필요하지 않은 경우 OrcaRouter를 통해 제공되는 더 가벼운 모델(예: Gemini 2.0 Flash 또는 기타 비용 효율적인 대안)을 사용하는 것을 고려하세요. 항상 평균 입력 및 출력 토큰 사용량을 기준으로 비용-성능 트레이드오프를 평가하십시오.
해당 모델은 τ²-Bench에서 95.6점을 기록했습니다. τ²-Bench는 다양한 에이전트(agentic), 추론(reasoning), 계획(planning) 작업 전반에 걸쳐 작업 완료 성능을 평가하는 벤치마크입니다. 95.6점은 이러한 작업을 완료하는 데 있어 높은 정확도를 나타냅니다. τ²-Bench의 정확한 구성은 제공되지 않았지만, 이 점수는 해당 모델을 구조화된 의사 결정 및 다단계 추론 과제에서 강력한 성능을 발휘하는 모델로 자리매김하게 합니다. 이는 다른 대규모 모델과 비교한 해당 모델의 성능에 대한 정량적 지표 역할을 합니다.
Gemini 3.1 Pro Preview의 지연 시간 세부 정보는 제공된 사실에 포함되어 있지 않습니다. 그러나 플래그십 계층과 큰 컨텍스트 창(1M 토큰) 및 출력 제한(65K 토큰)을 고려할 때, 응답 시간은 입력 길이, 요청된 출력 및 서버 부하에 따라 달라집니다. 매우 긴 입력을 처리하거나 대량의 출력을 생성하는 것은 소규모 모델보다 더 오래 걸립니다. 실시간 애플리케이션의 경우 더 빠른 모델을 사용하는 것을 고려하십시오. OrcaRouter의 API는 이 프리뷰 모델에 대한 특정 지연 시간 보장을 제공하지 않습니다.
모델의 사양에서 추론된 강점으로는 매우 큰 컨텍스트 용량(1,048,576 토큰), 높은 출력 토큰 제한(65,536 토큰), 멀티모달 입력 지원, 그리고 강력한 τ²-Bench 점수(95.6)가 있습니다. 이러한 기능들은 긴 컨텍스트와 여러 데이터 유형에 대한 추론이 필요한 복잡한 작업에 적합합니다. 프리뷰 상태를 통해 안정적인 릴리스 전에 고급 기능에 조기 액세스할 수 있습니다. 플래그십 계층 분류는 고수요 애플리케이션을 위해 설계되었음을 시사합니다.
미리보기 모델로서 Gemini 3.1 Pro Preview는 안정적인 릴리스와 동일한 안정성, 가용성 또는 지원을 제공하지 않을 수 있습니다. 사전 통지 없이 변경되거나 사용 중단될 수 있습니다. 특정 지연 시간이나 처리량 수치는 제공되지 않으므로 부하 상태에서의 성능은 알 수 없습니다. τ²-Bench의 벤치마크 점수는 단일 지표이며 모든 작업에서의 성능을 반영하지 않을 수 있습니다. 또한 큰 컨텍스트 윈도우는 비용과 응답 시간을 증가시킬 수 있습니다. 사용자는 프로덕션 사용 전에 철저히 테스트해야 합니다.
Gemini 3.1 Pro Preview의 가격 세부 정보는 제공된 사실에 포함되어 있지 않습니다. 플래그십 모델로서 일반적으로 소형 또는 비플래그십 변형보다 높은 가격이 책정되며, 비용은 일반적으로 입력 및 출력 토큰 수를 기준으로 합니다. 큰 컨텍스트 창(1M 토큰)과 출력 제한(65K 토큰)으로 인해 요청당 상당한 토큰 사용이 발생할 수 있습니다. OrcaRouter는 입력 및 출력 모두에 대해 토큰당 가격을 적용할 수 있으며, 멀티모달 입력에 대해 추가 요금이 부과될 수 있습니다. 사용자는 최신 요금을 확인하기 위해 OrcaRouter의 가격 페이지를 참조해야 합니다.
Gemini 3.1 Pro Preview를 사용할 때 가장 큰 비용 요인은 토큰 소비입니다. 전체 1M 토큰 컨텍스트를 사용하는 단일 요청은 높은 입력 토큰 비용을 발생시킵니다. 마찬가지로 최대 65K 출력 토큰을 생성하면 출력 비용이 증가합니다. 전체 컨텍스트나 출력이 필요하지 않은 사용 사례의 경우 사용자는 입력을 자르거나 더 낮은 max_tokens를 설정하여 비용을 절감할 수 있습니다. 캐싱(OrcaRouter에서 지원하는 경우)은 중복 입력 비용을 줄일 수 있지만 캐싱에 대한 세부 정보는 제공되지 않습니다. 평균 사용 패턴을 평가하여 더 저렴한 모델이 더 경제적인지 결정하세요.
사용 가능한 사실은 OrcaRouter가 Gemini 3.1 Pro Preview에 대한 캐싱을 제공하는지 명시하지 않습니다. 많은 API 제공업체는 반복되는 입력 접두사에 대한 토큰 캐싱을 제공하여 비용을 낮추고 지연 시간을 개선할 수 있습니다. 캐싱이 가능하다면 빈번하게 반복되는 명령어나 시스템 프롬프트가 있는 사용 사례에 유용할 것입니다. 사용자는 캐싱 지원 여부를 확인하기 위해 OrcaRouter의 문서를 확인해야 합니다. 캐싱이 없는 경우 각 요청에 대해 입력 토큰의 전체 비용이 발생합니다.
특정 가격 비교는 제공되지 않습니다. 일반적으로 플래그십 모델은 소형 모델보다 토큰당 비용이 더 높습니다. Gemini 3.1 Pro Preview는 플래그십 프리뷰로서 Gemini 2.0 Flash나 Gemini 2.0 Pro보다 토큰당 비용이 더 높을 가능성이 있습니다. 그러나 프리뷰이기 때문에 가격이 프로모션 적용되거나 변경될 수 있습니다. 사용자는 각 Google 모델에 대해 OrcaRouter에 표시된 가격을 비교하여 워크로드에 가장 비용 효율적인 옵션을 결정해야 합니다.
OrcaRouter에서 Gemini 3.1 Pro Preview를 사용하려면 OpenAI 호환 API 엔드포인트 https://api.orcarouter.ai/v1/chat/completions에 요청을 보내세요. model 파라미터를 "google/gemini-3.1-pro-preview"로 설정합니다. 이 API는 messages, max_tokens, temperature, top_p와 같은 표준 파라미터를 지원합니다. 멀티모달 입력의 경우 적절한 type(text, image_url 등)을 가진 content array를 사용하세요. 예제 코드와 SDK는 OrcaRouter 문서에서 확인할 수 있습니다.
max_tokens 매개변수를 사용하여 최대 출력 토큰을 65,536개까지 구성할 수 있습니다. 모델은 temperature, top_p 및 기타 일반적인 샘플링 매개변수를 지원합니다. 멀티모달 입력의 경우 messages 배열에서 콘텐츠 유형을 지정하세요. 1,048,576개의 토큰으로 구성된 컨텍스트 창은 모든 입력 토큰의 합계에 적용됩니다. 모든 매개변수는 OpenAI 채팅 완료 사양을 따릅니다. 모델별 제한 사항이나 추가 매개변수는 OrcaRouter의 API 참조를 참조하세요.
OrcaRouter로 마이그레이션하는 것은 OpenAI와 호환되는 API를 사용하기 때문에 간단합니다. 기본 URL을 https://api.orcarouter.ai/v1로 변경하고 모델 ID를 "google/gemini-3.1-pro-preview"로 업데이트하기만 하면 됩니다. 인증 방법(API 키)은 유사합니다. 다른 Google 모델을 사용하고 있었다면, 다른 기능(예: 컨텍스트 윈도우 크기, 멀티모달 처리)에 맞게 조정해야 할 수 있습니다. 호환성을 확인하기 위해 샘플 요청으로 테스트하십시오. OrcaRouter의 문서는 일반적인 설정에 대한 마이그레이션 가이드를 제공합니다.
프리뷰 모델인 Gemini 3.1 Pro Preview는 낮은 속도 제한, 낮은 신뢰성, 또는 사전 통지 없이 변경될 수 있습니다. 이는 테스트 및 평가를 목적으로 합니다. 안정적인 프로덕션 모델이 필요하다면, 비프리뷰 모델 사용을 고려하세요. API는 부하에 따라 응답 속도가 빠르거나 느릴 수 있습니다. 성능을 모니터링하고 대체 모델을 준비하세요. OrcaRouter는 모델 ID를 업데이트하거나 프리뷰 버전을 폐기할 수 있으니, 이에 따라 계획을 수립하세요.
이전 Google 모델(Gemini 2.0 Pro 등)과 비교할 때, 이 프리뷰는 훨씬 더 큰 컨텍스트 윈도우(1M 토큰 대 32K 토큰)와 높은 출력 한도(65K 토큰 대 8K 토큰)를 제공합니다. 또한 비디오 및 파일과 같은 추가 입력 방식을 더 통합된 방식으로 지원합니다. τ²-Bench 점수 95.6은 이 모델에 특화된 지표로, 강력한 작업 성능을 나타냅니다. 그러나 프리뷰 버전이므로 Gemini 2.0 또는 Gemini 3.0 안정 버전의 안정성을 갖추지 못할 수 있습니다. 플래그십 등급은 Gemini 2.0 Flash보다 성능과 비용 면에서 상위에 위치합니다.
직접적인 벤치마크 비교는 제공되지 않습니다. 이 모델의 100만 토큰 컨텍스트 윈도우는 현재 사용 가능한 가장 큰 수준 중 하나로, 많은 경쟁 모델들과 맞먹거나 그 이상입니다. 멀티모달 입력 지원(오디오, 파일, 이미지, 텍스트, 비디오)이 광범위합니다. τ²-Bench 점수 95.6은 에이전트 작업에 대한 비교 지점을 제공하지만, 동일한 벤치마크에서 다른 모델의 점수가 없으므로 완전한 비교는 불가능합니다. 사용자는 자신의 특정 사용 사례 요구 사항에 따라 평가해야 합니다.
작업에 가능한 가장 큰 컨텍스트 창(최대 1M 토큰)과 높은 출력 생성(최대 65K 토큰)이 필요한 경우 이 모델을 선택하세요. 또한 단일 추론 패스에서 여러 입력 모달리티(특히 파일 및 비디오)를 처리해야 하는 경우 최선의 선택입니다. 높은 τ²-Bench 점수는 복잡한 에이전트 작업에서 뛰어난 성능을 보여줍니다. 이미 OrcaRouter를 사용 중이고 Google의 최신 플래그십 기능을 테스트하려는 경우, 이 프리뷰는 좋은 시작점입니다.
안정적이고 프로덕션에서 검증된 모델이 필요하다면 대안을 선택하세요(이 모델은 프리뷰이므로). 사용 사례에 지연 시간 요구 사항이 낮거나 토큰 사용량이 적은 경우, Gemini 2.0 Flash 또는 비구글 모델 같은 더 저렴한 모델이 더 비용 효율적입니다. 또한, 전체 1M 토큰 컨텍스트나 멀티모달 입력이 필요하지 않은 작업에는 더 작은 모델이 더 빠르고 저렴한 응답을 제공할 수 있습니다. 특정 애플리케이션에 대해 성능, 비용, 신뢰성 간의 절충점을 평가하세요.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 등급 | 입력 / 1M tokens | 출력 / 1M tokens | 캐시 읽기 / 1M | 캐시 쓰기 / 1M |
|---|---|---|---|---|
| ≤ 200K | $2.00 | $12.00 | $0.200 | $0.375 |
| ≤ ∞ | $4.00 | $18.00 | $0.400 | $0.375 |
| 등급은 요청별 입력 토큰 수에 따라 결정됩니다 | ||||