Google Gemini 3.1 Pro Preview 사용자 지정 도구 – 1M 컨텍스트, 95.6 τ²-Bench, OrcaRouter를 통한 멀티모달.
Google Gemini 3.1 Pro Preview Custom Tools는 Google이 개발한 프리뷰 단계의 대규모 언어 모델입니다. 장기 추론, 대규모 컨텍스트 창, 외부 도구 통합이 필요한 작업을 위해 설계되었습니다. 이 모델은 텍스트, 오디오, 이미지, 비디오, 파일 형식의 입력을 지원하여 콘텐츠 이해와 생성을 모두 아우르는 멀티모달 솔루션입니다. OrcaRouter를 통해 기본 URL https://api.orcarouter.ai/v1에서 모델 ID "google/gemini-3.1-pro-preview-customtools"를 사용하여 OpenAI 호환 API로 모델을 호출할 수 있습니다. 이러한 호환성은 이미 OpenAI SDK 또는 유사한 클라이언트에 익숙한 팀의 통합을 간소화합니다. 프리뷰 모델이므로 안정적인 릴리스에 비해 가용성이나 성능에 제한이 있을 수 있습니다.
이 모델은 최대 100만 토큰의 매우 긴 문서를 처리하거나 여러 입력 양식(텍스트, 오디오, 이미지, 비디오, 파일)을 단일 추론 단계에서 결합해야 하는 개발자, 데이터 과학자, 기업 팀에 적합합니다. 특히 사용자 정의 도구 사용(모델이 외부 함수나 API를 호출할 시기와 방법을 결정해야 하는 작업)에 가치가 있습니다. 연구, 법률 분석, 미디어 처리 또는 고급 자동화를 수행하는 팀은 큰 컨텍스트와 강력한 벤치마크 성능을 유용하게 활용할 수 있습니다. 미리보기 버전이므로 가동 시간이나 지연 시간이 보장되어야 하는 프로덕션 시스템보다는 프로토타이핑 및 평가에 이상적일 수 있습니다.
해당 모델은 1,048,576개의 토큰 컨텍스트 창과 최대 65,536개의 출력 토큰을 제공합니다. 입력 방식은 텍스트, 오디오, 이미지, 비디오 및 파일 업로드를 지원합니다. 주요 벤치마크 점수는 τ²-Bench(도구 사용 추론 테스트)에서 95.6점입니다. 가격은 입력 토큰 100만 개당 $4.00, 출력 토큰 100만 개당 $18.00이며, OrcaRouter를 통해 액세스할 때 마크업이 없습니다. API는 OpenAI와 호환되며 모델 ID는 "google/gemini-3.1-pro-preview-customtools"입니다. 미리보기 버전으로서 최신 기능을 반영하지만 변경될 수 있습니다.
Gemini 3.1 Pro Preview Custom Tools는 텍스트, 오디오, 이미지, 비디오 및 파일 형식의 입력을 지원합니다. 따라서 텍스트 프롬프트와 함께 오디오 녹음, 사진, 비디오 클립 및 업로드된 문서를 단일 요청에 포함할 수 있습니다. 이 모델은 이러한 여러 모달리티를 추론하여 텍스트 출력을 생성할 수 있습니다. 이러한 멀티모달 기능 덕분에 이미지를 설명하고 이에 대한 질문을 하거나, 분석을 수행하면서 오디오를 전사하거나, 비디오와 텍스트 명령을 결합하는 것이 가능합니다. 정확한 해상도, 코덱 또는 파일 크기 제한은 제공된 사실에는 포함되어 있지 않지만, 이 모델은 다양한 미디어를 기본적으로 처리할 수 있습니다.
"Custom Tools" 지정은 모델이 추론 과정의 일부로 사용자 정의 함수나 API를 호출하도록 최적화되었음을 의미합니다. 일반적인 워크플로에서는 함수 정의(이름, 매개변수, 설명 포함) 집합을 제공하고, 모델이 요청을 처리하기 위해 언제 호출할지 결정합니다. 이 기능은 데이터베이스 쿼리, 이메일 전송, 코드 스니펫 실행과 같은 자율적 워크플로를 가능하게 합니다. 모델은 여러 도구 호출을 연결할 수 있습니다. 높은 τ²-Bench 점수(95.6)는 계획 수립과 도구 조율이 필요한 작업에서 강력한 성능을 나타냅니다.
이 모델은 1,048,576개의 토큰(약 100만 토큰에 해당)의 컨텍스트 윈도우를 지원합니다. 이를 통해 전체 책, 긴 코드베이스, 다중 턴 대화 또는 방대한 로그를 컨텍스트로 전달할 수 있습니다. 최대 출력은 요청당 65,536 토큰입니다. 이러한 크기는 현재 모델 환경에서 가장 큰 규모에 속합니다. 큰 컨텍스트는 전체 대화록 요약, 대규모 문서 세트에 대한 질문 응답, 또는 매우 긴 대화 기록을 자르지 않고 유지하는 작업 등에 유용합니다.
Gemini 3.1 Pro Preview Custom Tools는 입력 토큰 100만 개당 $4.00, 출력 토큰 100만 개당 $18.00로 책정되어 프리미엄 제품입니다. 짧은 형식의 텍스트 분류, 기본 요약, 단일 턴 채팅과 같은 간단한 작업에는 더 작고 저렴한 모델이 비용 효율적일 수 있습니다. 1M 컨텍스트 윈도우, 멀티모달 입력, 또는 도구 사용 벤치마크 성능이 필요하지 않다면 OrcaRouter의 Gemini 1.5 Flash(저비용, 저지연) 또는 기타 경량 모델과 같은 대안을 고려하세요. 작업 복잡성이 더 높은 토큰당 비용을 정당화할 때 이 모델을 사용하세요.
이 모델은 τ²-Bench(τ²-Bench)에서 주요 점수 95.6점을 달성했습니다. 이 벤치마크는 모델이 도구 사용 추론(tool‑use reasoning)을 수행하는 능력, 즉 함수 호출의 계획 및 실행을 통해 실제 작업을 완료하는 능력을 평가합니다. 높은 점수는 자율적 작업 완료 및 의사 결정에서 강한 역량을 시사합니다. τ²-Bench는 실제 시나리오의 복잡성에 초점을 맞춘 비교적 새로운 벤치마크입니다. 95.6점은 매우 높은 점수로 간주되지만, 단일 벤치마크가 모델 품질의 모든 측면을 완전히 포착하지는 않는다는 점에 유의해야 합니다. 이 모델은 여기에 나열되지 않은 다른 벤치마크에서는 다른 성능을 보일 수 있습니다.
τ²-Bench 결과에 따르면, 이 모델은 구조적 추론과 도구 오케스트레이션이 필요한 작업에서 뛰어난 성능을 보입니다. 여기에는 다단계 검색, 데이터 변환, API 호출이 포함됩니다. 또한 큰 컨텍스트 윈도우 덕분에 긴 지침이나 외부 데이터도 일관성을 잃지 않고 처리할 수 있습니다. 멀티모달 입력 기능 또한 강점으로, 다양한 미디어 유형을 넘나들며 추론할 수 있습니다. 예를 들어 비디오 클립을 분석하고 관련 질문에 답변하거나, 오디오 파일을 텍스트 쿼리와 함께 처리해야 하는 사용 사례에서 이 모델은 텍스트 전용 대안에 비해 유리한 위치에 있습니다.
완벽한 벤치마크나 모델은 존재하지 않습니다. τ²-Bench 점수 95.6이 모든 실제 작업, 특히 벤치마크 범위를 벗어난 작업에서 동일한 성능을 보장하지는 않습니다. 모델은 매우 특정한 도메인 지식이 필요한 작업이나 τ²-Bench가 다루지 않는 안전 관련 평가에서 성능이 저하될 수 있습니다. 프리뷰 모델로서 완전히 출시된 모델에 비해 지연 시간이 높거나 신뢰성이 낮을 수 있습니다. 제공된 사실에는 지연 시간 수치가 포함되어 있지 않으므로, 자체 워크로드로 테스트해야 합니다. 또한, 큰 컨텍스트 윈도우는 처리 시간과 비용을 증가시킬 수 있으며, 모든 작업이 백만 토큰의 전체 용량을 활용하는 것은 아닙니다.
Gemini 3.1 Pro Preview Custom Tools에 대한 정확한 지연 시간 수치는 제공된 사실에 포함되어 있지 않습니다. 일반적으로 매우 큰 컨텍스트 윈도우(100만 토큰 이상)를 가진 모델은 요청 처리에 더 오랜 시간이 걸릴 수 있으며, 특히 전체 컨텍스트를 사용하는 경우 그러합니다. 지연 시간은 요청 복잡성, 도구 호출 횟수, 현재 서버 부하에 따라 달라집니다. OrcaRouter는 첫 번째 토큰까지의 시간을 줄이기 위해 스트리밍 응답을 제공할 수 있습니다. 실시간 애플리케이션의 경우 더 작은 모델과 성능을 비교하는 것이 좋습니다. 일반적인 프롬프트를 사용하여 자체 지연 시간 테스트를 실행하여 속도가 요구 사항을 충족하는지 확인하십시오.
Gemini 3.1 Pro Preview Custom Tools의 가격은 입력 토큰 100만 개당 $4.00, 출력 토큰 100만 개당 $18.00입니다. 이 요금은 OrcaRouter를 통해 이용할 때 제공업체 요율로 청구되며, 마크업이 전혀 없습니다. 즉, 표시된 가격이 Google이 청구하는 가격이며, OrcaRouter의 추가 수수료는 없습니다. 입력 토큰에는 프롬프트의 모든 토큰(텍스트, 이미지 토큰, 오디오 토큰 등)이 포함됩니다. 출력 토큰은 생성된 응답입니다. 모델의 최대 출력은 65,536 토큰이므로, 단일 요청에서 출력 토큰 비용은 최대 65,536 / 1,000,000 * 18.00 ≈ $1.18까지 발생할 수 있으며, 여기에 입력 토큰 비용이 추가됩니다.
"Zero markup"은 OrcaRouter가 공급자(Google)의 정확한 토큰당 비용을 추가 요금 없이 그대로 전달한다는 의미입니다. Google의 API를 직접 호출하는 것과 동일한 요율로 입력 토큰 100만 개당 $4.00, 출력 토큰 100만 개당 $18.00을 지불하게 됩니다. OrcaRouter는 게이트웨이 서비스에 대해 별도의 구독 또는 사용 요금이 있을 수 있지만, 모델의 토큰당 가격은 부풀려지지 않습니다. 이러한 가격 구조는 투명하며 정확한 예산 책정에 도움이 됩니다. 추가 요금이 있는지 항상 OrcaRouter의 최신 약관을 확인하세요.
높은 토큰당 비용은 사용량을 신중하게 추정해야 함을 의미합니다. 전체 1M 컨텍스트 창을 사용하는 프롬프트의 경우 입력 비용이 요청당 $4.00에 달할 수 있습니다. 작업이 더 작은 컨텍스트로도 수행될 수 있다면, 자르거나 더 저렴한 모델을 사용하는 것을 고려하세요. 사용 가능한 사실에는 캐싱이 언급되어 있지 않습니다. OrcaRouter가 프롬프트 캐싱을 제공한다면, 반복되는 입력에 대해 비용을 절감할 수 있습니다. 또한 이 모델은 미리보기 버전이므로 안정적인 버전이 출시되면 가격이 변경될 수 있습니다. 작업 부하의 일반적인 토큰 수를 평가하여 비용이 정당화되는지 결정하세요.
OrcaRouter의 OpenAI 호환 API를 통해 모델에 액세스합니다. 기본 URL을 `https://api.orcarouter.ai/v1`로 설정하고 모델 ID로 `google/gemini-3.1-pro-preview-customtools`를 사용하세요. 이 API는 표준 OpenAI 스타일의 요청 형식을 허용합니다. Python의 openai 라이브러리를 사용한 예시: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` 유효한 OrcaRouter API 키가 필요합니다. 인증은 `Authorization` 헤더를 통해 이루어집니다.
API가 OpenAI와 호환되므로 `temperature`, `top_p`, `max_tokens`, `stop`, `frequency_penalty`, `presence_penalty`, `stream`과 같은 표준 매개변수를 사용할 수 있습니다. 멀티모달 요청의 경우 배열 형식을 사용하여 메시지 콘텐츠에 이미지, 오디오, 비디오 또는 파일을 포함할 수 있습니다. 도구 사용의 경우 `tools` 매개변수에 JSON 객체 목록으로 함수를 정의합니다. 모델은 응답에 `tool_calls`를 반환할 수 있습니다. Google 자체 API에 특화된 매개변수(예: `safetySettings`)는 사용 가능할 수도 있고 그렇지 않을 수도 있습니다. 자세한 내용은 OrcaRouter의 문서를 참조하세요. 정확한 매개변수 지원은 미리보기 모델에 따라 다를 수 있습니다.
표준 OpenAI API에서 마이그레이션하는 것은 간단합니다. `base_url`을 `https://api.orcarouter.ai/v1`로 변경하고 `model` 파라미터를 `google/gemini-3.1-pro-preview-customtools`로 업데이트하세요. API 키를 OrcaRouter 키로 교체하세요. `openai.ChatCompletion.create` 또는 최신 `client.chat.completions.create`를 사용하는 대부분의 코드는 최소한의 변경만으로 동작합니다. 툴 호출을 사용하는 경우 형식은 OpenAI와 동일합니다. 단, 이 모델은 다른 토크나이저를 사용하며 동일한 프롬프트에 대해 다른 출력을 생성할 수 있습니다. 전환 전에 충분히 테스트하세요.
OrcaRouter는 API 키 인증을 사용합니다. 요청 헤더에 `Authorization: Bearer YOUR_ORCAROUTER_API_KEY`와 같이 키를 포함시키세요. 키는 OrcaRouter에 가입하여 얻을 수 있습니다. 키는 비밀로 유지되어야 하며 클라이언트 측 코드에 노출되지 않아야 합니다. 정확한 인증 방법은 다를 수 있으므로 항상 OrcaRouter의 최신 API 문서를 참조하세요. 일부 엔드포인트는 추가 인증 방법을 지원할 수 있지만, OpenAI 호환 엔드포인트는 표준 Bearer 토큰 패턴을 사용합니다. 요청이 HTTPS를 통해 전송되도록 하세요.
Gemini 1.5 Pro는 또한 1M 토큰 컨텍스트 윈도우와 멀티모달 입력을 지원하지만, 3.1 Pro Preview Custom Tools는 τ²-Bench 점수 95.6을 달성했으며, 이는 1.5 시리즈에 비해 상당한 개선입니다(1.5의 정확한 수치는 제공되지 않음). "Custom Tools" 최적화가 핵심 차별점이며, 도구 사용 작업에서 더 나은 성능을 나타냅니다. 미리보기 모델의 가격은 더 높습니다: Gemini 1.5 Pro는 일반적으로 더 저렴합니다. 최신 도구 사용 성능이 필요하지 않다면, Gemini 1.5 Pro가 더 비용 효율적인 선택일 수 있습니다. 3.1 Pro는 미리보기 버전이므로, 안정적인 1.5 Pro보다 안정성이나 가동 시간 보장이 낮을 수 있습니다.
GPT‑4o는 다중 모드 입력 및 도구 사용도 지원하지만, 컨텍스트 윈도우는 일반적으로 128k 토큰으로, 이 모델의 1M 토큰보다 훨씬 작습니다. τ²-Bench 점수는 제공된 사실에 포함되어 있지 않으므로 직접 비교는 불가능합니다. 일반적으로 Gemini 3.1 Pro Preview Custom Tools는 훨씬 더 큰 컨텍스트 윈도우를 제공하여 장문 문서 작업에 더 적합합니다. GPT‑4o는 특정 언어 벤치마크에서 더 나은 성능을 보이거나 더 넓은 생태계 지원을 제공할 수 있습니다. GPT‑4o의 가격도 다릅니다. 토큰당 비용을 비교하되, 이 모델의 출력 비용($18/M)이 상대적으로 높다는 점에 유의하십시오.
Claude 3 Opus는 200k 토큰의 컨텍스트 창을 지원하며, 이는 Gemini 3.1 Pro Preview의 1M보다 훨씬 적습니다. τ²-Bench와 같은 벤치마크는 일반적으로 Claude에 대해 보고되지 않으므로 직접적인 비교는 추측에 불과합니다. Claude는 강력한 추론 및 명령 수행 능력으로 알려져 있습니다. 둘 중 선택은 1M 컨텍스트와 멀티모달 입력의 필요성 대 안전성, 글쓰기 스타일 또는 생태계의 특정 강점에 따라 달라집니다. 사용 사례에서 매우 큰 문서나 여러 미디어 유형을 처리해야 하는 경우, Gemini 모델의 더 큰 컨텍스트와 멀티모달 지원이 장점입니다. OrcaRouter를 통한 비용과 가용성도 고려 요소입니다.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 입력 / 1M tokens | $4.00 |
| 출력 / 1M tokens | $18.00 |
| 캐시 읽기 / 1M | $0.400 |
| 통화 | USD |