Google Gemini 3 Flash Preview – 1M 토큰 컨텍스트를 갖춘 멀티모달 모델, 88.2 MMLU-Pro, OrcaRouter를 통해 접근 가능.
Google Gemini 3 Flash Preview는 Google이 개발한 멀티모달 모델로, 속도와 대규모 컨텍스트 처리에 최적화되어 있습니다. 텍스트, 이미지, 파일, 오디오, 비디오 형식의 입력을 받아들이며 최대 65,536개의 토큰을 출력할 수 있습니다. 이 모델은 1,048,576개의 토큰으로 구성된 컨텍스트 창을 가지고 있어 매우 긴 시퀀스를 추론할 수 있습니다. MMLU-Pro 벤치마크에서 88.2점을 기록하여 다양한 학문 및 추론 작업에서 강력한 성능을 나타냅니다. 이 프리뷰 버전은 OrcaRouter의 OpenAI 호환 API를 통해 모델 ID google/gemini-3-flash-preview로 제공됩니다.
Gemini 3 Flash Preview는 대규모 컨텍스트와 함께 빠른 멀티모달 추론이 필요한 애플리케이션을 구축하는 개발자 및 조직을 대상으로 합니다. 이는 비디오 분석, 장문 문서 요약, 실시간 오디오-비디오 이해와 같은 사용 사례에 적합합니다. 모델의 가격은 입력 토큰 100만 개당 $0.50, 출력 토큰 100만 개당 $3.00으로, 스타트업과 기업 모두 접근하기 쉽습니다. 프리뷰 버전이므로, 초기 사용자는 안정적인 릴리스 전에 기능을 평가할 수 있습니다. OrcaRouter는 OpenAI 호환 엔드포인트와 제공업체 요금에 대한 제로 마크업을 포함하여 이 모델에 대한 원활한 액세스를 제공합니다.
Gemini 3 Flash Preview는 다섯 가지 입력 모드를 지원합니다: 텍스트, 이미지, 파일, 오디오, 비디오. 텍스트는 일반 텍스트 또는 구조화된 텍스트일 수 있고, 이미지는 사진, 다이어그램, 스크린샷을 포함할 수 있으며, 파일은 PDF 및 문서와 같은 형식을 포함하고, 오디오는 음성과 음악을 포함하며, 비디오는 시각 및 오디오 트랙을 모두 처리할 수 있습니다. 이 모델은 단일 프롬프트에서 여러 모드를 결합할 수 있습니다. 예를 들어 비디오를 분석하면서 첨부된 PDF를 읽는 것이 가능합니다. 이러한 다용도성 덕분에 별도의 파이프라인 없이도 복잡한 혼합 미디어 작업을 처리할 수 있습니다. 입력 토큰은 각 모드의 특정 토크나이저 규칙에 따라 계산됩니다.
Gemini 3 Flash Preview는 Google의 3세대 Flash 모델의 사전 출시 버전입니다. 프리뷰 버전이므로 동작, 성능 및 가용성에 변경이 있을 수 있습니다. Google은 일반적으로 사용자 피드백을 기반으로 프리뷰 모델을 업데이트하며, 결국 프리뷰 엔드포인트를 안정적인 릴리스로 대체할 수 있습니다. 이 모델은 기능적이며 테스트 및 개발에 적합하지만, 프로덕션 배포 시에는 업데이트를 모니터링해야 합니다. OrcaRouter는 제공자의 엔드포인트를 미러링하여 Google의 변경 사항이 신속하게 반영되도록 보장합니다. 모델 ID google/gemini-3-flash-preview는 Google이 이름을 변경하지 않는 한 일관성을 유지합니다.
이 모델은 캡셔닝, 시각적 질문 응답, 문서 추출과 같은 작업을 위해 텍스트와 이미지를 함께 처리할 수 있습니다. 스캔된 문서에서 텍스트를 읽고, 차트를 해석하며, 콘텐츠에 대한 질문에 답변할 수 있습니다. 텍스트 전용 입력의 경우 언어 이해, 요약, 번역, 코드 생성을 지원합니다. 큰 컨텍스트 창(1,048,576 토큰) 덕분에 매우 긴 대화, 전체 책, 방대한 코드베이스를 처리할 수 있습니다. MMLU-Pro 점수 88.2는 과학, 수학, 인문학을 포함한 광범위한 주제에 걸쳐 강력한 추론 능력을 보여줍니다.
오디오 입력은 직접 음성 또는 녹음된 오디오일 수 있으며, 모델은 내용을 전사, 번역 또는 분석할 수 있습니다. 비디오 입력은 시각적 프레임과 오디오 트랙을 결합합니다—비디오 콘텐츠 요약, 객체 감지 또는 음성 내레이션이 포함된 장면 이해에 적합합니다. 컨텍스트 윈도우는 토큰 수가 제한 내에 있는 한 긴 비디오나 오디오 파일을 단일 턴에 처리할 수 있음을 의미합니다. 출력은 텍스트 기반이며, 모델은 오디오나 비디오를 생성하지 않습니다. OrcaRouter의 API는 메시지 내용의 일부로 오디오 파일(예: MP3, WAV) 및 비디오 파일(예: MP4) 전송을 지원합니다.
Flash 변형은 속도와 비용에 최적화되어 실시간 애플리케이션(라이브 전사, 대화형 멀티모달 챗봇, 빠른 문서 요약, 미디어 유형별 콘텐츠 모더레이션)에 이상적입니다. 또한 긴 맥락이 필요한 시나리오(예: 전체 회의 기록 분석, 그림이 포함된 긴 연구 논문 처리)에서 뛰어난 성능을 발휘합니다. 속도와 멀티모달 추론을 모두 활용하는 사용 사례(예: 비디오 자막 생성, 법률 문서 검토)에 매우 적합합니다. 그러나 단일 모달리티에 대한 깊은 추론이 필요한 작업(예: 순수 코드 생성)에서는 특화된 모델이 더 나은 성능을 보일 수 있습니다.
Gemini 3 Flash Preview의 가격은 입력 1M당 $0.50, 출력 1M당 $3.00으로, 멀티모달 모델 치고는 저렴하지만 가장 낮은 가격은 아닙니다. 사용 사례가 순수 텍스트 전용이고 더 낮은 지연 시간이나 비용이 필요하다면, Gemini 2.0 Flash(사용 가능한 경우) 또는 비슷한 가격대의 대안과 같은 전용 텍스트 모델을 고려해 보세요. 반면, 복잡한 벤치마크(예: MATH, GPQA)에서 뛰어난 추론이 필요하고 예산이 더 넉넉하다면 Gemini 3 Pro나 GPT-4o 같은 더 큰 모델을 선택할 수도 있습니다. 대용량, 지연 시간에 민감한 멀티모달 워크로드의 경우 이 Flash 모델이 좋은 균형을 제공합니다.
MMLU-Pro는 Massive Multitask Language Understanding 벤치마크의 확장 버전으로, 57개 주제를 포함하며 더 도전적인 질문들로 구성됩니다. 88.2점은 모델이 질문의 88.2%를 정확히 답변했음을 의미하며, 이 평가에서 최고 성능 모델 중 하나로 자리매김합니다. 이는 법률부터 물리학까지 다양한 분야에 걸친 강력한 지식과 추론 능력을 반영합니다. 이 점수는 다른 최첨단 모델들과 경쟁력이 있으며, 특히 Flash 모델이 최대 정확도보다 속도에 최적화되어 있음을 고려할 때 더욱 그렇습니다. 제공된 점수는 이 모델의 주요 벤치마크 사실이며, 모든 특정 작업에 대한 보장이 아닌 일반적인 능력 지표로 해석되어야 합니다.
구체적인 지연 시간 수치는 제공되지 않지만, Google의 Flash 모델은 높은 처리량과 낮은 지연 시간을 위해 설계되었습니다. 이 모델은 Gemini 3 Pro와 같은 더 큰 모델보다 빠르도록 설계되어 실시간 상호작용에 적합합니다. 사용자는 비Flash 변형에 비해 요청당 시간이 더 짧을 것으로 예상할 수 있지만, 실제 속도는 입력 길이, 출력 길이, 동시 사용량 등의 요소에 따라 달라집니다. OrcaRouter는 제공업체의 API 이상으로 추가 지연 시간을 유발하지 않습니다. 최상의 성능을 위해 프롬프트를 간결하게 유지하고 스트리밍 응답을 사용하십시오. 큰 출력 제한(65,536 토큰)은 더 긴 답변의 생성 시간을 증가시킬 수 있습니다.
MMLU-Pro 점수(88.2)는 강력한 추론 능력과 일반 지식을 시사합니다. 이 모델이 100만 토큰 컨텍스트와 여러 입력 양식(텍스트, 이미지, 파일, 오디오, 비디오)을 처리할 수 있는 능력은 텍스트만 지원하는 모델보다 멀티모달 작업에서 우위를 제공합니다. Flash 모델은 전통적으로 속도와 비용 효율성에서 뛰어납니다. 높은 출력 토큰 제한(65,536)은 긴 형식의 요약이나 확장된 분석을 생성할 수 있게 합니다. 이러한 강점은 다양한 데이터 유형을 빠르고 대규모로 처리해야 하는 애플리케이션에 다재다능한 옵션을 제공합니다.
Flash 미리보기로서, 특수화된 벤치마크(예: 코딩 대회, 다단계 수학 추론)에서 더 크고 Flash가 아닌 모델의 정확도를 따라잡지 못할 수 있습니다. 이 모델은 이미지나 오디오를 생성하지 않으며 텍스트 출력만 제공합니다. 미리보기 상태이므로 간헐적 가용성 또는 부분적 기능 적용이 있을 수 있습니다. 또한 컨텍스트 윈도우는 크지만, 매우 긴 입력은 1,048,576 토큰을 초과하면 잘립니다. MMLU-Pro 점수는 단일 데이터 포인트이며 실제 성능은 다를 수 있습니다. 특정 분야에서 절대적인 정밀도가 필요한 작업에는 검증이 권장됩니다.
가격은 입력 토큰 백만 개당 $0.50, 출력 토큰 백만 개당 $3.00입니다. 이 요금은 Google에서 제공하며 제공업체 요율로 청구됩니다—OrcaRouter는 마크업을 추가하지 않습니다. 입력 토큰에는 파일, 이미지, 비디오에서 인코딩된 모든 텍스트 및 시각/오디오 토큰이 포함됩니다. 출력 토큰은 모델이 생성한 텍스트만 해당됩니다. OrcaRouter를 통한 API 접근에는 토큰당 비용 외에 추가 요금이 없습니다. 이러한 투명한 가격 책정을 통해 비용을 쉽게 추정할 수 있습니다. 예를 들어, 1,000개의 입력 토큰과 500개의 출력 토큰의 경우 대략 $0.0005 + $0.0015 = $0.002의 비용이 듭니다.
$0.50/1M 입력 및 $3.00/1M 출력 기준으로, Gemini 3 Flash Preview는 1M 컨텍스트 창을 갖춘 멀티모달 모델로서 경쟁력 있는 가격을 제공합니다. Gemini 3 Pro나 GPT-4o 같은 대형 모델은 일반적으로 토큰당 비용이 더 비싸며, 특히 출력에서 두드러집니다. 더 작은 텍스트 전용 모델은 더 저렴할 수 있습니다(예: Gemini 2.0 Flash의 경우 해당 시 $0.10/$0.40 per 1M 토큰). 멀티모달 워크로드의 경우 이 모델은 비용 효율적인 중간 지점을 제공합니다. OrcaRouter의 제로 마크업은 Google의 요금을 정확히 지불하도록 보장합니다. 사용량이 많은 경우, 작은 토큰당 차이도 중요할 수 있으므로 특정 작업의 토큰 프로필과 비교해 보세요.
제공된 가격 정보에는 캐싱 할인이나 볼륨 등급이 포함되어 있지 않습니다. Google은 일부 모델에서 캐시된 토큰에 대해 할인된 요금을 제공할 수 있지만, Gemini 3 Flash Preview에 대해서는 확인되지 않았습니다. OrcaRouter의 가격은 마크업 없이 원시 토큰당 비용을 반영하므로 게이트웨이에 대한 추가 비용을 지불하지 않습니다. 대규모 배포의 경우 잠재적인 기업 계약을 위해 Google에 직접 문의하십시오. 요금은 제공업체에 의해 변경될 수 있으므로, 최신 가격은 항상 OrcaRouter의 가격 페이지 또는 계정 대시보드에서 확인하십시오. 현재 명시된 백만 토큰당 요금이 적용됩니다.
OrcaRouter의 OpenAI 호환 API를 기준 URL https://api.orcarouter.ai/v1에서 사용합니다. 모델 ID는 "google/gemini-3-flash-preview"입니다. 인증은 OrcaRouter에서 제공하는 API 키를 통해 처리됩니다. 예를 들어, curl을 사용하여 /v1/chat/completions로 POST 요청을 보낼 수 있습니다. 요청 형식은 OpenAI의 Chat Completions 구조를 따릅니다. model 매개변수를 정확한 모델 ID로 설정해야 합니다. OrcaRouter가 Google 엔드포인트로의 라우팅을 처리합니다. API 키에 적절한 권한이 있는지 확인하세요. 스트리밍은 요청 본문에서 stream: true로 설정하여 지원됩니다.
표준 OpenAI Chat Completions 매개변수를 사용할 수 있습니다: model, messages (role: system, user, assistant 포함), temperature, top_p, max_tokens (최대 65,536으로 제한), stop sequences, frequency_penalty, presence_penalty, logit_bias, stream. 멀티모달 메시지의 경우, content 배열에 base64로 인코딩된 데이터 또는 파일 ID를 포함합니다. 모델이 입력 모드를 자동으로 감지합니다. 모든 OpenAI 기능(예: 함수 호출)이 지원되는 것은 아닐 수 있습니다—OrcaRouter 문서를 확인하세요. 1,048,576 토큰의 컨텍스트 창이 전체 메시지 토큰 수에 적용됩니다. 초과할 경우 가장 오래된 메시지가 잘립니다.
이미 Google의 Vertex AI나 Gemini API를 사용하고 있다면, 마이그레이션에 최소한의 변경만 필요합니다. API 기본 URL을 https://api.orcarouter.ai/v1로 조정하고, 모델 ID "google/gemini-3-flash-preview"를 가리키며, Google 인증을 OrcaRouter API 키로 교체하십시오. 메시지 형식은 유사합니다—OrcaRouter가 OpenAI와 Google 형식 간을 변환합니다. 멀티모달 콘텐츠의 경우, OrcaRouter의 첨부 파일 가이드라인(예: 적절한 MIME 유형을 포함한 base64-encoded 데이터)을 따르십시오. 동등성을 확인하기 위해 소량의 요청으로 테스트하십시오. OrcaRouter는 다양한 언어에 대한 지원 문서와 예제 코드를 제공합니다.
응답 구조는 OpenAI의 Chat Completion 형식과 일치합니다: choices, usage, id를 포함하는 객체입니다. 각 choice는 role과 content를 포함하는 메시지 객체를 포함합니다. 토큰 사용량은 prompt_tokens와 completion_tokens로 보고됩니다. finish_reason 필드는 생성이 중단된 이유(stop, length)를 나타냅니다. 스트리밍 응답은 delta 객체를 방출합니다. OpenAI SDK를 사용하는 경우 API 키와 base URL만 변경하면 됩니다. OrcaRouter의 엔드포인트는 OpenAI API처럼 동작하여 통합을 단순화합니다. Google 모델에 특화된 모든 특이 사항(예: 안전 필터)이 유지됩니다. 응답에서 잠재적인 거부 메시지를 확인하세요.
Gemini 3 Flash Preview는 Google Flash 모델의 차세대 버전으로, 더 큰 컨텍스트 윈도우(버전에 따라 기존 32K–1M 대비 1,048,576)와 비디오를 포함한 향상된 멀티모달 지원을 제공합니다. 3 Flash Preview의 MMLU-Pro 점수 88.2는 2 Flash의 보고된 점수(제공되지 않았지만 일반적으로 낮음)보다 더 나은 추론 능력을 시사합니다. 2 Flash의 가격은 토큰당 더 낮아 단순한 작업에 예산 친화적입니다. Gemini 3 Flash Preview는 복잡한 멀티모달 추론에서 더 빠르고 뛰어나지만, 2 Flash는 텍스트 전용 또는 단순 이미지 작업에 비용 효율적인 대안으로 남아 있습니다.
OpenAI의 GPT-4o는 멀티모달 입력(텍스트, 이미지, 오디오)을 지원하며, 컨텍스트 윈도우는 128K 토큰으로 Gemini 3 Flash Preview의 1M 토큰보다 훨씬 작습니다. GPT-4o의 가격은 다양하지만 일반적으로 토큰당 더 높습니다(예: 입력 100만 개당 $2.50, 출력 100만 개당 $10). Gemini 3 Flash Preview는 더 낮은 비용과 더 큰 컨텍스트 덕분에 장문 또는 대용량 멀티모달 작업에 더 적합합니다. 그러나 GPT-4o는 창작 글쓰기나 코드 생성에서 다른 강점을 가질 수 있으며, 벤치마크(예: MMLU)는 비슷한 수준입니다. 선택은 컨텍스트 크기 요구 사항과 통합 선호도에 따라 달라집니다.
Google의 라인업에서 Gemini 3 Pro는 더 크고 비싼 모델로, 최대 정확도(더 높은 MMLU-Pro 점수)를 위해 설계되었습니다. Flash는 비용과 속도에 최적화된 변형입니다. Gemini 2 Flash는 더 오래되고 저렴하지만 컨텍스트가 작고 벤치마크 점수가 낮을 수 있습니다. Gemini 3 Flash Preview는 중간 지점을 제공합니다: 비용의 일부로 Pro 수준에 가까운 추론(88.2 MMLU-Pro)을 제공합니다. 가장 큰 컨텍스트와 최고의 속도가 필요한 사용자에게는 3 Flash Preview가 이상적입니다. 더 작은 입력에 대해 프리미엄 추론이 필요하다면 3 Pro가 더 나을 수 있습니다. 간단한 작업의 경우 2 Flash 또는 기타 경량 모델로 충분할 수 있습니다.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 입력 / 1M tokens | $0.500 |
| 출력 / 1M tokens | $3.00 |
| 캐시 읽기 / 1M | $0.050 |
| 통화 | USD |