Google Gemini 3 Flash Preview – 100万トークンのコンテキストを持つマルチモーダルモデル、88.2 MMLU-Pro、OrcaRouter経由でアクセス可能
Google Gemini 3 Flash Previewは、Googleが開発したマルチモーダルモデルであり、高速処理と大規模なコンテキスト処理に最適化されています。テキスト、画像、ファイル、音声、動画の形式で入力を受け付け、最大65,536トークンの出力を生成できます。このモデルは1,048,576トークンのコンテキストウィンドウを持ち、非常に長い系列にわたって推論することが可能です。MMLU-Proベンチマークでは88.2をスコアしており、幅広い学術的・推論タスクで高い性能を示しています。このプレビュー版は、OrcaRouterのOpenAI互換APIを通じて、モデルID google/gemini-3-flash-previewで利用可能です。
Gemini 3 Flash Previewは、高速なマルチモーダル推論と大規模なコンテキストを必要とするアプリケーションを構築する開発者や組織を対象としています。このモデルは、動画分析、長文書の要約、リアルタイムの音声・動画理解などのユースケースに適しています。モデルの価格は、入力トークン100万トークンあたり0.50ドル、出力トークン100万トークンあたり3.00ドルで、スタートアップと企業の両方が利用しやすいものとなっています。プレビュー版であるため、早期導入者は安定版リリース前にその機能を評価できます。OrcaRouterは、OpenAI互換のエンドポイントとプロバイダー料金に対するゼロマークアップを含む、このモデルへのシームレスなアクセスを提供します。
Gemini 3 Flash Previewは、テキスト、画像、ファイル、音声、動画の5つの入力モダリティをサポートします。テキストはプレーンまたは構造化された形式で指定可能です。画像には写真、図表、スクリーンショットが含まれます。ファイルはPDFやドキュメントなどの形式に対応し、音声には音声会話や音楽が含まれます。動画は視覚・音声トラックの両方を処理できます。このモデルは、単一のプロンプト内で複数のモダリティを組み合わせることが可能であり、例えば動画を分析しながら添付のPDFを読み込むこともできます。この多様性により、個別のパイプラインを必要とせず、複雑なマルチメディアタスクを処理できます。入力トークンは、各モダリティ固有のトークナイザルールに基づいてカウントされます。
Gemini 3 Flash Previewは、Googleの第3世代Flashモデルのプレリリース版です。プレビュー版であるため、動作、パフォーマンス、可用性が変更される可能性があります。Googleは通常、ユーザーフィードバックに基づいてプレビューモデルを更新し、最終的にはプレビューエンドポイントを安定版リリースに置き換えることがあります。モデルは機能しており、テストや開発に適していますが、本番環境でのデプロイメントでは更新を監視する必要があります。OrcaRouterはプロバイダーのエンドポイントをミラーリングし、Googleからの変更が迅速に反映されるようにします。モデルID google/gemini-3-flash-previewは、Googleが命名を変更しない限り一貫して維持されます。
このモデルは、テキストと画像を組み合わせて処理し、キャプション生成、視覚的な質問応答、文書抽出などのタスクを実行できます。スキャンされた文書からテキストを読み取り、チャートを解釈し、コンテンツに関する質問に答えることが可能です。テキストのみの入力では、言語理解、要約、翻訳、コード生成をサポートします。大きなコンテキストウインドウ(1,048,576トークン)により、非常に長い会話、書籍全体、大規模なコードベースを扱うことができます。MMLU-Proスコアは88.2で、科学、数学、人文科学を含む幅広い分野にわたる堅牢な推論能力を示しています。
音声入力は直接のスピーチまたは録音された音声が可能で、モデルは内容の文字起こし、翻訳、分析を行えます。動画入力は映像フレームと音声トラックを組み合わせたもので、動画コンテンツの要約、物体検出、ナレーション付きシーンの理解に適しています。コンテキストウィンドウにより、トークン数が制限内であれば、長い動画や音声ファイルを1回のターンで取り込むことができます。出力はテキストベースであり、モデルは音声や動画を生成しません。OrcaRouterのAPIは、メッセージコンテンツの一部として音声ファイル(例:MP3、WAV)や動画ファイル(例:MP4)の送信をサポートしています。
Flashバリアントは速度とコストに最適化されており、リアルタイムアプリケーション(ライブ文字起こし、インタラクティブなマルチモーダルチャットボット、迅速な文書要約、メディアタイプを横断したコンテンツモデレーション)に理想的です。また、大きなコンテキストを必要とするシナリオ(例えば、会議全体の議事録の分析や、図表を含む長文の研究論文の処理など)でも優れています。速度とマルチモーダル推論の両方を活用するユースケース(ビデオキャプション生成や法律文書レビューなど)に最適です。ただし、単一モダリティでのより深い推論を必要とするタスク(例:純粋なコード生成)では、専門モデルの方がパフォーマンスが優れている場合があります。
Gemini 3 Flash Previewの料金は、入力1Mトークンあたり$0.50、出力1Mトークンあたり$3.00で、マルチモーダルモデルとしては低価格ですが、最も安いわけではありません。ユースケースがテキストのみで、さらに低レイテンシや低コストを求める場合は、Gemini 2.0 Flash(利用可能な場合)などの専用テキストモデルや、同程度の価格帯の代替モデルを検討してください。一方、複雑なベンチマーク(MATH、GPQAなど)で優れた推論能力が必要で、予算に余裕がある場合は、Gemini 3 ProやGPT-4oのような大規模モデルを選択することもできます。高トラフィックでレイテンシに敏感なマルチモーダルワークロードには、このFlashモデルがバランスの取れた選択肢です。
MMLU-Proは、大規模マルチタスク言語理解ベンチマークの拡張版であり、57の分野にわたるより難易度の高い質問をカバーしています。スコア88.2は、モデルが質問の88.2%に正答したことを示し、この評価においてトップクラスのモデルに位置づけられます。法律から物理学まで多様な領域にわたる強力な知識と推論能力を反映しています。このスコアは他のフロンティアモデルと競争力があり、特にFlashモデルは最大精度ではなく速度に最適化されている点を考慮すると顕著です。提供されたスコアはこのモデルの主要ベンチマーク指標であり、特定のタスクごとの保証ではなく、一般的な能力の指標として解釈されるべきです。
具体的なレイテンシ数値は提供されていませんが、Google の Flash モデルは高スループットと低レイテンシ向けに設計されています。このモデルは、Gemini 3 Pro のようなより大規模なモデルよりも高速であることを意図しており、リアルタイムのインタラクションに適しています。ユーザーは non-Flash バリアントと比較してリクエストあたりの時間が短縮されることが期待できますが、実際の速度は入力長、出力長、同時使用状況などの要因に依存します。OrcaRouter は、プロバイダの API を超える追加のレイテンシを導入しません。最良のパフォーマンスを得るには、プロンプトを簡潔に保ち、ストリーミング応答を使用してください。大きな出力制限 (65,536 トークン) は、長い回答の生成時間を増加させる可能性があります。
MMLU-Proスコア(88.2)は、強力な推論能力と一般的な知識を示しています。このモデルは100万トークンのコンテキストと複数の入力モダリティ(テキスト、画像、ファイル、音声、動画)を処理できるため、テキストのみをサポートするモデルと比較してマルチモーダルタスクで優位性を持ちます。Flashモデルは伝統的に速度とコスト効率に優れています。高い出力トークン制限(65,536)により、長形式の要約や詳細な分析を生成できます。これらの強みにより、さまざまなデータタイプを迅速かつ大規模に処理する必要があるアプリケーションにとって、汎用性の高い選択肢となります。
Flashプレビューとしては、専門的なベンチマーク(例えば、コーディングコンテスト、多段階の数学的推論)において、より大規模な非Flashモデルの精度に及ばない場合があります。このモデルは画像や音声を生成せず、テキスト出力のみです。プレビュー段階であるため、断続的な利用可能性や部分的な機能カバレッジが生じる可能性があります。また、コンテキストウィンドウは大きいものの、1,048,576トークンを超える非常に長い入力は切り捨てられます。MMLU-Proスコアは単一のデータポイントであり、実際のパフォーマンスは変動する可能性があります。ニッチな領域で絶対的な精度が要求されるタスクについては、検証をお勧めします。
価格は、入力トークン100万個あたり0.50ドル、出力トークン100万個あたり3.00ドルです。これらの料金はGoogleが提供するもので、プロバイダー料金で請求されます。OrcaRouterはマークアップを一切追加しません。入力トークンには、ファイル、画像、動画からエンコードされたすべてのテキストおよび視覚・音声トークンが含まれます。出力トークンは、モデルが生成したテキストのみです。OrcaRouterを介したAPIアクセスには、トークン単価以外の追加料金は一切かかりません。この透明な価格設定により、コストを簡単に見積もることができます。たとえば、1,000トークンの入力と500トークンの出力の場合、おおよそ0.0005ドル+0.0015ドル=0.002ドルになります。
入力1Mトークンあたり$0.50、出力1Mトークンあたり$3.00という価格設定で、Gemini 3 Flash Previewは1Mコンテキストウィンドウを持つマルチモーダルモデルとして競争力のある価格です。大規模モデル(Gemini 3 ProやGPT-4oなど)は通常、トークンあたりのコストが高く、特に出力において顕著です。小規模なテキスト専用モデルはより安価な場合があります(例:Gemini 2.0 Flashは該当する場合、1Mトークンあたり$0.10/$0.40)。マルチモーダルワークロードにおいて、このモデルはコスト効率の良い中間点を提供します。OrcaRouterによるゼロマークアップにより、Googleの料金をそのままお支払いいただけます。使用量が多い場合、トークンあたりのわずかな差でも影響が出る可能性があるため、特定のタスクのトークンプロファイルと比較してください。
提供されている料金情報には、キャッシュ割引やボリューム階層は含まれていません。Googleは一部のモデルでキャッシュされたトークンに対して割引料金を提供する場合がありますが、Gemini 3 Flash Previewでは確認されていません。OrcaRouterの料金は、マークアップなしのトークンあたりの生のコストを反映しているため、ゲートウェイに対して追加料金を支払うことはありません。大規模なデプロイメントについては、潜在的なエンタープライズ契約についてGoogleに直接お問い合わせください。常にOrcaRouterの料金ページまたはアカウントダッシュボードで最新の料金を確認してください。料金はプロバイダーによって変更される可能性があります。現在、記載されている100万トークンあたりの料金が適用されます。
OrcaRouterのOpenAI互換APIを使用します。ベースURLは https://api.orcarouter.ai/v1 です。モデルIDは "google/gemini-3-flash-preview" です。認証はOrcaRouterのAPIキーを介して処理されます。たとえば、curlを使用して /v1/chat/completions にPOSTリクエストを送信できます。リクエスト形式はOpenAIのChat Completions構造に従います。モデルパラメータを正確なモデルIDに設定する必要があります。OrcaRouterがGoogleのエンドポイントへのルーティングを処理します。APIキーに適切な権限があることを確認してください。リクエスト本文で stream: true を設定することでストリーミングがサポートされています。
標準のOpenAI Chat Completionsパラメータを使用できます:model、messages(role: system、user、assistantを持つ)、temperature、top_p、max_tokens(上限は65,536)、stop sequences、frequency_penalty、presence_penalty、logit_bias、stream。マルチモーダルメッセージの場合は、base64エンコードされたデータまたはファイルIDをcontent配列に含めます。モデルは自動的に入力モダリティを検出します。すべてのOpenAI機能(関数呼び出しなど)がサポートされているわけではないことに注意してください—OrcaRouterのドキュメントを確認してください。1,048,576トークンのコンテキストウィンドウがメッセージの総トークン数に適用されます。これを超えた場合、最も古いメッセージが切り捨てられます。
すでにGoogleのVertex AIやGemini APIを使用している場合、移行には最小限の変更しか必要ありません。APIのベースURLを「https://api.orcarouter.ai/v1」に変更し、モデルID「google/gemini-3-flash-preview」を指定して、Googleの認証をOrcaRouter APIキーに置き換えてください。メッセージ形式は同様で、OrcaRouterがOpenAI形式とGoogle形式の間で変換を行います。マルチモーダルコンテンツについては、OrcaRouterの添付ファイルガイドライン(例:適切なMIMEタイプを持つBase64エンコードデータ)に従ってください。少数のリクエストでテストし、結果が一致することを確認してください。OrcaRouterは、さまざまな言語向けのサポートドキュメントやサンプルコードを提供しています。
レスポンス構造はOpenAIのチャット補完フォーマットと一致します:choices、usage、idを含むオブジェクトです。各choiceにはroleとcontentを持つmessageオブジェクトが含まれます。トークン使用量はprompt_tokensとcompletion_tokensとして報告されます。finish_reasonフィールドは生成が停止した理由(stop、length)を示します。ストリーミングレスポンスはdeltaオブジェクトを出力します。OpenAI SDKを使用している場合、APIキーとベースURLを変更するだけで済みます。OrcaRouterのエンドポイントはOpenAI APIのように動作するため、統合が簡素化されます。Googleのモデル固有の癖(例:セーフティフィルター)は保持されます。拒否メッセージの可能性に備えてレスポンスを確認してください。
Gemini 3 Flash Previewは、GoogleのFlashモデルの次世代版であり、より大きなコンテキストウィンドウ(バージョンに応じて以前の32K~1Mから1,048,576に拡大)と、動画を含む改善されたマルチモーダルサポートを提供します。3 Flash PreviewのMMLU-Proスコアは88.2で、2 Flashの報告されたスコア(提供されていないが、通常は低い)よりも優れた推論能力を示唆しています。2 Flashの価格はトークンあたりより低く、シンプルなタスクには予算に優しい選択肢となります。Gemini 3 Flash Previewは、複雑なマルチモーダル推論においてより高速で高性能ですが、2 Flashはテキストのみ、または単純な画像タスクにおいてコスト効率の良い代替手段であり続けます。
OpenAIのGPT-4oはマルチモーダル入力(テキスト、画像、音声)もサポートし、コンテキストウィンドウは128Kトークンで、Gemini 3 Flash Previewの1Mトークンより大幅に小さい。GPT-4oの価格は変動するが、一般的に1トークンあたりより高い(例:入力1Mあたり$2.50、出力1Mあたり$10)。Gemini 3 Flash Previewの低コストと大きなコンテキストは、長文や大量のマルチモーダルタスクに適している。しかし、GPT-4oはクリエイティブライティングやコード生成において異なる強みを持つ可能性があり、そのベンチマーク(例:MMLU)は同等である。選択はコンテキストサイズのニーズと統合の好みに依存する。
Googleのラインナップにおいて、Gemini 3 Proはより大規模で高価なモデルであり、最大の精度(より高いMMLU-Proスコア)を目指して設計されています。Flashはコストと速度を最適化したバリアントです。Gemini 2 Flashは旧型で安価ですが、コンテキストが小さく、ベンチマークスコアも低くなる可能性があります。Gemini 3 Flash Previewは中間的な選択肢を提供します。Proに近い推論能力(88.2 MMLU-Pro)をわずかなコストで実現します。最大のコンテキストと最高の速度を必要とするユーザーには、3 Flash Previewが理想的です。小規模な入力でプレミアムな推論を求める場合は、3 Proの方が適しているかもしれません。簡単なタスクには、2 Flashや他の軽量モデルで十分な場合もあります。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 入力 / 1M tokens | $0.500 |
| 出力 / 1M tokens | $3.00 |
| キャッシュ読み取り / 1M | $0.050 |
| 通貨 | USD |