Google Gemini 3.1 Pro Preview Custom Tools – 1Mコンテキスト、95.6 τ²-Bench、OrcaRouterによるマルチモーダル
Google Gemini 3.1 Pro Preview Custom Toolsは、Googleが開発したプレビュー段階の大規模言語モデルです。長文推論、大規模なコンテキストウィンドウ、外部ツールとの統合を必要とするタスク向けに設計されています。このモデルは、テキスト、音声、画像、動画、ファイル形式の入力を受け付け、コンテンツの理解と生成の両方に対応するマルチモーダルソリューションです。OrcaRouterを通じて、ベースURL https://api.orcarouter.ai/v1 でOpenAI互換のAPIを使用し、モデルID「google/gemini-3.1-pro-preview-customtools」でモデルを呼び出すことができます。この互換性により、OpenAI SDKや類似のクライアントに既に慣れているチームの統合が容易になります。プレビューモデルであるため、安定版と比較して可用性やパフォーマンスに制限がある場合があります。
このモデルは、非常に長いドキュメント(最大100万トークン)の処理や、テキスト、音声、画像、動画、ファイルといった複数の入力モダリティを単一の推論ステップで組み合わせる必要のある開発者、データサイエンティスト、エンタープライズチームに適しています。特に、カスタムツールの使用(モデルが外部関数やAPIをいつどのように呼び出すかを判断する必要があるタスク)において重要な価値を発揮します。 研究、法的分析、メディア処理、高度な自動化に取り組むチームにとって、大きなコンテキストと優れたベンチマーク性能は有用です。プレビュー版であるため、稼働時間やレイテンシが保証される本番システムよりも、プロトタイピングや評価に適している場合があります。
このモデルは、1,048,576トークンのコンテキストウィンドウと最大65,536トークンの出力を提供します。入力モダリティは、テキスト、音声、画像、動画、ファイルアップロードに対応しています。主要ベンチマークスコアは、ツール使用推論のテストであるτ²-Benchで95.6です。 料金は、入力100万トークンあたり4.00ドル、出力100万トークンあたり18.00ドルで、OrcaRouter経由でアクセスする場合はマークアップなしです。APIはOpenAI互換で、モデルIDは"google/gemini-3.1-pro-preview-customtools"です。プレビュー版として、最新の機能を反映していますが、変更される可能性があります。
Gemini 3.1 Pro Previewのカスタムツールは、テキスト、音声、画像、動画、ファイル形式の入力を受け付けます。これにより、テキストプロンプトに加えて、音声録音、写真、動画クリップ、アップロードされた文書を1つのリクエストに含めることができます。モデルはこれらのモダリティにわたって推論し、テキスト出力を生成できます。 このマルチモーダル機能により、画像を説明してそれに関する質問をしたり、分析を行いながら音声を文字起こししたり、動画とテキスト指示を組み合わせたりすることが可能です。正確な解像度、コーデック、ファイルサイズの制限は利用可能な情報には記載されていませんが、モデルは多様なメディアをネイティブで取り込むことができます。
「カスタムツール」指定とは、モデルが推論の一部としてユーザー定義関数やAPIを呼び出すように最適化されていることを意味します。典型的なワークフローでは、関数定義(名前、パラメータ、説明を含む)のセットを提供し、モデルは要求を満たすためにいつそれらを呼び出すかを決定します。 この機能により、データベースのクエリ、メールの送信、コードスニペットの実行など、自律的なワークフローが可能になります。モデルは複数のツール呼び出しを連鎖させることができます。τ²-Benchスコア(95.6)の高さは、計画とツールオーケストレーションを必要とするタスクでの強力なパフォーマンスを示しています。
このモデルは、1,048,576トークン(約100万トークンに相当)のコンテキストウィンドウをサポートしています。これにより、書籍全体、長いコードベース、マルチターンの会話、または大規模なログをコンテキストとして渡すことができます。1リクエストあたりの最大出力は65,536トークンです。 これらのサイズは、現在のモデル環境において最も大きなものの一つです。大きなコンテキストは、完全な書き起こしの要約、大規模なドキュメントセットに対する質問応答、または非常に長い会話履歴を切り詰めずに維持するといったタスクに役立ちます。
Gemini 3.1 Pro Preview Custom Tools は、入力トークン100万件あたり4.00ドル、出力トークン100万件あたり18.00ドルで提供されているため、プレミアムなオプションです。短いテキスト分類、基本的な要約、単一ターンチャットのような単純なタスクには、より小型で安価なモデルの方が費用対効果が高い場合があります。100万のコンテキストウィンドウ、マルチモーダル入力、ツール使用のベンチマークパフォーマンスが不要な場合は、OrcaRouter の Gemini 1.5 Flash(低コスト、低レイテンシ)などの代替モデルや、他の軽量モデルを検討してください。タスクの複雑さがトークンあたりの高いコストを正当化する場合に、このモデルを使用してください。
モデルはτ²-Bench(τ²-Bench)でヘッドラインスコア95.6を達成しました。このベンチマークは、モデルのツール使用推論能力、すなわち現実的なタスクを達成するための関数呼び出しのシーケンスの計画と実行を評価します。高いスコアは、自律的なタスク完了と意思決定における強力な能力を示唆しています。τ²-Benchは、現実世界のシナリオの複雑さに焦点を当てた新しいベンチマークです。95.6のスコアは非常に高いと見なされますが、単一のベンチマークがモデルの品質のすべての側面を完全に捉えるわけではないことに注意してください。モデルは、ここにリストされていない他のベンチマークでは異なるパフォーマンスを示す可能性があります。
τ²-Benchの結果に基づくと、このモデルは構造化された推論とツールのオーケストレーションを必要とするタスクで優れています。これにはマルチステップの検索、データ変換、API呼び出しが含まれます。また、大きなコンテキストウィンドウにより、非常に長い指示や外部データを一貫性を失わずに処理できます。 マルチモーダル入力機能ももう一つの強みであり、異なるメディアタイプにわたって推論することが可能です。ビデオクリップを分析しそれに関する質問に答える、あるいはテキストクエリと一緒にオーディオファイルを処理するといったユースケースにおいて、このモデルはテキストのみの代替手段と比較して有利な立場にあります。
どのベンチマークやモデルも完璧ではありません。τ²-Bench スコア 95.6 は、あらゆる実世界のタスク、特にベンチマークの範囲外のタスクにおいて同じパフォーマンスを保証するものではありません。モデルは、非常に特殊なドメイン知識を必要とするタスクや、τ²-Bench でカバーされていない安全性重視の評価において、パフォーマンスが低下する可能性があります。 プレビューモデルとして、完全リリース済みのモデルよりもレイテンシが高かったり、信頼性が低かったりする場合があります。利用可能な事実にはレイテンシの数値が含まれていないため、実際のワークロードでテストする必要があります。さらに、大きなコンテキストウィンドウは処理時間とコストを増加させる可能性があり、すべてのタスクが 100 万トークンの全容量を活用できるわけではありません。
Gemini 3.1 Pro Preview Custom Tools の利用可能な情報では、正確なレイテンシ数値は提供されていません。一般に、非常に大きなコンテキストウィンドウ(100万トークン以上)を持つモデルは、特にコンテキスト全体を使用する場合、リクエストの処理に時間がかかることがあります。レイテンシはまた、リクエストの複雑さ、ツール呼び出し回数、および現在のサーバー負荷に依存します。 OrcaRouter は、最初のトークンまでの時間を短縮するためにストリーミング応答を提供する可能性があります。リアルタイムアプリケーションの場合は、より小さなモデルとパフォーマンスを比較することを検討してください。速度が要件を満たしているかどうかを判断するために、典型的なプロンプトを使用して独自のレイテンシテストを実行することを検討してください。
Gemini 3.1 Pro Preview Custom Toolsの料金は、入力トークン100万トークンあたり$4.00、出力トークン100万トークンあたり$18.00です。これらの料金はプロバイダー料金で請求され、OrcaRouterを通じてアクセスする場合、マークアップは一切発生しません。つまり、表示される価格はGoogleが請求する価格そのものであり、OrcaRouterからの追加料金はありません。 入力トークンには、プロンプト内のすべてのトークン(テキスト、画像トークン、音声トークンなど)が含まれます。出力トークンは生成された応答です。モデルの最大出力は65,536トークンであるため、1回のリクエストで出力トークンにかかるコストは最大で65,536 / 1,000,000 * 18.00 = 約$1.18となり、それに入力トークンのコストが加わります。
「ゼロマークアップ」とは、OrcaRouterがプロバイダー(Google)から提供される厳密なトークン単価をそのままユーザーに転嫁し、追加の割増料金を一切上乗せしないことを意味します。入力トークン100万個あたり4.00ドル、出力トークン100万個あたり18.00ドルを支払うことになります。これは、GoogleのAPIを直接呼び出した場合と同じレートです。 OrcaRouterには、ゲートウェイサービスに対する別途のサブスクリプション料金や利用料金が設定されている場合がありますが、モデルのトークン単価は増額されていません。この料金体系は透明性が高く、正確な予算計画に役立ちます。追加料金については、常にOrcaRouterの最新の利用規約をご確認ください。
トークン単価が高いため、使用量を慎重に見積もる必要があります。最大1Mコンテキストウィンドウを使用するプロンプトの場合、入力コストはリクエストあたり最大$4.00に達する可能性があります。タスクがより小さなコンテキストで完了できる場合は、切り詰めるか、より安価なモデルを使用することを検討してください。 利用可能な情報にはキャッシュの記載はありません。OrcaRouterがプロンプトキャッシュを提供する場合、繰り返し入力のコストを削減できる可能性があります。また、このモデルはプレビュー版であるため、安定版がリリースされた際に価格が変更される可能性があります。ワークロードの一般的なトークン数を評価して、コストに見合うかどうかを判断してください。
モデルにはOrcaRouterのOpenAI互換APIを介してアクセスします。ベースURLを`https://api.orcarouter.ai/v1`に設定し、モデルIDとして`google/gemini-3.1-pro-preview-customtools`を使用します。APIは標準のOpenAI形式のリクエストフォーマットを受け付けます。 Pythonのopenaiライブラリを使用した例: ``` import openai client = openai.OpenAI(base_url="https://api.orcarouter.ai/v1", api_key="YOUR_ORCAROUTER_KEY") response = client.chat.completions.create( model="google/gemini-3.1-pro-preview-customtools", messages=[{"role": "user", "content": "Hello"}] ) ``` 有効なOrcaRouter APIキーが必要です。認証は`Authorization`ヘッダーを介して行われます。
API は OpenAI 互換であるため、`temperature`、`top_p`、`max_tokens`、`stop`、`frequency_penalty`、`presence_penalty`、`stream` などの標準パラメータを使用できます。マルチモーダルリクエストでは、配列形式を使用してメッセージコンテンツに画像、音声、動画、またはファイルを含めることができます。 ツール使用の場合は、`tools` パラメータで関数を JSON オブジェクトのリストとして定義します。モデルはレスポンス内で `tool_calls` を返す場合があります。Google 独自の API に固有のパラメータ(`safetySettings` など)は利用できる場合とできない場合があります。詳細は OrcaRouter のドキュメントを参照してください。プレビューモデルでは、サポートされるパラメータが異なる可能性があります。
標準のOpenAI APIからの移行は簡単です。`base_url`を`https://api.orcarouter.ai/v1`に変更し、`model`パラメータを`google/gemini-3.1-pro-preview-customtools`に更新します。APIキーをOrcaRouterキーに置き換えてください。 `openai.ChatCompletion.create`または新しい`client.chat.completions.create`を使用するほとんどのコードは、最小限の変更で動作します。ツール呼び出しを使用する場合、その形式はOpenAIのものと同一です。ただし、このモデルは異なるトークナイザーを使用しており、同じプロンプトに対して異なる出力を生成する可能性があることに注意してください。切り替える前に十分にテストしてください。
OrcaRouterはAPIキー認証を使用します。リクエストヘッダーに `Authorization: Bearer YOUR_ORCAROUTER_API_KEY` としてキーを含めてください。キーはOrcaRouterにサインアップすることで取得できます。キーは秘密に保ち、クライアントサイドのコードで公開しないでください。 正確な認証方法は異なる場合があります。常にOrcaRouterの現在のAPIドキュメントを参照してください。一部のエンドポイントは追加の認証方法をサポートする場合がありますが、OpenAI互換エンドポイントは標準のベアラートークンパターンを使用します。リクエストはHTTPS経由で送信してください。
Gemini 1.5 Pro は 100 万トークンのコンテキストウィンドウとマルチモーダル入力をサポートしていますが、3.1 Pro Preview Custom Tools は τ²-Bench スコア 95.6 を達成しており、1.5 シリーズから大幅に改善されています(1.5 の正確な数値は提供されていません)。「Custom Tools」の最適化が主要な差別化要因であり、ツール使用タスクにおけるパフォーマンス向上を示しています。 プレビューモデルの料金は高く設定されており、通常は Gemini 1.5 Pro の方が安価です。最新のツール使用パフォーマンスが必要ない場合、Gemini 1.5 Pro の方がコスト効率の良い選択肢となるでしょう。3.1 Pro はプレビュー版であるため、安定版の 1.5 Pro に比べて安定性やアップタイムの保証が低い可能性があります。
GPT‑4oはマルチモーダル入力とツール使用もサポートしていますが、そのコンテキストウィンドウは通常128kトークンであり、このモデルの100万トークンよりもはるかに小さいです。GPT‑4oのτ²-Benchスコアは利用可能な事実では提供されていないため、直接の比較は不可能です。 一般に、Gemini 3.1 Pro Preview Custom Toolsははるかに大きなコンテキストウィンドウを提供し、長文書タスクにより適しています。GPT‑4oは特定の言語ベンチマークやより広いエコシステムサポートにおいて優れた性能を発揮する可能性があります。また、GPT‑4oの価格設定も異なります。トークンあたりのコストを比較してください。ただし、このモデルの出力コスト($18/M)は比較的高いことに注意してください。
Claude 3 Opusは200kトークンのコンテキストウィンドウをサポートしており、Gemini 3.1 Pro Previewの1Mよりもはるかに少ないです。τ²-Benchのようなベンチマークは通常Claudeでは報告されていないため、直接的な比較は推測に過ぎません。Claudeは強力な推論能力と指示追従で知られています。 どちらを選ぶかは、1Mのコンテキストとマルチモーダル入力の必要性、あるいは安全性、文体、エコシステムにおける特定の強みに依存します。ユースケースが非常に大きなドキュメントや複数のメディアタイプの処理を必要とする場合、Geminiモデルのより大きなコンテキストとマルチモーダルサポートは利点となります。OrcaRouterを通じたコストと利用可能性も考慮すべき要素です。
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3.1-pro-preview-customtools",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| 入力 / 1M tokens | $4.00 |
| 出力 / 1M tokens | $18.00 |
| キャッシュ読み取り / 1M | $0.400 |
| 通貨 | USD |