Google Gemini 3 Flash Preview – Model multimodal dengan konteks 1M token, 88.2 MMLU-Pro, dapat diakses melalui OrcaRouter.
Google Gemini 3 Flash Preview adalah model multimodal yang dikembangkan oleh Google, dioptimalkan untuk kecepatan dan pemrosesan konteks besar. Model ini menerima input dalam format teks, gambar, file, audio, dan video, serta dapat menghasilkan hingga 65.536 token output. Model ini memiliki jendela konteks sebesar 1.048.576 token, memungkinkannya untuk bernalar pada urutan yang sangat panjang. Model ini mendapat skor 88,2 pada tolok ukur MMLU-Pro, menunjukkan kinerja yang kuat di berbagai tugas akademis dan penalaran. Versi pratinjau ini tersedia melalui API yang kompatibel dengan OpenAI milik OrcaRouter dengan ID model google/gemini-3-flash-preview.
Gemini 3 Flash Preview menargetkan pengembang dan organisasi yang membangun aplikasi yang memerlukan penalaran multimodal cepat dengan konteks besar. Model ini sangat cocok untuk kasus penggunaan seperti analisis video, ringkasan dokumen panjang, dan pemahaman audio-video real-time. Harga model—$0,50 per juta token input dan $3,00 per juta token output—membuatnya terjangkau bagi startup dan perusahaan besar. Karena merupakan pratinjau, pengadopsi awal dapat mengevaluasi kemampuannya sebelum rilis stabil. OrcaRouter menyediakan akses yang mulus ke model ini, termasuk endpoint yang kompatibel dengan OpenAI dan tanpa markup pada tarif penyedia.
Gemini 3 Flash Preview mendukung lima modalitas input: teks, gambar, file, audio, dan video. Teks bisa polos atau terstruktur; gambar dapat mencakup foto, diagram, dan tangkapan layar; file mencakup format seperti PDF dan dokumen; audio mencakup ucapan dan musik; video dapat diproses dengan trek visual dan audio. Model ini dapat menggabungkan beberapa modalitas dalam satu perintah—misalnya, menganalisis video sambil membaca PDF yang dilampirkan. Fleksibilitas ini memungkinkannya menangani tugas media campuran yang kompleks tanpa memerlukan jalur terpisah. Token input dihitung berdasarkan aturan tokenizer spesifik masing-masing modalitas.
Gemini 3 Flash Preview adalah versi pra-rilis dari model Flash generasi ketiga Google. Sebagai pratinjau, model ini dapat mengalami perubahan dalam perilaku, kinerja, dan ketersediaan. Google biasanya memperbarui model pratinjau berdasarkan umpan balik pengguna, dan mereka pada akhirnya dapat mengganti titik akhir pratinjau dengan rilis stabil. Meskipun model ini berfungsi dan cocok untuk pengujian dan pengembangan, penerapan produksi harus memantau pembaruan. OrcaRouter mencerminkan titik akhir penyedia, memastikan bahwa setiap perubahan dari Google tercermin dengan cepat. ID model google/gemini-3-flash-preview akan tetap konsisten kecuali Google mengubah penamaannya.
Model ini dapat memproses teks dan gambar secara bersamaan untuk tugas-tugas seperti pembuatan keterangan (captioning), menjawab pertanyaan visual, dan ekstraksi dokumen. Ia dapat membaca teks dari dokumen pindaian, menginterpretasikan grafik, dan menjawab pertanyaan tentang konten tersebut. Untuk input yang hanya berupa teks, model ini mendukung pemahaman bahasa, perangkuman, penerjemahan, dan pembuatan kode. Jendela konteks yang besar (1,048,576 token) memungkinkannya menangani percakapan yang sangat panjang, buku utuh, atau basis kode yang ekstensif. Skor MMLU-Pro sebesar 88.2 menunjukkan penalaran yang kuat di berbagai subjek, termasuk sains, matematika, dan humaniora.
Input audio dapat berupa ucapan langsung atau rekaman audio; model dapat mentranskripsikan, menerjemahkan, atau menganalisis konten tersebut. Input video menggabungkan bingkai visual dan trek audio—cocok untuk merangkum konten video, mendeteksi objek, atau memahami adegan dengan narasi lisan. Jendela konteks berarti video atau file audio yang panjang dapat diproses dalam satu putaran, selama jumlah token masih dalam batas. Output berbasis teks; model tidak menghasilkan audio atau video. API OrcaRouter mendukung pengiriman file audio (misalnya, MP3, WAV) dan file video (misalnya, MP4) sebagai bagian dari konten pesan.
Varian Flash dioptimalkan untuk kecepatan dan biaya, sehingga sangat ideal untuk aplikasi real-time: transkripsi langsung, chatbot multimodal interaktif, peringkasan dokumen cepat, dan moderasi konten lintas jenis media. Varian ini juga unggul dalam skenario yang membutuhkan konteks besar, seperti menganalisis seluruh transkrip rapat atau memproses makalah penelitian panjang dengan gambar yang disematkan. Kasus penggunaan yang membutuhkan kecepatan dan penalaran multimodal—seperti pembuatan takarir video atau peninjauan dokumen hukum—sangat cocok. Namun, untuk tugas yang memerlukan penalaran lebih mendalam pada satu modalitas (misalnya, pembuatan kode murni), model khusus mungkin berkinerja lebih baik.
Gemini 3 Flash Preview dibanderol dengan harga $0.50/1M input dan $3.00/1M output, yang tergolong murah untuk model multimodal tetapi bukan yang termurah yang tersedia. Jika kasus penggunaan Anda murni hanya teks dan membutuhkan latensi atau biaya yang lebih rendah, pertimbangkan model teks khusus seperti Gemini 2.0 Flash (jika tersedia) atau alternatif dengan harga serupa. Di sisi lain, jika Anda membutuhkan penalaran yang unggul pada tolok ukur yang kompleks (mis., MATH, GPQA) dan memiliki anggaran lebih besar, Anda dapat memilih model yang lebih besar seperti Gemini 3 Pro atau GPT-4o. Untuk beban kerja multimodal yang bervolume tinggi dan sensitif terhadap latensi, model Flash ini memberikan keseimbangan yang baik.
MMLU-Pro adalah versi perluasan dari tolok ukur Massive Multitask Language Understanding, yang mencakup 57 subjek dengan pertanyaan yang lebih menantang. Skor 88,2 menunjukkan bahwa model tersebut menjawab dengan benar 88,2% pertanyaan, menempatkannya di antara model berkinerja terbaik dalam evaluasi ini. Hal ini mencerminkan pengetahuan dan penalaran yang kuat di berbagai bidang, dari hukum hingga fisika. Skor ini kompetitif dengan model perbatasan lainnya, terutama mengingat model Flash dioptimalkan untuk kecepatan, bukan akurasi maksimal. Skor yang diberikan adalah fakta tolok ukur utama untuk model ini dan harus ditafsirkan sebagai indikator kemampuan umum, bukan jaminan untuk setiap tugas spesifik.
Meskipun angka latensi spesifik tidak disebutkan, model Flash dari Google dirancang untuk throughput tinggi dan latensi rendah. Model ini ditujukan lebih cepat daripada mitra yang lebih besar seperti Gemini 3 Pro, sehingga cocok untuk interaksi real-time. Pengguna dapat mengharapkan waktu per-permintaan yang lebih rendah dibandingkan varian non-Flash, meskipun kecepatan sebenarnya bergantung pada faktor-faktor seperti panjang input, panjang output, dan penggunaan bersamaan. OrcaRouter tidak menambahkan latensi tambahan di luar API penyedia. Untuk performa terbaik, buatlah prompt tetap singkat dan gunakan respons streaming. Batas output yang besar (65.536 token) dapat meningkatkan waktu pembuatan untuk jawaban yang lebih panjang.
Skor MMLU-Pro (88,2) menunjukkan penalaran yang kuat dan pengetahuan umum. Kemampuan model untuk menangani konteks 1M-token dan beberapa modalitas input (teks, gambar, file, audio, video) memberinya keunggulan dalam tugas multimodal dibandingkan model yang hanya mendukung teks. Model Flash secara tradisional unggul dalam kecepatan dan efisiensi biaya. Batas token output yang tinggi (65.536) memungkinkan pembuatan rangkuman bentuk panjang atau analisis yang diperluas. Kekuatan ini menjadikannya opsi serbaguna untuk aplikasi yang perlu memproses berbagai tipe data dengan cepat, dalam skala besar.
Sebagai pratinjau Flash, mungkin tidak akan menyamai akurasi model yang lebih besar dan non-Flash pada tolok ukur khusus (misalnya, kompetisi pengkodean, penalaran matematika multi-langkah). Model ini tidak menghasilkan gambar atau audio—hanya keluaran teks. Status pratinjaunya berarti ketersediaan mungkin terputus-putus atau cakupan fitur sebagian. Selain itu, meskipun jendela konteks besar, masukan yang sangat panjang akan terpotong jika melebihi 1.048.576 token. Skor MMLU-Pro hanyalah satu titik data; kinerja di dunia nyata dapat bervariasi. Untuk tugas yang memerlukan presisi absolut di domain khusus, validasi disarankan.
Biaya adalah $0,50 per juta token input dan $3,00 per juta token output. Tarif ini disediakan oleh Google dan ditagih sesuai tarif penyedia—OrcaRouter tidak menambahkan markup apa pun. Token input mencakup semua teks dan token visual/audio yang dikodekan dari file, gambar, dan video. Token output hanya berupa teks yang dihasilkan oleh model. Tidak ada biaya tambahan untuk akses API melalui OrcaRouter selain biaya per token. Harga transparan ini memungkinkan Anda memperkirakan biaya dengan mudah: misalnya, input 1.000 token dan output 500 token akan dikenakan biaya sekitar $0,0005 + $0,0015 = $0,002.
Pada $0.50/1M input dan $3.00/1M output, Gemini 3 Flash Preview dibanderol dengan harga yang kompetitif untuk model multimodal dengan jendela konteks 1M. Model yang lebih besar seperti Gemini 3 Pro atau GPT-4o biasanya lebih mahal per token, terutama untuk output. Model teks-saja yang lebih kecil mungkin lebih murah (misalnya, Gemini 2.0 Flash sebesar $0.10/$0.40 per 1M token, jika berlaku). Untuk beban kerja multimodal, model ini menawarkan titik tengah yang hemat biaya. Markup nol dari OrcaRouter memastikan Anda membayar tepat tarif Google. Jika penggunaan Anda tinggi, bahkan perbedaan kecil per token pun dapat berarti, jadi bandingkan dengan profil token tugas spesifik Anda.
Fakta harga yang diberikan tidak mencakup diskon caching atau tingkatan volume. Google mungkin menawarkan tarif yang lebih rendah untuk token yang di-cache pada beberapa model, tetapi hal itu belum dikonfirmasi untuk Gemini 3 Flash Preview. Harga OrcaRouter mencerminkan biaya per token mentah tanpa markup, sehingga Anda tidak membayar ekstra untuk gateway. Untuk penerapan berskala besar, hubungi Google secara langsung untuk kemungkinan perjanjian perusahaan. Selalu periksa harga terbaru di halaman harga OrcaRouter atau di dasbor akun Anda, karena tarif dapat berubah oleh penyedia. Saat ini, tarif yang disebutkan per juta token adalah yang berlaku.
Anda menggunakan API yang kompatibel dengan OpenAI milik OrcaRouter di URL dasar https://api.orcarouter.ai/v1. ID modelnya adalah "google/gemini-3-flash-preview". Autentikasi ditangani melalui kunci API dari OrcaRouter. Sebagai contoh, dengan curl Anda dapat mengirim permintaan POST ke /v1/chat/completions. Format permintaan mengikuti struktur Chat Completions milik OpenAI. Anda harus menyertakan parameter model yang diatur ke ID model yang tepat. OrcaRouter menangani perutean ke endpoint Google. Pastikan kunci API Anda memiliki izin yang sesuai. Streaming didukung dengan mengatur stream: true di badan permintaan.
Anda dapat menggunakan parameter standar OpenAI Chat Completions: model, messages (dengan role: system, user, assistant), temperature, top_p, max_tokens (dibatasi pada 65.536), stop sequences, frequency_penalty, presence_penalty, logit_bias, dan stream. Untuk pesan multimodal, sertakan data yang dienkode base64 atau ID file dalam array content. Model secara otomatis mendeteksi modalitas input. Perhatikan bahwa tidak semua fitur OpenAI (seperti function calling) mungkin didukung—periksa dokumentasi OrcaRouter. Jendela konteks sebesar 1.048.576 token diterapkan pada total jumlah token pesan. Jika terlampaui, pesan tertua akan dipotong.
Jika Anda sudah menggunakan Vertex AI atau Gemini API milik Google, migrasi hanya memerlukan perubahan minimal. Sesuaikan URL dasar API Anda menjadi https://api.orcarouter.ai/v1, arahkan ke ID model "google/gemini-3-flash-preview", dan ganti autentikasi Google Anda dengan kunci API OrcaRouter. Format pesannya serupa—OrcaRouter menerjemahkan antara format OpenAI dan Google. Untuk konten multimodal, pastikan Anda mengikuti pedoman lampiran OrcaRouter (misalnya, data yang dienkode base64 dengan tipe MIME yang tepat). Uji dengan sejumlah kecil permintaan untuk memastikan kesetaraan. OrcaRouter menyediakan dokumentasi dukungan dan kode contoh untuk berbagai bahasa.
Struktur respons sesuai dengan format Chat Completion OpenAI: sebuah objek dengan choices, usage, dan id. Setiap choice menyertakan objek message dengan role dan content. Penggunaan token dilaporkan sebagai prompt_tokens dan completion_tokens. Kolom finish_reason menunjukkan alasan penghentian generasi (stop, length). Respons streaming mengeluarkan objek delta. Jika Anda menggunakan SDK OpenAI, Anda hanya perlu mengubah kunci API dan base URL. Endpoint OrcaRouter berperilaku seperti API OpenAI, menyederhanakan integrasi. Keunikan apa pun yang spesifik untuk model Google (misalnya, filter keamanan) tetap dipertahankan; periksa respons untuk kemungkinan pesan penolakan.
Gemini 3 Flash Preview adalah model generasi berikutnya dari model Flash Google, yang menawarkan jendela konteks yang lebih besar (1.048.576 vs. 32K–1M sebelumnya tergantung versi) dan dukungan multimodal yang lebih baik termasuk video. Skor MMLU-Pro sebesar 88,2 untuk 3 Flash Preview menunjukkan penalaran yang lebih baik daripada skor yang dilaporkan untuk 2 Flash (tidak disebutkan, tetapi biasanya lebih rendah). Harga untuk 2 Flash lebih rendah per token, menjadikannya lebih ramah anggaran untuk tugas-tugas sederhana. Gemini 3 Flash Preview lebih cepat dan lebih mumpuni untuk penalaran multimodal yang kompleks, tetapi 2 Flash tetap menjadi alternatif yang hemat biaya untuk tugas teks-saja atau gambar sederhana.
GPT-4o dari OpenAI juga mendukung input multimodal (teks, gambar, audio) dan memiliki jendela konteks 128K token, secara signifikan lebih kecil dari 1M token Gemini 3 Flash Preview. Harga GPT-4o bervariasi tetapi umumnya lebih tinggi per token (mis., $2.50/1M input, $10/1M output). Biaya yang lebih rendah dan konteks yang lebih besar dari Gemini 3 Flash Preview membuatnya lebih cocok untuk tugas multimodal jangka panjang atau volume tinggi. Namun, GPT-4o mungkin memiliki kelebihan berbeda dalam penulisan kreatif atau pembuatan kode, dan tolok ukurnya (mis., MMLU) sebanding. Pilihan tergantung pada kebutuhan ukuran konteks dan preferensi integrasi.
Dalam jajaran produk Google, Gemini 3 Pro adalah model yang lebih besar dan lebih mahal yang dirancang untuk akurasi maksimal (skor MMLU-Pro lebih tinggi). Flash adalah varian yang dioptimalkan untuk biaya dan kecepatan. Gemini 2 Flash lebih lama dan lebih murah tetapi dengan konteks yang lebih kecil dan kemungkinan skor benchmark yang lebih rendah. Gemini 3 Flash Preview menawarkan jalan tengah: penalaran mendekati level Pro (88.2 MMLU-Pro) dengan biaya yang jauh lebih rendah. Bagi pengguna yang membutuhkan konteks terbesar dan kecepatan terbaik, 3 Flash Preview adalah pilihan ideal. Untuk penalaran premium pada input yang lebih kecil, 3 Pro mungkin lebih baik. Untuk tugas sederhana, 2 Flash atau model ringan lainnya sudah mencukupi.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Input / 1M token | $0.500 |
| Output / 1M token | $3.00 |
| Baca cache / 1M | $0.050 |
| Mata uang | USD |