Gemini 3.5 Flash

google/gemini-3.5-flash
oleh google · 2026-05-23

Model multimodal efisien dari Google dengan konteks 1M, output tinggi, dan penetapan harga yang hemat biaya melalui OrcaRouter.

ctx1.05M token
Masukantext + image + video + file + audio
Keluarantext
p50 TTFT10.00 s
INPUT$1.50/ 1M token
OUTPUT$9.00/ 1M token
p50 TTFT10.00 s7h
p95 TTFT10.00 s7h
LALU LINTAS4.5Mtoken / 7h

Detail model

Apa itu Gemini 3.5 Flash?

Gemini 3.5 Flash adalah model bahasa besar yang dikembangkan oleh Google, yang disesuaikan untuk kecepatan dan efisiensi. Model ini termasuk dalam keluarga Gemini dan dirancang untuk menangani masukan multimodal—teks, gambar, video, file, dan audio—sambil memberikan respons yang cepat. Model ini mendukung jendela konteks sebesar 1.048.576 token, yang memungkinkannya memproses urutan yang sangat panjang, seperti seluruh buku, video berdurasi satu jam, atau repositori kode yang luas. Panjang output maksimumnya 65.536 token memungkinkan generasi yang panjang, termasuk laporan lengkap atau file kode yang diperluas. Gemini 3.5 Flash diakses melalui API yang kompatibel dengan OpenAI milik OrcaRouter, yang berarti Anda dapat mengintegrasikannya ke dalam aplikasi yang ada dengan perubahan kode yang minimal.

Siapa yang harus menggunakan Gemini 3.5 Flash?

Gemini 3.5 Flash ideal untuk pengembang dan organisasi yang membutuhkan keseimbangan antara throughput tinggi, latensi rendah, dan biaya. Model ini sangat cocok untuk lingkungan produksi yang mengutamakan kecepatan inferensi, seperti chatbot real-time, pipeline moderasi konten, atau dukungan pelanggan otomatis. Jendela konteks yang luas menguntungkan pengguna yang perlu menganalisis kumpulan data besar, dokumen panjang, atau riwayat percakapan ekstensif tanpa harus memotong-motongnya. Selain itu, tim yang membangun aplikasi multimodal—seperti pemberian keterangan gambar, perangkuman video, atau transkripsi audio—dapat memanfaatkan dukungan aslinya untuk berbagai jenis input. Jika beban kerja Anda membutuhkan kemampuan penalaran yang sangat tinggi atau matematika kompleks, pertimbangkan untuk menggunakan model yang lebih bertenaga namun lebih lambat.

Modalitas input apa yang didukung Gemini 3.5 Flash?

Gemini 3.5 Flash menerima lima modalitas masukan: teks, gambar, video, file, dan audio. Masukan teks dapat berupa string biasa atau pesan terstruktur. Gambar dapat diberikan sebagai data yang dikodekan base64 atau URL; model dapat menafsirkan konten visual seperti bagan, diagram, atau foto. Masukan video didukung sebagai rangkaian bingkai atau file video terkompresi, memungkinkan model menganalisis gerakan dan perubahan temporal. Masukan file mencakup format umum seperti PDF, DOCX, atau file kode; model dapat mengekstrak dan menalar kontennya. Masukan audio dapat berupa mentah atau terkompresi (misalnya, MP3, WAV), memungkinkan transkripsi ucapan dan analisis suara. Semua modalitas dapat digabungkan dalam satu permintaan, menjadikan Gemini 3.5 Flash alat yang serbaguna untuk tugas multimodal.

Bagaimana cara mengakses Gemini 3.5 Flash melalui OrcaRouter?

OrcaRouter mengekspos Gemini 3.5 Flash melalui API yang kompatibel dengan OpenAI. URL dasarnya adalah https://api.orcarouter.ai/v1, dan ID model spesifiknya adalah "google/gemini-3.5-flash". Anda dapat memanggilnya menggunakan SDK OpenAI apa pun atau permintaan HTTP langsung, cukup dengan mengubah URL dasar dan nama model. Autentikasi ditangani melalui kunci API yang disediakan oleh OrcaRouter. API ini mendukung titik akhir percakapan standar, streaming, dan parameter opsional seperti temperature, top_p, dan max_tokens. OrcaRouter tidak menambahkan markup apa pun pada tarif penyedia, sehingga Anda membayar tepat $1,50 per 1 juta token input dan $9,00 per 1 juta token output. Tidak ada biaya gateway tambahan yang diterapkan.

Contoh kode

from openai import OpenAI

client = OpenAI(
    base_url="https://api.orcarouter.ai/v1",
    api_key="$ORCAROUTER_API_KEY",
)

response = client.chat.completions.create(
    model="google/gemini-3.5-flash",
    messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)

Harga

Input / 1M token$1.50
Output / 1M token$9.00
Baca cache / 1M$0.150
Tulis cache / 1M$0.083
Mata uangUSD

Performa

p50 TTFT
10.00 s
Kecepatan output
10766 tok/s
p95 TTFT
10.00 s
Tingkat kesalahan
0.44%

Benchmark publik

49.0
AA Coding
Lebih baik dari 68% model yang dibandingkan
47.0
AA Intelligence
Lebih baik dari 58% model yang dibandingkan
51.0
AA Math
Lebih baik dari 27% model yang dibandingkan
GPQA Diamond
45.0 index
MMLU-Pro
59.0 index
τ²-Bench
42.0 index
Sumber: artificialanalysis.ai

FAQ

Berapa biaya Gemini 3.5 Flash di OrcaRouter?
Token masukan adalah $1.50 per 1 juta token; token keluaran adalah $9.00 per 1 juta token. OrcaRouter menagih pada tarif penyedia tanpa markup. Tidak ada biaya tambahan.
Berapa ukuran jendela konteks dari Gemini 3.5 Flash?
Ini mendukung jendela konteks sebesar 1,048,576 token (sekitar 1 juta token). Ini mencakup token input dan output yang digabungkan.
Apa saja kekuatan utama dari Gemini 3.5 Flash?
Ini dioptimalkan untuk latensi rendah, throughput tinggi, dan efisiensi biaya. Ini mendukung input multimodal (teks, gambar, video, file, audio) dan jendela konteks yang besar, menjadikannya ideal untuk aplikasi waktu nyata dan pemrosesan dokumen panjang.
Bagaimana perbandingan Gemini 3.5 Flash dengan Gemini 3.5 Pro?
Flash lebih cepat dan lebih murah tetapi memiliki kinerja tolok ukur yang lebih rendah pada tugas penalaran kompleks dan matematis. Pro lebih akurat tetapi lebih lambat dan lebih mahal. Flash lebih baik untuk aplikasi bervolume tinggi yang sensitif terhadap latensi.
Bagaimana data ditangani saat menggunakan Gemini 3.5 Flash melalui OrcaRouter?
OrcaRouter bertindak sebagai proxy dan tidak menyimpan data Anda. Namun, kebijakan penanganan data Google berlaku untuk model yang mendasarinya. OrcaRouter merekomendasikan untuk meninjau ketentuan Google terkait retensi data dan privasi.
Bagaimana cara memanggil Gemini 3.5 Flash menggunakan API yang kompatibel dengan OpenAI?
Gunakan URL dasar https://api.orcarouter.ai/v1, ID model "google/gemini-3.5-flash", dan berikan kunci API OrcaRouter di header Authorization. API ini mendukung penyelesaian obrolan standar dan streaming.
Berapa panjang output yang dapat dihasilkan Gemini 3.5 Flash?
Ini dapat menghasilkan hingga 65.536 token per respons. Jumlah ini jauh lebih besar dibandingkan banyak model, memungkinkan konten bentuk panjang, kode, atau penalaran yang diperpanjang.
Apakah ada diskon untuk token yang berulang atau di-cache?
Berdasarkan fakta yang diberikan, OrcaRouter tidak menawarkan caching atau diskon volume. Setiap token ditagih dengan tarif standar terlepas dari penggunaan ulang.

Sematkan lencana ini

Gemini 3.5 Flash$1.50/M in10000ms p50via OrcaRouter
HTML <a href="https://www.orcarouter.ai/models/google/gemini-3.5-flash" target="_blank"> <img src="https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg" alt="Gemini 3.5 Flash di OrcaRouter" /> </a>
Markdown [![Gemini 3.5 Flash](https://www.orcarouter.ai/embed/google/gemini-3.5-flash.svg)](https://www.orcarouter.ai/models/google/gemini-3.5-flash)