Google Gemini 3 Flash Preview – Multimodaal model met 1M token context, 88.2 MMLU-Pro, toegankelijk via OrcaRouter.
Google Gemini 3 Flash Preview is een multimodaal model ontwikkeld door Google, geoptimaliseerd voor snelheid en verwerking van grote contexten. Het accepteert invoer in tekst-, afbeelding-, bestand-, audio- en videoformaten, en kan tot 65,536 tokens aan uitvoer genereren. Het model heeft een contextvenster van 1,048,576 tokens, waardoor het over zeer lange sequenties kan redeneren. Het scoort 88.2 op de MMLU-Pro-benchmark, wat wijst op sterke prestaties op een breed scala aan academische en redeneertaken. Deze preview-versie is beschikbaar via de OpenAI-compatibele API van OrcaRouter onder de model-ID google/gemini-3-flash-preview.
Gemini 3 Flash Preview richt zich op ontwikkelaars en organisaties die toepassingen bouwen die snelle, multimodale redenering met grote context vereisen. Het is zeer geschikt voor gebruiksscenario's zoals video-analyse, samenvatting van lange documenten en real-time audio-video begrip. De prijs van het model—$0.50 per miljoen invoertokens en $3.00 per miljoen uitvoertokens—maakt het toegankelijk voor zowel startups als grote ondernemingen. Omdat het een preview is, kunnen vroege gebruikers de mogelijkheden evalueren vóór een stabiele release. OrcaRouter biedt naadloze toegang tot dit model, inclusief OpenAI-compatibele eindpunten en geen opslag op provider-tarieven.
Gemini 3 Flash Preview ondersteunt vijf invoermodaliteiten: tekst, afbeelding, bestand, audio en video. Tekst kan plat of gestructureerd zijn; afbeeldingen kunnen foto's, diagrammen en schermafbeeldingen omvatten; bestanden omvatten formaten zoals PDF's en documenten; audio omvat spraak en muziek; video kan worden verwerkt met zowel visuele als audiosporen. Het model kan meerdere modaliteiten combineren in één prompt — bijvoorbeeld het analyseren van een video terwijl het ook een bijgevoegd PDF-bestand leest. Deze veelzijdigheid stelt het in staat om complexe, gemengde-media taken uit te voeren zonder aparte pijplijnen. Invoertokens worden geteld op basis van de specifieke tokenizerregels van elke modaliteit.
Gemini 3 Flash Preview is een pre-releaseversie van Google's derde generatie Flash-model. Als preview kan het veranderingen ondergaan in gedrag, prestaties en beschikbaarheid. Google werkt previewmodellen doorgaans bij op basis van gebruikersfeedback en kan preview-eindpunten uiteindelijk vervangen door stabiele releases. Hoewel het model functioneel en geschikt is voor testen en ontwikkeling, moeten productie-implementaties updates in de gaten houden. OrcaRouter spiegelt het eindpunt van de provider en zorgt ervoor dat eventuele wijzigingen van Google snel worden doorgevoerd. De model-ID google/gemini-3-flash-preview blijft consistent, tenzij Google de naamgeving aanpast.
Het model kan tekst en afbeeldingen samen verwerken voor taken zoals bijschriften, visuele vraagbeantwoording en documentextractie. Het kan tekst lezen van gescande documenten, grafieken interpreteren en vragen beantwoorden over de inhoud. Voor alleen-tekst invoer ondersteunt het taalbegrip, samenvatting, vertaling en codegeneratie. Het grote contextvenster (1.048.576 tokens) stelt het in staat om zeer lange gesprekken, volledige boeken of uitgebreide codebases te verwerken. De MMLU-Pro-score van 88,2 suggereert robuuste redenering over een breed scala aan onderwerpen, waaronder wetenschap, wiskunde en geesteswetenschappen.
Audio-invoer kan directe spraak of opgenomen audio zijn; het model kan de inhoud transcriberen, vertalen of analyseren. Video-invoer combineert visuele frames en audiotrack—geschikt voor het samenvatten van video-inhoud, het detecteren van objecten of het begrijpen van scènes met gesproken commentaar. Het contextvenster betekent dat lange video's of audiobestanden in één enkele beurt kunnen worden verwerkt, zolang het aantal tokens binnen de limiet blijft. Uitvoer is op tekst gebaseerd; het model genereert geen audio of video. De API van OrcaRouter ondersteunt het verzenden van audiobestanden (bijv. MP3, WAV) en videobestanden (bijv. MP4) als onderdeel van de berichtinhoud.
De Flash-variant is geoptimaliseerd voor snelheid en kosten, waardoor het ideaal is voor realtime toepassingen: live transcriptie, interactieve multimodale chatbots, snelle documentsamenvatting en contentmoderatie over mediatypen heen. Het blinkt ook uit in scenario's die een grote context vereisen, zoals het analyseren van volledige vergadertranscripties of het verwerken van lange onderzoeksdocumenten met ingebedde figuren. Gebruikssituaties die profiteren van zowel snelheid als multimodaal redeneren—zoals videobijschriften of juridische documentbeoordeling—zijn zeer geschikt. Voor taken die dieper redeneren op één modaliteit vereisen (bijv. puur code genereren), kan een gespecialiseerd model echter beter presteren.
Gemini 3 Flash Preview is priced at $0.50/1M input and $3.00/1M output, wat laag is voor een multimodaal model, maar niet het laagste beschikbaar. Als uw use case puur tekstgebaseerd is en nog lagere latentie of kosten vereist, overweeg dan speciale tekstmodellen zoals Gemini 2.0 Flash (indien beschikbaar) of vergelijkbaar geprijsde alternatieven. Aan de andere kant, als u superieure redeneervaardigheden nodig hebt op complexe benchmarks (bijv. MATH, GPQA) en een groter budget heeft, kunt u kiezen voor een groter model zoals Gemini 3 Pro of GPT-4o. Voor hoge volumes, latentiegevoelige, multimodale workloads biedt dit Flash-model een goede balans.
MMLU-Pro is een uitgebreide versie van de Massive Multitask Language Understanding-benchmark, die 57 onderwerpen beslaat met uitdagendere vragen. Een score van 88,2 geeft aan dat het model 88,2% van de vragen correct heeft beantwoord, waarmee het tot de best presterende modellen in deze evaluatie behoort. Het weerspiegelt sterke kennis en redeneervaardigheden op uiteenlopende gebieden, van recht tot natuurkunde. Deze score is concurrerend met andere geavanceerde modellen, vooral omdat Flash-modellen zijn geoptimaliseerd voor snelheid in plaats van maximale nauwkeurigheid. De vermelde score is het belangrijkste benchmarkfeit voor dit model en moet worden geïnterpreteerd als een algemene indicatie van capaciteiten, niet als een garantie voor elke specifieke taak.
Hoewel specifieke latentiecijfers niet worden gegeven, zijn Flash-modellen van Google ontworpen voor hoge doorvoer en lage latentie. Het model is bedoeld sneller te zijn dan grotere tegenhangers zoals Gemini 3 Pro, waardoor het geschikt is voor real-time interacties. Gebruikers kunnen lagere verwerkingstijden per verzoek verwachten in vergelijking met niet-Flash-varianten, hoewel de werkelijke snelheid afhangt van factoren zoals invoerlengte, uitvoerlengte en gelijktijdig gebruik. OrcaRouter voegt geen extra latentie toe bovenop de API van de provider. Voor de beste prestaties houdt u prompts beknopt en gebruikt u streaming-antwoorden. De grote uitvoerlimiet (65,536 tokens) kan de generatietijd voor langere antwoorden verlengen.
De MMLU-Pro-score (88,2) wijst op sterke redeneervaardigheden en algemene kennis. Het vermogen van het model om een context van 1M tokens te verwerken en meerdere invoermodaliteiten (tekst, afbeelding, bestand, audio, video) geeft het een voorsprong in multimodale taken ten opzichte van modellen die alleen tekst ondersteunen. Flash-modellen blinken traditioneel uit in snelheid en kostenefficiëntie. De hoge uitvoertokenlimiet (65.536) maakt het genereren van lange samenvattingen of uitgebreide analyses mogelijk. Deze sterke punten maken het een veelzijdige optie voor toepassingen die snel en op schaal verschillende gegevenstypen moeten verwerken.
Als een Flash-preview komt het mogelijk niet overeen met de nauwkeurigheid van grotere, niet-Flash-modellen op gespecialiseerde benchmarks (bijv. codeerwedstrijden, meerstaps wiskundig redeneren). Het model genereert geen afbeeldingen of audio — alleen tekstuitvoer. De previewstatus betekent dat het model mogelijk niet altijd beschikbaar is of dat sommige functies niet volledig worden ondersteund. Ook al is de contextvenster groot, zeer lange invoer wordt afgekapt als deze groter is dan 1,048,576 tokens. De MMLU-Pro-score is een enkel datapunt; de prestaties in de praktijk kunnen variëren. Voor taken die absolute precisie vereisen in niche-domeinen, wordt validatie aanbevolen.
De prijzen zijn $0.50 per miljoen invoertokens en $3.00 per miljoen uitvoertokens. Deze tarieven worden verstrekt door Google en worden in rekening gebracht tegen het provider-tarief—OrcaRouter voegt geen marge toe. Invoertokens omvatten alle tekst- en visuele/audio-tokens die zijn gecodeerd uit bestanden, afbeeldingen en video. Uitvoertokens zijn alleen de door het model gegenereerde tekst. Er zijn geen extra kosten voor API-toegang via OrcaRouter naast de kosten per token. Deze transparante prijzen stellen u in staat om kosten eenvoudig te schatten: bijvoorbeeld een invoer van 1,000 tokens en een uitvoer van 500 tokens zou ongeveer $0.0005 + $0.0015 = $0.002 kosten.
Bij $0.50/1M input en $3.00/1M output is Gemini 3 Flash Preview concurrerend geprijsd voor een multimodaal model met een 1M contextvenster. Grotere modellen zoals Gemini 3 Pro of GPT-4o kosten doorgaans meer per token, vooral voor output. Kleinere tekst-only modellen kunnen goedkoper zijn (bijv. Gemini 2.0 Flash tegen $0.10/$0.40 per 1M tokens, indien van toepassing). Voor multimodale workloads biedt dit model een kosteneffectief middenweg. De nulopslag van OrcaRouter garandeert dat u exact het Google-tarief betaalt. Als uw gebruik hoog is, kan zelfs een klein verschil per token van belang zijn, dus vergelijk met het tokenprofiel van uw specifieke taak.
De verstrekte prijsinformatie bevat geen kortingen voor caching of volumetarieven. Google biedt mogelijk gereduceerde tarieven voor cached tokens in sommige modellen, maar dat is nog niet bevestigd voor Gemini 3 Flash Preview. OrcaRouter's prijzen weerspiegelen de ruwe kosten per token zonder toeslag, dus u betaalt niet extra voor de gateway. Neem voor grootschalige implementaties rechtstreeks contact op met Google voor mogelijke enterprise-overeenkomsten. Controleer altijd de meest recente prijzen op OrcaRouter's prijzenpagina of in uw accountdashboard, aangezien tarieven kunnen wijzigen door de provider. Momenteel zijn de vermelde tarieven per miljoen tokens van toepassing.
U gebruikt de OpenAI-compatibele API van OrcaRouter op de basis-URL https://api.orcarouter.ai/v1. De model-ID is "google/gemini-3-flash-preview". Authenticatie verloopt via een API-sleutel van OrcaRouter. Met curl kunt u bijvoorbeeld een POST-verzoek sturen naar /v1/chat/completions. Het verzoekformaat volgt de structuur van OpenAI's Chat Completions. U moet de modelparameter instellen op de exacte model-ID. OrcaRouter verzorgt de routering naar het eindpunt van Google. Zorg ervoor dat uw API-sleutel over de juiste machtigingen beschikt. Streaming wordt ondersteund door stream: true in de verzoekbody in te stellen.
Je kunt de standaard OpenAI Chat Completions-parameters gebruiken: model, messages (met role: system, user, assistant), temperature, top_p, max_tokens (beperkt tot 65.536), stop-sequenties, frequency_penalty, presence_penalty, logit_bias en stream. Voeg voor multimodale berichten base64-gecodeerde gegevens of bestands-ID's toe in de content-array. Het model detecteert automatisch de invoermodaliteit. Let op: niet alle OpenAI-functies (zoals function calling) worden mogelijk ondersteund—raadpleeg de OrcaRouter-documentatie. Het contextvenster van 1.048.576 tokens wordt toegepast op het totale aantal berichttokens. Als dit wordt overschreden, worden de oudste berichten afgekapt.
Als u al Google's Vertex AI of Gemini API gebruikt, vereist migreren minimale wijzigingen. Pas uw API-basis-URL aan naar https://api.orcarouter.ai/v1, wijs naar het model-ID "google/gemini-3-flash-preview", en vervang uw Google-authenticatie door een OrcaRouter API-sleutel. Het berichtformaat is vergelijkbaar—OrcaRouter vertaalt tussen OpenAI- en Google-formaten. Voor multimodale inhoud, zorg ervoor dat u de richtlijnen voor bijlagen van OrcaRouter volgt (bijv. base64-gecodeerde gegevens met de juiste MIME-types). Test met een klein aantal verzoeken om overeenstemming te bevestigen. OrcaRouter biedt ondersteuningsdocumentatie en voorbeeldcode voor verschillende talen.
De responsstructuur komt overeen met het Chat Completion-formaat van OpenAI: een object met choices, usage en id. Elke choice bevat een message-object met role en content. Tokenverbruik wordt gerapporteerd als prompt_tokens en completion_tokens. Het finish_reason-veld geeft aan waarom genereren is gestopt (stop, length). Streamingresponsen zenden delta-objecten uit. Als u een OpenAI SDK gebruikt, hoeft u alleen de API-sleutel en basis-URL te wijzigen. Het eindpunt van OrcaRouter gedraagt zich als een OpenAI API, wat integratie vereenvoudigt. Eventuele eigenaardigheden specifiek voor Google's model (bijv. veiligheidsfilters) blijven behouden; controleer de respons op mogelijke weigeringsberichten.
Gemini 3 Flash Preview is de volgende generatie van Google's Flash-model en biedt een groter contextvenster (1.048.576 vs. de vorige 32K–1M, afhankelijk van de versie) en verbeterde multimodale ondersteuning, waaronder video. De MMLU-Pro-score van 88,2 voor 3 Flash Preview suggereert betere redeneervaardigheden dan de gerapporteerde scores voor 2 Flash (niet verstrekt, maar doorgaans lager). De prijs per token voor 2 Flash is lager, waardoor het budgetvriendelijker is voor eenvoudige taken. Gemini 3 Flash Preview is sneller en capabeler voor complexe multimodale redeneringen, maar 2 Flash blijft een kosteneffectief alternatief voor tekst-only of eenvoudige afbeeldingstaken.
GPT-4o van OpenAI ondersteunt ook multimodale invoer (tekst, afbeelding, audio) en heeft een contextvenster van 128K tokens, aanzienlijk kleiner dan de 1M tokens van Gemini 3 Flash Preview. De prijzen van GPT-4o variëren, maar zijn over het algemeen hoger per token (bijv. $2,50/1M invoer, $10/1M uitvoer). De lagere kosten en grotere context van Gemini 3 Flash Preview maken het geschikter voor langdurige of multimodale taken met een hoog volume. GPT-4o kan echter andere sterke punten hebben op het gebied van creatief schrijven of codegeneratie, en de benchmarks (bijv. MMLU) zijn vergelijkbaar. De keuze hangt af van de behoefte aan contextgrootte en integratievoorkeuren.
Binnen Google's aanbod is Gemini 3 Pro een groter, duurder model dat is ontworpen voor maximale nauwkeurigheid (hogere MMLU-Pro-scores). Flash is de voor kosten en snelheid geoptimaliseerde variant. Gemini 2 Flash is ouder en goedkoper, maar met een kleinere context en mogelijk lagere benchmarkscores. Gemini 3 Flash Preview biedt een middenweg: bijna Pro-niveau redeneren (88,2 MMLU-Pro) tegen een fractie van de kosten. Voor gebruikers die de grootste context en beste snelheid nodig hebben, is 3 Flash Preview ideaal. Voor premium redeneren op kleinere invoer kan 3 Pro beter zijn. Voor eenvoudige taken kunnen 2 Flash of andere lichtgewicht modellen volstaan.
from openai import OpenAI
client = OpenAI(
base_url="https://api.orcarouter.ai/v1",
api_key="$ORCAROUTER_API_KEY",
)
response = client.chat.completions.create(
model="google/gemini-3-flash-preview",
messages=[{"role": "user", "content": "Hello"}],
)
print(response.choices[0].message.content)| Invoer / 1M tokens | $0.500 |
| Uitvoer / 1M tokens | $3.00 |
| Cache lezen / 1M | $0.050 |
| Valuta | USD |