Google heeft Gemini Omni geïntroduceerd, een AI-model dat elke invoer omzet in elke uitvoer — tekst naar beeld, beeld naar video, audio naar tekst, en meer. Het model kan een foto van een knuffeldier omzetten in een videoclip waarin het dier op een vlot dobbert, of je gezicht deepfaken voor de Eiffeltoren. Het is de meest agressive zet van Google om de multimodale grens te verleggen.
Hoewel de resultaten indrukwekkend zijn, benadrukken reviewers dat het nog geen “singulariteit” is. De output is soms onvoorspelbaar en hallucinaties sluipen erin. Toch toont Omni aan dat de grens tussen invoer en uitvoer steeds vager wordt — een trend die niet meer te stoppen lijkt. Google positioneert het model als de volgende stap in zijn Gemini-strategie die eerder dit jaar al Gemini 3.5 Flash en Intelligence lanceerde.
De vraag is nu of gebruikers bereid zijn om zoveel controle uit handen te geven aan een model dat tegelijkertijd creatief en onbetrouwbaar kan zijn. Met de snelle iteratie van Google komt het antwoord waarschijnlijk sneller dan verwacht.