NVIDIA heeft de Nemotron 3 Nano Omni gelanceerd, een open multimodaal model dat visie, audio en taal verenigt in één systeem. Het model brengt het bereik van een volledig AI-agentteam samen in een enkele architectuur, met 9x hogere doorvoer dan vergelijkbare open modellen en topscores op zes benchmarks voor documentintelligentie en video-audiobegrip.
De Nemotron 3 Nano Omni heeft een 30B-A3B hybride mixture-of-experts Architectuur met Conv3D en Extended Video Sampling. Het model verwerkt tekst, beelden, audio, video, documenten, grafieken en grafische interfaces als input en produceert tekst als output. Met een contextlengte van 256K tokens en real-time HD-scherminterpretatie lost het een fundamenteel probleem op: AI-agents hoeven niet langer meerdere perceptiemodellen te combineren, wat latency, contextverlies en kosten vermindert.
Bedrijven als Palantir, Foxconn en Dell Technologies evalueren het model, terwijl Aible, H Company en anderen het al toepassen. Volgens Gautier Cloix, CEO van H Company, is de shift praktisch: agents die voorheen seconden nodig hadden om een scherm te interpreteren, kunnen nu full-HD-opnames in real-time verwerken. Nemotron 3 Nano Omni is beschikbaar via Hugging Face, OpenRouter en build.nvidia.com, plus 25 partnerplatforms.