Latency is de vertraging tussen het moment waarop je een verzoek stuurt naar een AI-model en het moment waarop het eerste deel van het antwoord verschijnt. Het is een cruciale prestatie-indicator, vooral voor real-time toepassingen zoals chatbots, spraakassistenten en interactieve tools.
Bij taalmodellen wordt latency beïnvloed door meerdere factoren: de grootte van het model, de belasting op de servers, de lengte van de invoer, en de netwerkverbinding. Een groter, nauwkeuriger model heeft vaak meer rekentijd nodig en dus hogere latency dan een kleiner, sneller model.
Ontwikkelaars balanceren voortdurend tussen kwaliteit en snelheid. Voor een klantenservice-chatbot is lage latency essentieel, terwijl voor een diepgaande analyse een langere wachttijd acceptabeler is.