Expert • Les 2
AI-evaluatie: hoe meet je de kwaliteit van een model?
Een model bouwen is een deel van het werk. Het evalueren ervan is minstens zo belangrijk: hoe weet je of het goed genoeg is voor productie?
Automatische benchmarks
Benchmarks zoals MMLU (kennis), HumanEval (code), GSM8K (wiskunde) en HELM vergelijken modellen op gestandaardiseerde taken. Ze geven een snelle vergelijking maar meten niet altijd wat er in productie toe doet.
Task-specifieke evals
Beter is het opstellen van evaluaties die direct meten op jouw specifieke use case. Maak een testset van input-output-paren die representatief zijn voor de echte toepassing. Automatiseer de beoordeling via een LLM-as-judge of exacte matching waar mogelijk.
Human evaluation
Voor subtiele kwaliteitsaspecten zoals tone, coherentie en nuance is menselijke beoordeling nodig. Gebruik pairwise ranking: presenteer beoordelaars twee outputs en vraag welke beter is. Dit is betrouwbaarder dan absolute scores.
Red-teaming
Red-teaming is het systematisch proberen een model te laten falen: onjuiste informatie produceren, veiligheidsfilters omzeilen, of inconsistent gedrag vertonen. Professionele AI-teams doen dit voor elke release. Automatische red-teaming tools genereren aanvalsprompts op schaal.