Gevorderd • Les 12

AI-evaluatie in de praktijk: A/B-testen van prompts

Prompt engineering is geen kunst maar een discipline die meetbaar is. Het systematisch evalueren en vergelijken van prompts geeft je harde data over wat werkt en waarom. Zo kom je verder dan onderbuikgevoel.

Waarom evaluatie nodig is

Taalmodellen zijn niet-deterministisch: dezelfde prompt geeft bij elke run een iets ander resultaat. Bovendien kan een prompt die goed werkt voor jouw testgeval falen op de rest van de dataset. Zonder evaluatie optimaliseer je voor uitzonderingen. Goede evaluatie dekt een representatief spectrum van invoeren.

Evaluatiemethoden

Je kunt output evalueren op basis van exacte antwoorden (goed/fout bij gesloten vragen), rubrieken (een scoreschema op meerdere dimensies zoals nauwkeurigheid, toon en lengte), of door gebruik te maken van een LLM als evaluator (LLM-as-judge). De laatste methode is schaalbaar maar vereist een goed gecalibreerde evaluatieprompt.

A/B-testen van prompts

Bij een prompt A/B-test run je twee promptvarianten op dezelfde testset en vergelijk je de scores. Zorg voor een grote genoeg testset (minstens 50-100 voorbeelden) om toeval te uitsluiten. Gebruik statistische significantietests als je precieze conclusies wil trekken. Documenteer elke promptwijziging zodat je de evolutie kunt terugvolgen.

Tools en platforms

Platforms zoals Braintrust, LangSmith en PromptLayer helpen bij het bijhouden van promptversies, het uitvoeren van evaluaties en het vergelijken van runs. Voor eenvoudige use cases volstaan ook spreadsheets en een beetje Python. Het gaat erom dat je structureel bijhoudt wat je hebt geprobeerd en wat het opleverde.