Gevorderd • Les 17

Chain-of-thought prompting en redeneerketens

Een taalmodel dat direct een antwoord geeft maakt meer fouten dan een model dat eerst hardop redeneert. Chain-of-thought prompting benut dit principe door het model te dwingen zijn redenering zichtbaar te maken voor het eindantwoord.

Wat is chain-of-thought?

Bij chain-of-thought (CoT) prompting vraag je het model zijn gedachtegang stap voor stap te beschrijven: “Denk hier stap voor stap over na.” Dit simpele verzoek leidt aantoonbaar tot betere resultaten bij wiskunde, logica en redeneerproblematiek. Het model legt als het ware zijn werk uit en pakt daarin fouten eerder op.

Zero-shot versus few-shot CoT

Zero-shot CoT voeg je toe met een instructie als “Denk stap voor stap” zonder verdere voorbeelden. Few-shot CoT geeft je expliciete voorbeelden van de gewenste redeneerstructuur mee. Few-shot is krachtiger maar vereist meer promptwerk. Voor moeilijke problemen loont het om redeneervoorbeelden te schrijven die het model kan volgen.

Extended thinking

Recente modellen zoals Claude Sonnet met extended thinking en OpenAI o1/o3 zijn specifiek getraind om uitgebreid te redeneren voor een antwoord te geven. Ze produceren een intern redeneerproces (reasoning tokens) dat niet altijd zichtbaar is voor de gebruiker maar wel de kwaliteit van het eindantwoord verhoogt. Dit is een geautomatiseerde vorm van CoT.

Wanneer gebruik je CoT?

CoT is het meest effectief bij problemen met meerdere stappen, wiskundige berekeningen, logische puzzels en planningsvragen. Bij eenvoudige feitenretrieval voegt het weinig toe. Het nadeel is dat CoT meer tokens verbruikt en de latency vergroot.