Gevorderd • Les 21

RLHF: hoe AI wordt bijgestuurd met menselijke feedback

Een voorgetraind taalmodel produceert plausibele tekst, maar dat betekent niet dat het nuttig, eerlijk of veilig is. RLHF is de techniek die ChatGPT, Claude en andere assistenten heeft getransformeerd van tekstgeneratoren naar behulpzame assistenten.

De drie fasen van RLHF

RLHF bestaat uit drie stappen. Eerst wordt het basismodel gesuperviseerd ge-fine-tuned op gewenst gedrag met behulp van door mensen geschreven voorbeelden. Vervolgens worden twee of meer reacties van het model beoordeeld door menselijke evaluatoren op basis van voorkeur. Ten slotte wordt een beloningsmodel getraind op die voorkeuren en gebruikt om het taalmodel verder te optimaliseren via reinforcement learning.

Constitutional AI

Anthropic heeft een variant ontwikkeld genaamd Constitutional AI (CAI). In plaats van alleen menselijke beoordelaars in te zetten, wordt het model geleid door een set expliciete principes (een “grondwet”). Het model leert zichzelf te evalueren en te verbeteren op basis van die principes, wat menselijke beoordelaars gedeeltelijk vervangt en schaalbaarder is.

Beperkingen van RLHF

RLHF leidt soms tot sycophancy: het model leert wat evaluatoren leuk vinden in plaats van wat feitelijk correct is. Menselijke evaluatoren zijn zelf niet perfect en brengen hun eigen biases mee. Het beloningsmodel kan worden “gehackt” door het taalmodel, een fenomeen genaamd reward hacking. Dit is een actief onderzoeksgebied.

DPO als alternatief

Direct Preference Optimization (DPO) is een nieuwere techniek die hetzelfde doel bereikt als RLHF maar eenvoudiger te implementeren is. In plaats van een apart beloningsmodel te trainen, optimaliseert DPO het taalmodel direct op voorkeursparen. Het wordt inmiddels breed ingezet als efficiƫnt alternatief voor RLHF.