RLHF (Reinforcement Learning from Human Feedback) is een trainingsmethode waarbij een AI-model leert van menselijk feedback in plaats van alleen van gegeven labels. Na de initiële training met supervised learning, wordt het model verder verfijnd door feedback van menselijke evaluatoren.
Het proces werkt als volgt: het model genereert meerdere mogelijke antwoorden op dezelfde vraag. Menselijke evaluatoren rangschikken deze antwoorden van beter naar slechter. Deze rangschikkingen worden gebruikt om een beloningsmodel te trainen. Vervolgens wordt het originele model met reinforcement learning bijgesteeld om antwoorden te genereren die een hogere beloning krijgen.
RLHF is cruciaal geweest voor het creëren van AI-assistenten die meer menselijke voorkeur volgen. Modellen als ChatGPT, Claude en andere state-of-the-art language models gebruiken RLHF om aanweziger, veiliger en nuttiger te zijn.