RLHF – JiltedGeek.com

Term van de dag

RLHF

RLHF (Reinforcement Learning from Human Feedback) is een trainingsmethode waarbij een AI-model leert van menselijk feedback in plaats van alleen van gegeven labels. Na de initiële training met supervised learning, wordt het model verder verfijnd door feedback van menselijke evaluatoren.

Het proces werkt als volgt: het model genereert meerdere mogelijke antwoorden op dezelfde vraag. Menselijke evaluatoren rangschikken deze antwoorden van beter naar slechter. Deze rangschikkingen worden gebruikt om een beloningsmodel te trainen. Vervolgens wordt het originele model met reinforcement learning bijgesteeld om antwoorden te genereren die een hogere beloning krijgen.

RLHF is cruciaal geweest voor het creëren van AI-assistenten die meer menselijke voorkeur volgen. Modellen als ChatGPT, Claude en andere state-of-the-art language models gebruiken RLHF om aanweziger, veiliger en nuttiger te zijn.

Voorbeeld: Een taalmodel genereert drie antwoorden op ‘Wat is machine learning?’ Menselijke evaluatoren geven het meest duidelijke antwoord een score van 9, het tweede een 7, en het derde een 4. Deze feedback helpt het model te leren welke antwoorden beter gewaardeerd worden.

Terug

📚

Term van de dag archief

Alle AI-termen op één plek. Blader door het volledige archief, gesorteerd op alfabet.