Expert • Les 1
Fine-tuning: een model trainen op je eigen data
Fine-tuning is het verder trainen van een pre-trained model op een specifieke dataset. Het resultaat is een model dat betere prestaties levert op die specifieke taak, stijl of domein.
Wanneer kies je voor fine-tuning?
Fine-tuning is zinvol als je een consistente tone-of-voice nodig hebt (bijv. klantenservice), een specifiek outputformaat altijd correct moet zijn (bijv. JSON-structuren), of als je werkt met domeinspecifieke terminologie die het basismodel niet goed beheerst. Het is geen oplossing voor het ontbreken van actuele kennis: gebruik dan RAG.
Supervised fine-tuning (SFT)
De meest gebruikte methode: je levert paren van input en gewenste output. Het model leert die mapping na te bootsen. Datakwaliteit is bepalend: 500 perfecte voorbeelden zijn beter dan 10.000 middelmatige.
RLHF en RLAIF
Reinforcement Learning from Human Feedback (RLHF) is hoe modellen zoals ChatGPT en Claude zijn getraind om behulpzaam en veilig te zijn. Menselijke beoordelaars rangschikken uitvoer. Een reward model leert die voorkeuren. Daarna wordt het taalmodel geoptimaliseerd via reinforcement learning. RLAIF vervangt menselijke feedback door AI-feedback, wat goedkoper en schaalbaar is.
Parameter-efficient fine-tuning
LoRA (Low-Rank Adaptation) en QLoRA zijn populaire technieken die slechts een fractie van de modelparameters aanpassen. Dit is veel goedkoper dan volledige fine-tuning en werkt verrassend goed. Je kunt zo een 7B-model fine-tunen op een enkele consumentengpu.