Expert • Les 1

Fine-tuning: een model trainen op je eigen data

Fine-tuning is het verder trainen van een pre-trained model op een specifieke dataset. Het resultaat is een model dat betere prestaties levert op die specifieke taak, stijl of domein.

Wanneer kies je voor fine-tuning?

Fine-tuning is zinvol als je een consistente tone-of-voice nodig hebt (bijv. klantenservice), een specifiek outputformaat altijd correct moet zijn (bijv. JSON-structuren), of als je werkt met domeinspecifieke terminologie die het basismodel niet goed beheerst. Het is geen oplossing voor het ontbreken van actuele kennis: gebruik dan RAG.

Supervised fine-tuning (SFT)

De meest gebruikte methode: je levert paren van input en gewenste output. Het model leert die mapping na te bootsen. Datakwaliteit is bepalend: 500 perfecte voorbeelden zijn beter dan 10.000 middelmatige.

RLHF en RLAIF

Reinforcement Learning from Human Feedback (RLHF) is hoe modellen zoals ChatGPT en Claude zijn getraind om behulpzaam en veilig te zijn. Menselijke beoordelaars rangschikken uitvoer. Een reward model leert die voorkeuren. Daarna wordt het taalmodel geoptimaliseerd via reinforcement learning. RLAIF vervangt menselijke feedback door AI-feedback, wat goedkoper en schaalbaar is.

Parameter-efficient fine-tuning

LoRA (Low-Rank Adaptation) en QLoRA zijn populaire technieken die slechts een fractie van de modelparameters aanpassen. Dit is veel goedkoper dan volledige fine-tuning en werkt verrassend goed. Je kunt zo een 7B-model fine-tunen op een enkele consumentengpu.