Expert • Les 20

Kennisdistillatie: grote modellen verkleinen

Knowledge distillation (KD) is een techniek om de kennis van een groot teacher-model over te dragen naar een kleiner student-model. Het resulterende student-model presteert beter dan wanneer het direct op gelabelde data zou worden getraind, omdat het leert van de rijke kansverdeling van de teacher.

Soft targets versus hard labels

De kern van KD is het trainen op de soft-probabiliteitsverdeling van de teacher (logits of softmax-output) in plaats van de one-hot ground-truth labels. De soft targets bevatten meer informatie: de teacher zegt niet alleen “dit is een hond” maar ook “dit lijkt iets op een kat” via de relatieve kansen. Dit rijkere leersignaal verbetert de student aanzienlijk.

Response-based versus feature-based distillatie

Response-based KD gebruikt de outputverdeling van de teacher als leerdoel. Feature-based KD leert de student tussenliggende representaties na te bootsen: activaties uit de attention heads, residual stream of feed-forward lagen. TinyBERT gebruikt feature-based distillatie op meerdere lagen tegelijkertijd en bereikt 96% van BERT’s prestaties bij 7,5x kleiner formaat.

Distillatie bij grote taalmodellen

LLM-distillatie combineert KD met RLHF en instructie-tuning. DeepSeek-R1 gebruikt een verrassend effectieve methode: de denkstappen (reasoning traces) van een groot model worden als trainingsdata gebruikt voor een kleiner model. Sommige kleine modellen gebouwd op dit principe presteren boven verwachting dankzij de kwaliteit van de distillatie-data.

Praktische overwegingen

Effectieve KD vereist dat de capaciteitsverschil tussen teacher en student niet te groot is (capacity mismatch). Een temperatuurparameter T regelt de zachtheid van de teacher-distributie: hogere T geeft een vlakkere verdeling met meer informatieve soft targets. Hybride verlies (combinatie van KD-verlies en cross-entropie verlies) geeft doorgaans de beste resultaten.