Expert • Les 12
Continual learning en catastrophic forgetting
Een van de fundamentele uitdagingen van neurale netwerken is catastrophic forgetting: wanneer een model wordt bijgetraind op nieuwe data, overschrijft het de gewichten die verantwoordelijk waren voor eerder geleerde kennis. Dit maakt continual learning, het geleidelijk bijwerken van modellen, technisch complex.
Waarom catastrophic forgetting optreedt
Gradient descent optimaliseert voor de huidige trainingsdistributie. De gewichten die cruciaal waren voor taak A worden aangepast voor taak B zonder rekening te houden met hun belang voor A. Bij grote modellen en voldoende data-diversiteit is het effect minder uitgesproken, maar bij sequentiële fine-tuning op smalle taken is het een serieus probleem.
Mitigatiestrategieën
Elastic Weight Consolidation (EWC) berekent de Fisher-informatiematrix om te identificeren welke gewichten belangrijk zijn voor eerdere taken en voegt een regularisatieterm toe die die gewichten beschermt. Progressive Neural Networks voegen nieuwe kolommen toe voor elke nieuwe taak en bevriezen eerdere kolommen. Replay-methoden mengen oude trainingsdata met nieuwe om de eerdere distributie te herinneren.
Parameter-efficient fine-tuning als oplossing
LoRA en aanverwante PEFT-methoden zijn deels een antwoord op catastrophic forgetting: door alleen adapter-gewichten te trainen en de basismodelgewichten te bevriezen, blijft de originele kennis intact. Dit is ook waarom LoRA populair is voor domein-specifieke fine-tuning: het model leert nieuwe taken zonder de brede pre-trainingskennis te overschrijven.
Continual learning in productie
In productiesystemen wordt catastrophic forgetting typisch omzeild door periodieke volledige hertraining op gecombineerde datasets (inclusief historische data), evaluatie op holdout-sets van eerdere taken, en versie-beheer van modelgewichten. Online learning (continue bijwerking op nieuwe data) is zeldzaam bij grote modellen vanwege de complexiteit van stabiele optimalisatie.