Expert • Les 29
Model merging en SLERP: meerdere modellen samenvoegen zonder hertraining
Stel dat je twee fine-tuned versies hebt van hetzelfde basismodel: één gespecialiseerd in code, één in meertaligheid. Kun je ze combineren zonder alles opnieuw te trainen? Model merging maakt dit mogelijk door de gewichten van meerdere modellen wiskundig samen te voegen. Het is een techniek die in 2023-2024 grote populariteit verwierf in de open-source modelgemeenschap.
Lineair gewichten middelen: de basis
De eenvoudigste methode is linear interpolation: neem een gewogen gemiddelde van de gewichtstensoren van twee modellen. Als beide modellen vanuit hetzelfde basismodel zijn fine-tuned, delen ze dezelfde gewichtsruimte en is middeling zinvol. De fusie erft kenmerken van beide — mits de taak-richtingen niet te sterk conflicteren. Dit werkt verrassend goed maar gaat soms gepaard met kwaliteitsverlies op beide specialisaties.
SLERP: sferische interpolatie
SLERP (Spherical Linear Interpolation) interpoleert langs de kortste boog op de eenheidsbol in gewichtsruimte in plaats van langs een rechte lijn. Dit behoudt de norm van de gewichtstensor beter en geeft vloeiendere overgangen. De interpolatieparameter t loopt van 0 (volledig model A) tot 1 (volledig model B). SLERP is de standaardkeuze geworden voor pairwise model merging in de open-source gemeenschap en is geïmplementeerd in tools als mergekit.
TIES en DARE: meerdere modellen samenvoegen
Bij het samenvoegen van meer dan twee modellen komen conflicten voor: gewichten die in tegengestelde richtingen zijn fine-tuned. TIES-merging (Trim, Elect Sign, Disjoint Merge) lost dit op door eerst gewichten te trimmen die weinig zijn veranderd, conflicterende tekens weg te stemmen, en alleen unidirectionele gewichten samen te voegen. DARE (Drop And REscale) randomiseert een deel van de delta’s (het verschil tussen het fine-tuned model en het basismodel) weg en herscaleert de rest, wat interferentie vermindert.
Toepassingen en beperkingen
Model merging is populair in de open-source gemeenschap om snel nieuwe modelvarianten te maken zonder GPU-kosten. Bekende voorbeelden zijn Mistral-gebaseerde merges op Hugging Face. Beperkingen: het werkt alleen voor modellen met identieke architectuur en tokenizer, en bij sterk divergente fine-tuning degradeert kwaliteit. Het is geen vervanging voor gerichte training, maar een efficiente manier om bestaande modellen te combineren.