Expert • Les 7

Mixture of Experts (MoE): schaalbare modelarchitectuur

Mixture of Experts is een architectuurparadigma waarbij een model bestaat uit meerdere gespecialiseerde subnetwerken (experts), waarvan slechts een subset actief is per token. Dit maakt het mogelijk modellen te schalen zonder evenredige toename in rekenkosten.

Architectuur

In een transformer-gebaseerd MoE-model wordt de feed-forward laag vervangen door N experts (typisch 8-128) plus een router. De router is een klein neuraal netwerk dat per token bepaalt welke top-k experts worden geactiveerd (gewoonlijk k=1 of k=2). Alleen de geactiveerde experts voeren de berekening uit; de overige parameters blijven inactief.

Load balancing

Een kritiek probleem bij MoE is expert collapse: de router leert snel dat enkele experts consistent beter presteren en stuurt vrijwel alle tokens naar die experts, terwijl de rest ongebruikt blijft. Oplossingen zijn auxiliary loss terms die een uniforme verdeling stimuleren (zoals in Switch Transformer) en noise-based load balancing.

Sparse versus dense

Een dense MoE activeert alle experts voor alle tokens (niet efficiƫnt). Sparse MoE activeert slechts k van N experts. Mixtral 8x7B heeft 8 experts per laag met k=2: elke token activeert effectief 2 van de 8 experts, waardoor het model 47 miljard parameters heeft maar slechts 13 miljard actief per token. Dit geeft de prestaties van een 47B-model bij de rekenkosten van een 13B-model.

Implementatie-uitdagingen

MoE-modellen zijn moeilijker te serven: alle expertgewichten moeten in geheugen staan ook al zijn ze niet actief. Bij gedistribueerde inference vereist expert parallelism zorgvuldige communicatie tussen nodes. Token dropping (wanneer een expert vol zit en tokens overslaat) is een subtiel correctheidsprobleem dat zorgvuldig moet worden beheerd.