Scaling laws: de wiskunde achter modelgrootte en prestaties

Expert • Les 14

Scaling laws: de wiskunde achter modelgrootte en prestaties

Scaling laws beschrijven kwantitatieve relaties tussen modelgrootte, trainingsdata-omvang, computebudget en modelprestaties. Ze zijn de wetenschappelijke basis voor beslissingen over hoe groot een model te maken en hoelang te trainen.

Kaplan et al. scaling laws (2020)

OpenAI’s originele scaling laws paper (Kaplan et al., 2020) vond dat verlies op taalmodellering een machtswet volgt ten opzichte van modelgrootte, datahoeveelheid en compute: L ~ N^-a, D^-b, C^-c. Cruciaal: de loss verbetert smooth en voorspelbaar over meerdere ordes van grootte. Dit gaf onderzoekers een instrument om te voorspellen hoe groot een model moet zijn voor een gewenste prestatie.

Chinchilla (2022)

DeepMind’s Chinchilla-paper (Hoffmann et al., 2022) corrigeerde de Kaplan scaling laws. Eerdere modellen waren onderbevraagd voor hun grootte: ze hadden minder data gekregen dan optimaal. Chinchilla’s bevinding: voor compute-optimaal trainen moet de dataomvang (in tokens) ruwweg gelijk zijn aan 20x het aantal parameters. GPT-3 (175B parameters, 300B tokens) had dus optimaal 3.5 biljoen tokens moeten zien.

Implicaties voor modelontwerp

Na Chinchilla verschoven trainingsstrategieen: kleinere modellen meer tokens geven. Llama 1 (2023) trainde een 7B-model op 1 biljoen tokens, veel meer dan de Chinchilla-norm voor die grootte. Dit resulteerde in een model dat bij inferentie vergelijkbaar presteerde met GPT-3 bij een fractie van de inferentiekosten.

Grenzen van scaling laws

Scaling laws gelden voor gemiddelde testloss op language modeling. Ze voorspellen niet alle emergente capaciteiten die optreden bij grotere modellen, zoals in-context learning en reasoning. Emergente capaciteiten verschijnen soms abrupt bij bepaalde schaaldrempels, een fenomeen dat slecht wordt verklaard door smooth scaling laws.

Terug