Expert • Les 10

Synthetic data: trainingsdata genereren met AI

Gelabelde trainingsdata is duur en schaars. Synthetic data, gegenereerd door AI of simulaties, biedt een schaalbare oplossing voor domein-specifieke fine-tuning, data augmentatie en privacy-bewust trainen. De kwaliteitscontrole is cruciaal.

Methoden voor tekst-synthese

Voor taalmodeltraining wordt synthetische data gegenereerd via een sterkere teacher-model dat vraag-antwoordparen, instructieparen of redeneerketens produceert. Phi-1 en Phi-2 zijn getraind op kwalitatief hoogwaardige synthetische code en tekst (“textbook-quality”), met indrukwekkende resultaten voor modelgrootte. Self-instruct is een methode waarbij een model instructiedata genereert op basis van een kleine seed-set.

Data augmentatie

Data augmentatie vult echte data aan met variaties: parafraseren (zelfde betekenis, andere formulering), backtranslatie (vertaal naar andere taal en terug), counterfactual augmentation (kleine feitelijke wijzigingen om robustheid te trainen). Bij beeldmodellen zijn rotatie, bijsnijden en kleurwijziging standaard; voor tekst is augmentatie subtieler en vereist semantische verificatie.

Kwaliteitscontrole en model collapse

Model collapse is het fenomeen waarbij een model getraind op zijn eigen output steeds generischer wordt en de diversiteit van echte data verliest. Preventie vereist: menging van synthetische en echte data, diversiteitsmetriken bijhouden, en validatie door een apart beoordelingsmodel of menselijke annotators. Filter-pipelines (zoals perplexiteitsfiltering) verwijderen lage-kwaliteit gegenereerde samples.

Privacy-toepassingen

Synthetische data kan medische of financiƫle trainingsdata vervangen waarbij privacygevoelige echte data niet gebruikt mag worden. Differential privacy-technieken gecombineerd met synthetische generatie bieden formele privacygaranties. Evalueer altijd of de synthetische distributie de echte distributie voldoende approximeert voor de doeltoepassing.