Een validation set is een subset van je trainingsdata die wordt gebruikt om de prestaties van een AI-model in real-time te monitoren terwijl het wordt getraind. Het is apart van de trainingsdata (waarop het model leert) en apart van de testdata (waarop je uiteindelijk beoordeeld hoe goed het model werkt).
De validation set speelt een cruciale rol in het voorkomen van overfitting. Tijdens training kijk je naar hoe goed het model presteert op de validation set – als het goed blijft werken op data die het niet heeft gezien, is dat een goed teken. Als de validation set plotseling slechter gaat presteren terwijl trainingsgegevens beter worden, is dat een waarschuwing dat het model overfitting krijgt.
Een typische split is 70 procent training, 15 procent validation, 15 procent test. De validation set helpt je om hyperparameters aan te passen en te bepalen wanneer je moet stoppen met trainen.