Training data is de verzameling informatie die gebruikt wordt om een AI-model te trainen. Dit zijn de voorbeelden waarvan het model leert om patronen te herkennen en voorspellingen te maken.
De kwaliteit en hoeveelheid van training data is cruciaal:
1. Hoeveelheid: Meer data leidt meestal tot betere modellen, maar ook tot meer computationele kosten
2. Kwaliteit: Vervuilde of labelfouten in data leiden tot slechte modellen
3. Diversiteit: Data moet representatief zijn voor alle situaties waarin het model gebruikt zal worden
4. Balans: In classificatie moet je voorkomen dat bepaalde klassen veel meer vertegenwoordigd zijn
Large language models worden op miljarden woorden training data getraind, afkomstig van boeken, websites en andere bronnen. Het datasamenstelling proces is ook belangrijk: het filteren, schoonmaken en curateren van training data kan grote effecten hebben op model prestaties.