Tokenization is het proces waarbij tekst wordt opgesplitst in kleinere eenheden, genaamd tokens. Dit is een fundamentele stap in hoe AI-taalmodellen tekst verwerken. In plaats van karakter voor karakter of woord voor woord te werken, gebruiken modellen tokens, die kunnen variëren van enkele karakters tot hele woorden.
De manier waarop tekst wordt ge-tokeniseerd bepaalt hoe het model informatie begrijpt en verwerkt. Een simpel woord als “onbegrijpelijk” kan worden opgesplitst in meerdere tokens. Dit proces is belangrijk omdat het direct invloed heeft op hoe lang een tekst voelt voor het model (in termen van kosten en verwerkingstijd), en ook op hoe goed het model nuances in taal kan begrijpen.
Elk AI-model heeft zijn eigen tokenizer. OpenAI’s modellen gebruiken een andere tokenization dan Claude, wat betekent dat dezelfde tekst voor het ene model meer tokens is dan voor het andere.