Tokenisatie: hoe taalmodellen tekst verwerken

Gevorderd • Les 15

Tokenisatie: hoe taalmodellen tekst verwerken

Taalmodellen lezen geen letters of woorden maar tokens. Begrijpen hoe tokenisatie werkt helpt je betere prompts te schrijven, kosten te beheersen en beter te begrijpen waarom modellen soms vreemde fouten maken.

Wat is een token?

Een token is een stuk tekst dat het model als eenheid verwerkt. Het kan een heel woord zijn, een deel van een woord, of zelfs een enkel leesteken. Het woord “kunstmatige” wordt door de meeste tokenizers opgesplitst in meerdere tokens. In het Engels zijn tokens gemiddeld zo’n 4 tekens lang; in het Nederlands en andere talen met langere woorden zijn teksten vaak duurder in tokens.

Byte Pair Encoding

De meest gebruikte tokenisatiemethode is Byte Pair Encoding (BPE). Het algoritme start met alle individuele tekens als tokens en voegt vervolgens de meest voorkomende tekenparen samen totdat een gewenst vocabulaire is bereikt. Zo worden veelvoorkomende woorden en woorddelen hun eigen token, terwijl zeldzame woorden worden opgesplitst.

Praktische implicaties

Tokenisatie verklaart waarom modellen soms slecht zijn in simpele taken zoals letters tellen of omgekeerd schrijven: het model ziet de tekst niet op teken-niveau maar op token-niveau. Het verklaart ook waarom code en getallen soms vreemd worden verwerkt. Code heeft een hoge token-dichtheid, wat promptoptimalisatie voor code-taken relevant maakt.

Kosten en limieten

API-kosten worden berekend per token (invoer en uitvoer apart). Een prompt van 1.000 woorden bevat typisch 1.300 tot 1.500 tokens. Wees zuinig met tokens in production-systemen: vermijd onnodige herhaling in system prompts, gebruik beknopte instructies en meet je gemiddeld tokenverbruik per use case.

Terug