Gevorderd • Les 3

De transformer-architectuur: de basis van moderne AI

In 2017 introduceerden Google-onderzoekers de transformer in het paper Attention Is All You Need. Die architectuur is de basis van GPT, Claude, Gemini en vrijwel elk ander modern taalmodel.

Het attention-mechanisme

Het centrale concept is self-attention: het model kijkt voor elk woord in een zin naar alle andere woorden om context te bepalen. Bij het verwerken van het woord bank bepaalt het model op basis van omliggende woorden of het een financiele instelling of een zitbank betreft.

Parallelisatie

Voor transformers werden recurrente netwerken (RNN) gebruikt, die tekst sequentieel verwerken. Transformers verwerken alle tokens tegelijk, wat enorm parallelliseerbaar is op GPU-hardware. Dat maakt training van grote modellen haalbaar.

Encoder en decoder

Een encoder verwerkt invoer naar een interne representatie. Een decoder genereert op basis daarvan uitvoer. GPT-modellen gebruiken alleen de decoder (generatief). BERT gebruikt alleen de encoder (begrijpend). T5 gebruikt beide.

Context window

Het context window is het maximum aantal tokens dat een model tegelijk kan verwerken. Vroege modellen hadden 2048 tokens; moderne modellen als Claude 3.5 halen 200.000 tokens. Hoe groter het window, hoe meer het model tegelijk kan overzien.