Een Transformer is een type neurale netwerkarchitectuur dat in 2017 werd geïntroduceerd en sindsdien de basis vormt van vrijwel alle moderne grote taalmodellen. De naam verwijst naar de manier waarop het model informatie transformeert: het neemt een reeks invoertokens (zoals woorden) en zet die om in een rijke representatie vol betekenis en context.
Het sleutelingrediënt van de Transformer is het attention-mechanisme, waarmee het model bij elke stap kan bepalen welke andere woorden in de zin het meest relevant zijn. Dankzij deze aanpak kan een Transformer parallelle berekeningen uitvoeren — veel efficiënter dan eerdere architecturen zoals RNNs, die woorden strikt één voor één verwerkten.
Modellen als GPT, BERT, Claude en Gemini zijn allemaal gebouwd op de Transformer-architectuur. Ze onderscheiden zich in hoe ze getraind zijn (bijv. alleen genereren of ook begrijpen), maar de onderliggende bouwsteen is steeds dezelfde.
De Transformer heeft AI-onderzoek een enorme versnelling gegeven. Vrijwel elk taalmodel dat je vandaag gebruikt — van vertaaltools tot codeerassistenten — draait op een variant van deze architectuur.