2018 was het jaar dat grote taalmodellen van theorie naar praktijk gingen. Twee modellen domineerden: GPT-1 van OpenAI en BERT van Google. Ze hadden verschillende architecturen en doelen, maar samen legden ze het fundament voor de taalmodel-revolutie.
GPT-1: de geboorte van generatieve pretraining
In juni 2018 publiceerde OpenAI het paper “Improving Language Understanding by Generative Pre-Training”. Het introduceerde een aanpak die nu standaard is: train een groot model op enorme hoeveelheden tekst, en pas het daarna aan voor specifieke taken.
GPT-1 had 117 miljoen parameters — groot voor die tijd. Het werd getraind op de BooksCorpus (7.000 onuitgegeven boeken) en scoorde indrukwekkend op taal-benchmarks zonder taakspecifieke training.
BERT: twee richtingen tegelijk
In oktober 2018 publiceerde Google BERT (Bidirectional Encoder Representations from Transformers). Het sleutelverschil met GPT: BERT leest tekst in beide richtingen tegelijk. Bij de zin “De bank is leeg” kijkt BERT naar wat er voor én na het woord staat, wat rijkere contextuele representaties oplevert.
BERT versloeg in één klap de state-of-the-art op elf taal-NLP-benchmarks. Google implementeerde BERT in zijn zoekmachine — de grootste update aan Google Search in jaren — om zoekopdrachten beter te begrijpen.
Twee strategieen, één idee
GPT en BERT vertegenwoordigen twee fundamenteel verschillende aanpakken:
- GPT (autoregressive): voorspel het volgende woord — goed in generatie
- BERT (masked language modeling): vul ontbrekende woorden in — goed in begrip
De GPT-lijn zou uitgroeien tot GPT-2, GPT-3, GPT-4 en uiteindelijk ChatGPT. De BERT-lijn inspireerde RoBERTa, T5, en de Googlezoekmachine. Beide lijnen leven vandaag verder in de architecturen van alle grote AI-labs.
2018 was het jaar dat de vraag veranderde van “kunnen taalmodellen taal begrijpen?” naar “hoe groot moeten ze zijn?” — een vraag die de komende jaren alles zou bepalen.