Transformer-architectuur — ‘Attention Is All You Need’ (2017)

In juni 2017 publiceerde een team van acht Google-onderzoekers een paper met een bescheiden titel: “Attention Is All You Need”. Het paper introduceerde de Transformer-architectuur. Het is het meest geciteerde AI-paper van de afgelopen tien jaar — en de basis voor vrijwel alles dat sindsdien in AI is gebouwd.

Vóór 2017 werden taalmodellen gebouwd op recurrente netwerken (RNN’s en LSTM’s) die tekst woord voor woord verwerken — traag en slecht in het bijhouden van langetermijnafhankelijkheden. Transformers losten beide problemen op met één elegant mechanisme: attention.

Wat is attention?

Attention laat het model bij elke stap kijken naar alle woorden in de invoer tegelijk, en beslissen welke woorden het meest relevant zijn voor de huidige context. Bij de zin “De bank was leeg omdat alle klanten… ” begrijpt attention dat “klanten” verwijst naar de financiële instelling, niet de zitbank.

Dit maakt Transformers parallel te verwerken (ideaal voor GPU’s) en effectief in het begrijpen van context over lange stukken tekst.

De erfenis: alles wat sindsdien is gebouwd

De lijst van modellen die op Transformers gebaseerd zijn, is in feite de lijst van alle grote moderne AI-modellen:

  • BERT (Google, 2018) — bidirectionele taalrepresentaties
  • GPT-serie (OpenAI, 2018–heden) — de basis van ChatGPT
  • Claude (Anthropic, 2023–heden)
  • Gemini (Google DeepMind, 2023–heden)
  • LLaMA (Meta, 2023–heden)
  • DALL-E, Stable Diffusion — ook afbeeldingsmodellen gebruiken nu Transformer-varianten

De namen achter het paper

De acht auteurs — Vaswani, Shazeer, Parmar, Uszkoreit, Jones, Gomez, Kaiser en Polosukhin — zijn inmiddels verspreid over heel Silicon Valley. Meerdere hebben hun eigen AI-startups opgericht. Noam Shazeer richtte Character.AI op. Aidan Gomez richtte Cohere op.

Het is zeldzaam dat één wetenschappelijk paper zo’n directe en brede impact heeft. “Attention Is All You Need” is dat paper. Zonder Transformers: geen ChatGPT, geen Claude, geen Gemini. Alles wat moderne AI definieert, rust op dit fundament.

AlphaGo verslaat Lee Sedol (2016)

In maart 2016 verloor Lee Sedol — een van de beste Go-spelers aller tijden — drie partijen op rij tegen een computerprogramma. Hij weende. Miljoenen mensen keken toe. Het was een moment dat de wereld van AI fundamenteel veranderde.

Go is een bordspel met eenvoudige regels maar astronomische complexiteit. Het heeft meer mogelijke spelposities dan er atomen in het waarneembare universum zijn. Schaakcomputers konden brute-force rekenen — Go was altijd beschouwd als onmogelijk voor computers, omdat intuïtie en patroonherkenning domineerden boven berekening.

Hoe AlphaGo werkte

DeepMind (eigendom van Google) nam een radicaal andere aanpak dan Deep Blue bij schaak. AlphaGo combineerde:

  • Supervised learning: trainen op 160.000 menselijke partijen
  • Reinforcement learning: tegen zichzelf spelen om beter te worden
  • Monte Carlo Tree Search: slim selectief vooruitrekenen
  • Deep neurale netwerken: patroonherkenning op boardposities

De beroemde 37e zet

In de tweede partij speelde AlphaGo zet 37 op een positie die menselijke experts “menselijk onmogelijk” noemden. Lee Sedol verliet de zaal voor vijftien minuten. Commentatoren geloofden dat het een fout was. Het bleek een creatieve meesterzet die achteraf een sleutelrol in de overwinning speelde.

AlphaGo won vier van de vijf partijen. Lee Sedol won er één — partij vier — met een menselijke tegenzet die later “de God-zet” werd genoemd. In zijn pensioenverklaring in 2019 noemde hij AlphaGo als de reden: een entiteit die niet te verslaan is.

AlphaGo Zero: leren zonder menselijk voorbeeld

In 2017 publiceerde DeepMind AlphaGo Zero — een versie die helemaal zonder menselijke partijen werd getraind. Het leerde Go uitsluitend door tegen zichzelf te spelen, beginnend van nul. Na drie dagen versloeg het de versie die Lee Sedol had verslagen. Na 40 dagen was het het sterkste Go-programma ooit gemaakt.

AlphaGo Zero bewees dat machines menselijke kennis niet nodig hebben als startpunt — ze kunnen die kennis zelf ontdekken, en vervolgens overstijgen. Dat principe — self-play reinforcement learning — wordt nu gebruikt in robotica, medicijnontwikkeling en wetenschappelijke simulaties.

GANs — Generatieve Netwerken Uitgevonden (2014)

Het was 2014. Ian Goodfellow — een PhD-student aan de Universiteit van Montreal — discussieerde met vrienden in een bar over een probleem in computervisionderzoek: hoe genereer je realistische afbeeldingen met een neuraal netwerk? Na de avond werkte hij nacht door en implementeerde hij in één nacht een idee dat de richting van AI voor een decennium zou bepalen.

Het idee heette Generative Adversarial Networks, of kortweg GANs.

Hoe GANs werken

Een GAN bestaat uit twee neurale netwerken die tegen elkaar strijden:

  • De Generator probeert nep-content te maken die zo realistisch mogelijk is
  • De Discriminator probeert echt en nep van elkaar te onderscheiden

Door training worden beide steeds beter. De generator leert steeds overtuigender te liegen; de discriminator leert steeds beter te detecteren. Het resultaat: na voldoende training maakt de generator content die de discriminator niet meer van echt kan onderscheiden.

De impact: van wetenschappelijk speeltje naar deepfakes

De eerste GAN-resultaten in 2014 waren wazig en primitief — gegenereerde gezichten die eruitzagen als smeltende was. Maar het idee was zo elegant dat onderzoekers over de hele wereld ermee aan de slag gingen. Binnen enkele jaren werden GANs gebruikt voor:

  • StyleGAN (NVIDIA, 2018-2019): hyper-realistische menselijke gezichten genereren
  • Deepfakes: gezichten in video’s vervangen
  • Afbeeldingssynthese: foto’s bewerken op semantisch niveau (“maak dit dag” of “verwijder de wolken”)
  • Medische beeldvorming: trainingsdata synthetiseren voor zeldzame aandoeningen

Goodfellow en de toekomst

Ian Goodfellow werkte later bij Google Brain en Apple. Het GAN-principe — twee netwerken die elkaar verbeteren door competitie — bleek een van de meest vruchtbare architecturale ideeën in de AI-geschiedenis.

Vandaag zijn diffusion models (zoals DALL-E en Stable Diffusion) populairder voor beeldgeneratie dan GANs, maar het idee achter GANs — dat generatieve modellen leren door competitie — heeft de gehele generatieve AI-beweging geïnspireerd.

AlexNet — De Deep Learning Revolutie (2012)

In september 2012 stuurde een team van drie onderzoekers van de Universiteit van Toronto een inzending in voor de ImageNet Large Scale Visual Recognition Challenge — een jaarlijkse competitie waarbij computers leren afbeeldingen te classificeren. Hun inzending heette AlexNet. Ze wonnen met een marge die niemand voor mogelijk had gehouden.

De foutmarge van AlexNet was 15,3%. De beste niet-deep-learning concurrent maakte 26,2% fouten. Dat verschil van bijna 11 procentpunten was zo groot dat de hele vakgemeenschap van onderzoeksrichting veranderde — in één klap.

Het team: Krizhevsky, Sutskever en Hinton

Alex Krizhevsky schreef het netwerk. Ilya Sutskever werkte mee (hij zou later OpenAI mede-oprichten). En hun promotor was Geoffrey Hinton — de man die al decennia in neurale netwerken geloofde toen niemand anders dat deed. Hij zou in 2024 de Nobelprijs Fysica winnen.

De sleutel van AlexNet was de combinatie van drie dingen die al bestonden maar nog nooit op deze schaal gecombineerd waren:

  • Diepe convolutionele neurale netwerken (meerdere lagen, elk leert andere features)
  • GPU-training — grafische kaarten bleken perfect voor matrixberekeningen in neurale netwerken
  • Grote datasets (ImageNet had 1,2 miljoen gelabelde afbeeldingen)

Waarom dit het keerpunt was

Vóór 2012 geloofden de meeste AI-onderzoekers dat handmatig geëngineerde features noodzakelijk waren — mensen die expliciet programma’s schreven om randen, kleuren en vormen te detecteren. AlexNet bewees dat een netwerk die features zelf kon leren uit ruwe pixels.

Google, Facebook, Baidu, Microsoft — ze aanschouwden de resultaten en begrepen onmiddellijk de implicaties. Binnen twee jaar hadden alle grote techbedrijven deep learning-teams. Hinton zelf werd aangenomen door Google. Sutskever ging naar OpenAI. De moderne AI-boom was begonnen.

Vandaag draaien GPT-4, Claude, Gemini, en vrijwel alle moderne AI-systemen op de architectuurprincipes die AlexNet demonstreerde: schaalbare neurale netwerken, getraind op GPU’s, met grote datasets. 2012 was het jaar nul van de moderne AI.

Deep Blue verslaat Kasparov (1997)

Op 11 mei 1997 gaf Garry Kasparov — de beste schaakspeler ter wereld — zijn koning over. Zijn tegenstander was geen mens. Het was Deep Blue, een IBM-schaakcomputer die 200 miljoen posities per seconde kon evalueren.

De wedstrijd bestond uit zes partijen. Kasparov had een jaar eerder nog gewonnen van een eerdere versie van Deep Blue. Maar in 1997 verloor hij de match met 2,5 – 3,5. Het was de eerste keer dat een schaakcomputer onder officieel toernooiomstandigheden de regerende wereldkampioen versloeg.

Wat Deep Blue zo bijzonder maakte

Deep Blue was geen lerende machine — het gebruikte geen AI in de moderne zin. Het was extreem krachtige brute-force berekening gecombineerd met handmatig geëncoded schaakkennis van grootmeesters. Het kon 200 miljoen zetten per seconde doorrekenen.

Kasparov beschuldigde IBM van vals spelen na de tweede partij — Deep Blue had een zet gespeeld die hem zo verrastte dat hij geloofde er een menselijk brein achter zat. IBM weigerde de logbestanden te delen. Tot op de dag van vandaag bestaat er enige controverse over wat er in die tweede partij precies gebeurde.

Symboliek boven techniek

Schaken gold lang als het ultieme symbool van menselijke intelligentie. “Als computers kunnen schaken, zijn ze intelligent” — totdat ze het konden. Daarna verschoof de definitie. AI-onderzoekers noemen dit spottend de AI-effect: zodra een machine iets kan, noemen mensen het niet meer “echt” intelligent.

De overwinning van Deep Blue was het eerste wereldwijde AI-nieuws. Kasparovs verslagenheid stond op de voorpagina’s. De wereld realiseerde zich: machines kunnen mensen verslaan in complexe, symbolische taken. Dat was een psychologische kanteling, ook als de techniek achteraf beperkter bleek dan gedacht.

Moderne AI-modellen spelen schaak op een manier die zelfs Deep Blue ver overtreft — Stockfish en AlphaZero zijn vandaag zo sterk dat geen menselijke speler ook maar een partij kan winnen. Het tijdperk van mens-versus-machine op schaakbord is allang voorbij.

Expertsystemen — Eerste commerciële AI (1980)

Eind jaren ’70 en begin jaren ’80 leek AI eindelijk zijn belofte waar te maken — niet via neurale netwerken of lerende systemen, maar via regels en logica. Expertsystemen waren software die de kennis van menselijke experts codeerde in duizenden “als-dan”-regels.

Het bekendste voorbeeld was XCON (ook wel R1 genoemd), ontwikkeld voor Digital Equipment Corporation (DEC). XCON kon klantorders voor computersystemen configureren — een taak waarvoor voorheen tientallen menselijke ingenieurs nodig waren. Het systeem bespaarde DEC naar schatting 40 miljoen dollar per jaar.

De opkomst van de AI-industrie

Bedrijven stortten zich massaal op expertsystemen. In de VS en Japan werden honderden miljoenen geïnvesteerd. Japan lanceerde het ambitieuze Fifth Generation Computer Project — een staatsgesponsord programma om AI-computers te bouwen die Japanse industriele dominantie zouden garanderen. De VS en VK reageerden met eigen programma’s (DARPA’s Strategic Computing Initiative).

Consultancybedrijven specialiseerden zich in het bouwen van expertsystemen. De term “knowledge engineering” werd gemunt. Het tijdschrift Forbes schreef dat AI de volgende grote industrie was.

De tweede AI-winter

Maar eind jaren ’80 stortte het kaartenhuis in. Expertsystemen bleken breekbaar, onderhoudsgevoelig en niet schaalbaar. Elke nieuwe regel kon conflicteren met bestaande regels. De kennisengineers konden het groeitempo niet bijhouden. Systemen werkten goed binnen een enge domein maar faalden buiten de gebaande paden.

Investeringen droogden op. Bedrijven zoals Symbolics — die gespecialiseerde AI-computers maakten — gingen failliet. Het Japanse Fifth Generation Project werd in 1992 stilgelegd als een mislukking. Dit werd de tweede AI-winter.

De les van de expertsystemen-era: kunstmatige intelligentie die afhankelijk is van handmatig geëncoded menselijke kennis, schaalt niet. Het zou een generatie duren voordat een andere aanpak — lerende systemen die patronen vinden in data — dat probleem zou oplossen.

ELIZA — De eerste chatbot (1966)

In 1966 creëerde Joseph Weizenbaum aan het MIT een programma dat de wereld zou verbazen — en zijn maker zou verontrusten. ELIZA was het eerste computerprogramma dat een geloofwaardige menselijke conversatie kon voeren.

ELIZA werkte via patroonherkenning en sjabloonantwoorden. Het beroemdste script heette DOCTOR, dat een psychotherapeut naspelde. Als iemand schreef “Ik heb hoofdpijn”, antwoordde ELIZA met iets als: “Hoe lang heeft u al last van hoofdpijn?” — en de illusie van begrip was compleet.

Het ELIZA-effect

Weizenbaum was geschokt door wat er vervolgens gebeurde. Mensen — waaronder zijn eigen secretaresse — geloofden oprecht dat ze met een mens communiceerden. Ze deelden persoonlijke geheimen. Ze wilden dat Weizenbaum de kamer verliet zodat ze in privacy konden chatten met het programma.

Zelf noemde hij dit fenomeen zorgwekkend: mensen geven computers veel te snel menselijke eigenschappen. Dit staat nu bekend als het ELIZA-effect — de neiging van mensen om computerprogramma’s te vermenselijken, zelfs als ze weten dat het code is.

Weizenbaums waarschuwing

In 1976 schreef Weizenbaum het boek Computer Power and Human Reason — een directe reactie op de reacties die ELIZA opriep. Hij betoogde dat er taken zijn die computers kunnen uitvoeren maar niet zouden moeten uitvoeren — taken die menselijk oordeel, medegevoel en verantwoordelijkheid vereisen.

Zijn waarschuwing is opmerkelijk actueel. Vandaag de dag worden AI-chatbots ingezet als therapie-assistenten, klantenservice-agenten en zelfs gezelschapsbots. Het ELIZA-effect — dat mensen gevoelens projecteren op programma’s die geen gevoel hebben — is groter dan ooit.

ELIZA was technisch primitief. Maar het stelde een vraag die we nog steeds niet volledig hebben beantwoord: hoe menselijk moet iets zijn voordat we het als zodanig behandelen?

Dartmouth Conference — Geboorte van AI als vakgebied (1956)

In de zomer van 1956 kwamen tien wetenschappers bijeen op Dartmouth College in New Hampshire, Amerika. Ze waren er zes weken. Wat ze daar bedachten en bespraken, zou de loop van de technologiegeschiedenis veranderen.

Het was John McCarthy — een 29-jarige wiskundige van MIT — die het initiatief nam. Samen met Marvin Minsky, Nathaniel Rochester en Claude Shannon schreef hij een voorstel voor een zomerstudie met een aanname die destijds bijna naïef klonk:

“Every aspect of learning or any other feature of intelligence can in principle be so precisely described that a machine can be made to simulate it.”

Waarom dit de geboorte van AI was

Vóór Dartmouth bestond het vakgebied niet. Er was onderzoek naar neurale netwerken, speltheorie, cybernetica — maar er was geen gemeenschappelijke naam, geen community, geen gezamenlijk doel. Dartmouth gaf het allemaal een naam: Artificial Intelligence.

McCarthy introduceerde de term bewust om af te stappen van eerdere labels zoals “cybernetics”. Hij wilde een frisse start, een eigen identiteit voor een nieuw vakgebied.

Wie waren erbij?

De deelnemers van Dartmouth waren bijna allemaal mensen die de komende decennia AI zouden vormgeven: Marvin Minsky (mede-oprichter MIT AI Lab), Claude Shannon (grondlegger van de informatietheorie), Herbert Simon en Allen Newell (die hun Logic Theorist presenteerden — een vroeg AI-programma dat wiskundige stellingen bewees).

De conferentie zelf leverde geen grote doorbraken op. Maar de naming — het moment dat het vakgebied een eigen identiteit kreeg — maakte Dartmouth historisch. Fondsen kwamen vrij, universiteiten richtten AI-labs op, en een generatie wetenschappers had eindelijk een vlag om achter te scharen.

70 jaar later is het vakgebied dat in een zomerhuis in New Hampshire werd benaamd, uitgegroeid tot een van de meest bepalende technologieën van de mensheid.

Alan Turing — Computing Machinery and Intelligence (1950)

In 1950 publiceerde de Britse wiskundige en computerpionier Alan Turing een van de meest invloedrijke wetenschappelijke papers ooit geschreven: “Computing Machinery and Intelligence”, gepubliceerd in het filosofische tijdschrift Mind.

Het paper begint met een simpele maar revolutionaire vraag: “Can machines think?” Turing realiseerde zich dat deze vraag moeilijk te beantwoorden was zonder eerst te definiëren wat “denken” betekent. Dus stelde hij een alternatief voor: het Imitation Game — later bekend als de Turing-test.

Hoe werkt de Turing-test?

Een menselijke beoordelaar voert gesprekken (via tekst) met zowel een mens als een machine. Als de beoordelaar niet betrouwbaar kan onderscheiden wie de mens is en wie de machine, dan heeft de machine de test “geslaagd”. Turing geloofde dat een machine die deze test kon doorstaan, praktisch gezien als intelligent beschouwd moest worden.

In hetzelfde paper behandelde Turing ook negen tegenwerpingen die mensen hadden tegen de mogelijkheid van denkende machines — van theologische bezwaren (“alleen God kan een ziel geven”) tot wiskundige argumenten (Gödels incompleteness theorema). Hij weerlegde ze systematisch.

Waarom dit zo belangrijk was

Turings paper legde de filosofische fundering voor het hele vakgebied van kunstmatige intelligentie — nog vóór het woord “artificial intelligence” überhaupt bestond. Hij verschoof de vraag van “kan een machine denken?” naar “kan een machine zich gedragen alsof het denkt?” — een pragmatische definitie die de wetenschap tot op de dag van vandaag gebruikt.

Alan Turing zelf had een tragisch lot. Hij hielp de geallieerden de Tweede Wereldoorlog te winnen door de Enigma-code te kraken, maar werd in 1952 vervolgd wegens homoseksualiteit (toen strafbaar in het VK). Hij overleed in 1954, vermoedelijk door zelfdoding. In 2013 verleende koningin Elizabeth II hem postuum gratie.

De Turing Award — de hoogste onderscheiding in de informatica — is naar hem vernoemd. Zijn foto staat op het 50-pond biljet. En zijn vraag uit 1950 is nog steeds de brandende kernvraag van AI: kunnen machines werkelijk denken?