AI Codet Beter dan de Meeste Mensen (2025)

In 2025 werd op meerdere onafhankelijke benchmarks aangetoond dat de beste AI-modellen de meerderheid van menselijke programmeurs overtroffen op gestandaardiseerde coderingstaken. Dat klinkt technisch. De implicaties zijn dat niet.

De benchmarks

SWE-bench — een standaard voor het oplossen van echte GitHub-bugs in open-source projecten — toonde dat Claude 3.7 Sonnet, GPT-4o en vergelijkbare modellen in 2025 meer dan 50% van de taken correct afhandelden. Een jaar eerder was dat onder de 20%. De verbetering was verbluffend snel.

Codeforces — een platform voor competitief programmeren dat door topuniversiteiten wordt gebruikt — toonde aan dat o3 van OpenAI scoorde op het niveau van kandidaat-master, ruim boven de gemiddelde professionele programmeur.

Wat “beter dan mensen” werkelijk betekent

Het is belangrijk te nuanceren: “beter dan de meerderheid” betekent niet “beter dan de besten”. AI-modellen faalden nog steeds op open-ended, creatieve architecturale beslissingen, systeem-niveau ontwerp en taken die diepe kennis van specifieke bedrijfsdomeinen vereisten.

Maar junior en medior programmeurs die standaard taken uitvoerden — bugs fixen, code documenteren, tests schrijven, API-integraties bouwen — werden effectief geconcurreerd door AI-systemen die hetzelfde sneller, goedkoper en zonder klagen deden.

De arbeidsmarktreactie

Grote techbedrijven — waaronder Google, Meta en Amazon — begonnen in 2024-2025 minder junior developers aan te nemen. Vacatures voor entry-level engineering-functies daalden zichtbaar. Sommige bedrijven kondigden aan dat AI hun ontwikkelsnelheid verdubbeld had met minder mensen.

Voor seniors was het ander verhaal: zij werden productiever, niet overbodig. Een goede senior ontwikkelaar met AI-tools produceerde de output van een heel junior team.

Dit patroon — AI als versterker voor experts, als vervanger voor beginners — zou in de komende jaren in meer beroepssectoren zichtbaar worden.

Reasoning-modellen en Multimodale AI (2025)

2025 markeerde een nieuwe fase in de ontwikkeling van grote taalmodellen: de verschuiving van vloeiend antwoorden naar diep redeneren. Reasoning-modellen — modellen die expliciet “nadenken” vóór ze antwoorden — werden het nieuwe paradigma.

Chain-of-thought: hardop denken

OpenAI’s o1 (gelanceerd eind 2024) en de opvolgers o3 en o4-mini (2025) trainden modellen om uitgebreide redeneerketens te genereren vóór ze een definitief antwoord gaven. In plaats van direct te reageren, “dacht” het model stap voor stap — en kon tussentijdse fouten corrigeren.

Anthropic lanceerde Claude 3.7 Sonnet — het eerste Claude-model met extended thinking. Op wiskundige en programmeerbenchmarks scoorde het significant beter dan eerdere generaties. Het kon meerdere minuten “nadenken” over complexe problemen.

Multimodale AI: alles tegelijk

Tegelijkertijd werd multimodaliteit — het vermogen om tekst, beeld, audio en video te begrijpen en te genereren — standaard in alle topmodellen. Gemini 2.0 kon native audio verwerken en genereren. GPT-4o kon realtime gesprekken voeren met emotionele intonatie. Claude kreeg de mogelijkheid computer-use: een scherm bedienen zoals een mens.

De grens tussen “taalmodel” en “algemeen AI-systeem” vervaagde. Modellen werden minder tekstprogramma’s en meer universele kognitieve gereedschappen.

De implicaties voor wetenschap

Reasoning-modellen begonnen in 2025 echte wetenschappelijke bijdragen te leveren. AlphaFold 3 van Google DeepMind voorspelde de structuur van eiwitten met ongekende precisie — een doorbraak voor medicijnontwikkeling. AI-modellen losten wiskundige problemen op uit competities die studenten jaren studie kosten.

De vraag die 2025 opriep: als AI beter is dan mensen in redeneren over gestructureerde domeinen, wanneer — en in welke domeinen — worden mensen overtroffen in alle cognitieve taken?

Nobel voor AI — Hinton en Hopfield Winnen Nobelprijs Fysica (2024)

Op 8 oktober 2024 maakte de Koninklijke Zweedse Academie van Wetenschappen bekend dat de Nobelprijs voor Natuurkunde dat jaar zou gaan naar twee mannen die tientallen jaren hadden gewerkt aan de wetenschappelijke fundamenten van kunstmatige intelligentie: John Hopfield en Geoffrey Hinton.

Het was een historisch moment. Nooit eerder had de meest prestigeüeuze wetenschappelijke onderscheiding ter wereld expliciet een AI-onderzoeker gehonoreerd. En het bevestigde iets dat de wereld al begon te beseffen: neurale netwerken zijn niet meer weg te denken.

John Hopfield: het brein als energiesysteem

John Hopfield (91 jaar bij de uitreiking) ontwikkelde in 1982 het Hopfield-netwerk — een neuraal netwerk geïnspireerd op statistisch-mechanische modellen in de fysica. Het netwerk kon informatie opslaan en ophalen als een geheugen, zelfs als de input vervormd of gedeeltelijk ontbrak. Dit was de eerste formele beschrijving van hoe een neuraal netwerk als associatief geheugen kon werken.

Geoffrey Hinton: de vader van deep learning

Geoffrey Hinton (76 jaar) is de man die decennialang in neurale netwerken bleef geloven toen de rest van de wereld was overgestapt op andere methoden. Hij werkte de backpropagation-algoritme verder uit (de techniek waarmee neurale netwerken leren van fouten), ontwikkelde Boltzmann Machines, en was de promotor van het AlexNet-team dat in 2012 deep learning definitief op de kaart zette.

In 2023 verliet Hinton Google om vrijuit te kunnen spreken over de risico’s van AI. Hij verklaarde dat hij spijt had van zijn levenswerk — niet omdat het onbelangrijk was, maar omdat hij bang was voor de gevolgen van wat hij had helpen bouwen. “Ik troost mezelf met de redenering dat als ik het niet had gedaan, iemand anders het had gedaan.”

Wat de Nobelprijs betekende

De toekenning aan twee computerwetenschappers voor de Fysicaprijs — niet Informatica, die geen Nobelprijs heeft — stuurde een duidelijk signaal: de fundamenten van AI zijn vervlochten met de fundamenten van de natuur- en wiskundige wetenschappen. En dat AI-onderzoek inmiddels de wetenschappelijke erkenning verdient die het verdient.

Geoffrey Hinton reageerde bescheiden bij het ontvangen van het nieuws. Hij was op vakantie en kon het telefoongesprek met Stockholm aanvankelijk niet goed horen. Later die dag zei hij: “Ik ben vóór AGI. Maar ik ben ook bang ervoor.”

AI Agents — Modellen die Zelfstandig Handelen (2024)

Tot 2024 waren grote taalmodellen vooral conversatietools: je stelde een vraag, je kreeg een antwoord. Intelligent, soms indrukwekkend, maar passief. In 2024 veranderde dat. Modellen kregen de mogelijkheid om actie te ondernemen.

Dit zijn AI Agents: systemen die niet alleen antwoorden geven, maar taken uitvoeren — code schrijven en runnen, het web doorzoeken, bestanden aanmaken, e-mails sturen, databases raadplegen, formulieren invullen. Ze werken stap voor stap, evalueren hun eigen voortgang en passen hun aanpak aan als iets niet werkt.

Wat agents mogelijk maakt

De sleutel was tool use: modellen leren hoe ze externe tools aanroepen. Een browser. Een Python-interpreter. Een zoekmachine-API. Een database. Met tools kunnen modellen informatie ophalen die niet in hun training zat, berekeningen uitvoeren die te complex zijn voor pure tekstgeneratie, en veranderingen aanbrengen in de echte wereld.

Anthropic lanceerde hiervoor Claude’s tool use (function calling). OpenAI lanceerde GPT Actions en later Operator — een agent die websites kon bedienen. Google lanceerde Project Mariner. Allemaal met hetzelfde doel: van chatbot naar taakuitvoerder.

De implicaties

De verschuiving van “informatie geven” naar “dingen doen” heeft enorme implicaties. Als een agent zelfstandig software kan schrijven, deployen en testen — wat doet dat met de rol van een ontwikkelaar? Als een agent e-mails kan beantwoorden, afspraken kan inplannen en rapporten kan schrijven — wat doet dat met de rol van een assistent?

De eerste agentic toepassingen kwamen in 2024 voorzichtig op de markt. Cowork van Anthropic, Devin (een AI software engineer), AutoGPT en vergelijkbare systemen lieten zien wat mogelijk was. De betrouwbaarheid was nog wisselend — agents maakten fouten en konden soms onbedoelde nevenschade veroorzaken.

Maar de richting was duidelijk: AI gaat van passief antwoorden naar actief handelen. De vraag is niet meer of dat gebeurt, maar hoe snel en hoe veilig.

Stable Diffusion en Midjourney — Beelden Worden Mainstream (2023)

In 2022-2023 explodeerde generatieve beeldvorming. Wat begon als een wetenschappelijk curiositeit werd een massamedium. Stable Diffusion en Midjourney waren de twee tools die dat mogelijk maakten — op fundamenteel verschillende manieren.

Stable Diffusion: democratisering via open source

In augustus 2022 bracht Stability AI Stable Diffusion uit als open-source model. Voor het eerst kon iedereen — met een redelijk krachtige thuiscomputer — een volledig beeldgeneratiemodel draaien, aanpassen en uitbreiden. Zonder betalen, zonder censuur, zonder API-limieten.

De gemeenschap ontplofte. Duizenden fine-tuned versies verschenen. Plug-ins voor Photoshop en Blender. Websites die Stable Diffusion beschikbaar maakten via de browser. De barriere van technische kennis viel weg.

Midjourney: kunst als dienst

Midjourney koos de tegenovergestelde aanpak: gesloten, via Discord, abonnementsgeld. Maar de kwaliteit was ongelooflijk. Versie 4 en versie 5 produceerden foto-realistische beelden en schilderachtige composities die kunstenaars deden duizelen — en vrezen.

Midjourney won een kunstwedstrijd in Colorado (2022) — een moment dat nationale nieuwsaandacht trok en het debat over AI-kunst volledig openbraken. Had de maker, Jason Allen, vals gespeeld? Wat is kunst als een machine het maakt?

Het debat dat volgde

De opkomst van AI-beeldgeneratie bracht drie grote debatten:

  • Auteursrecht: waren de modellen getraind op auteursrechtelijk beschermde kunst zonder toestemming? Rechtszaken volgden.
  • Arbeidsmarkt kunstenaars: stockfoto-sites raakten overspoeld met AI-beelden; illustratoren verloren opdrachten.
  • Deepfakes: het genereren van valse afbeeldingen van echte mensen werd trivaal eenvoudig — met misbruikpotentieel voor desinformatie en non-consensuele intieme beelden.

Deze debatten zijn nog steeds niet opgelost. AI-beeldgeneratie is niet meer weg te denken — maar de regels rond gebruik, eigendom en verantwoordelijkheid zijn in 2026 nog steeds in de maak.

GPT-4, Claude, Gemini — De Modellenwedloop (2023)

2023 was het jaar van de grote modellenwedloop. Elke maand een nieuw model, elke maand nieuwe benchmarks, elke maand nieuwe capabilities die een jaar eerder onmogelijk leken. Drie spelers domineerden: OpenAI, Anthropic en Google.

GPT-4: advocaten en artsen

In maart 2023 lanceerde OpenAI GPT-4. Het behaalde scores in de top 10% op het Amerikaanse advocatenexamen (bar exam), de top 13% op medische licentie-examens, en scoorde hoger dan 90% van de mensen op de SAT-wiskunde. Het was ook het eerste groot commercieel model dat afbeeldingen kon begrijpen (multimodaal).

Claude: veiligheid als kernwaarde

Anthropic lanceerde Claude met een andere filosofie dan OpenAI. Oprichters — waaronder voormalige OpenAI-medewerkers Dario en Daniela Amodei — richtten het bedrijf in 2021 op met een focus op AI-veiligheid. Claude werd getraind via Constitutional AI: een aanpak waarbij het model een set principes (een “grondwet”) krijgt en leert zichzelf te evalueren.

Claude onderscheidde zich door langere context (100.000 tokens), meer genuanceerde antwoorden en minder neiging tot “hallucination” (het verzinnen van feiten).

Gemini: Google’s antwoord

Google lanceerde Bard (later omgedoopt naar Gemini) als directe concurrent van ChatGPT. De lancering was chaotisch — een demonstratievideo bevatte een fout, het aandeel daalde miljarden. Maar Gemini 1.5 (2024) werd uiteindelijk een serieuze concurrent met een contextraam van 1 miljoen tokens.

De echte betekenis van de wedloop

De modellenwedloop zorgde voor versnelling die zonder competitie niet zou hebben bestaan. Maar ze riep ook vragen op: gaat het te snel? Zijn de veiligheidsgaranties voldoende? In maart 2023 tekenden honderden AI-wetenschappers en techleiders (waaronder Elon Musk en Yoshua Bengio) een open brief voor een pauze van zes maanden in de ontwikkeling van modellen groter dan GPT-4. OpenAI weigerde. De race ging door.

ChatGPT — AI voor Iedereen (2022)

Op 30 november 2022 lanceerde OpenAI een chatbot. Geen grote aankondiging, geen persconferentie. Gewoon een link op Twitter. Binnen vijf dagen hadden een miljoen mensen een account aangemaakt. Binnen twee maanden honderd miljoen. ChatGPT werd het snelst groeiende consumentenproduct in de geschiedenis.

Niets was meer hetzelfde na die dag.

Wat ChatGPT anders maakte

GPT-3 bestond al twee jaar. Maar het was een ruwe API — technisch, ontoegankelijk. ChatGPT verpakte hetzelfde soort model (GPT-3.5) in een chatinterface die iedereen kon gebruiken. Geen technische kennis vereist. Gewoon typen.

De andere sleutel was RLHF (Reinforcement Learning from Human Feedback): menselijke trainers beoordeelden antwoorden en ChatGPT leerde wat goede antwoorden waren. Het resultaat was een model dat behulpzamer, vriendelijker en minder gevaarlijk was dan de ruwe GPT-versies.

De culturele impact

ChatGPT werd direct onderwerp van gesprek in families, boardrooms en parlementen. Scholen verboden het. Journalisten schreven er bang over. Google verklaarde intern een “code rood” en versnelde zijn AI-inspanningen. Microsoft investeerde 10 miljard dollar in OpenAI en integreerde AI in Bing, Word en Teams.

Het was het eerste moment dat het grote publiek — niet alleen technici — AI zag als een echte kracht die hun leven zou raken. De discussies die al jaren in labs en papers werden gevoerd, kwamen plots in elk huiskamergesprek terecht.

De concurrentierace begon

Google lanceerde Bard (nu Gemini). Anthropic lanceerde Claude. Meta lanceerde LLaMA. Elk groot techbedrijf ter wereld heroriënteerde zijn strategie richting AI. De modellenwedloop — wie heeft het snelste, slimste, veiligste model? — was begonnen.

ChatGPT was niet het slimste model, niet het meest geavanceerde. Het was het model dat AI democratiseerde. Dat is zijn historische betekenis.

DALL-E en GitHub Copilot — AI Wordt Tastbaar (2021)

2021 was het jaar dat AI ophield een academisch concept te zijn en iets werd dat mensen gebruikten. Twee producten maakten dat zichtbaar: DALL-E van OpenAI en GitHub Copilot van GitHub (met Microsoft en OpenAI).

DALL-E: tekst naar beeld

In januari 2021 presenteerde OpenAI DALL-E (een combinatie van de schilder Dallí en de Pixar-robot Wall-E). Het model kon willekeurige tekst omzetten in afbeeldingen. “Een avocado in de stijl van Vermeer.” “Een astronaut die paardrijdt op Mars.” De resultaten waren verbluffend — en soms hilarisch onjuist.

DALL-E was niet vrij beschikbaar — OpenAI controleerde de toegang. Maar het bewees een principe: taalmodellen konden worden geëxtendeerd naar andere modaliteiten. In 2022 volgde DALL-E 2 met een enorme kwaliteitssprong, en in 2023 DALL-E 3 (geïntegreerd in ChatGPT).

GitHub Copilot: AI als programmeerpartner

In juni 2021 lanceerde GitHub Copilot als technische preview. Het was gebaseerd op Codex — een versie van GPT-3 fijn afgestemd op code. Je begon te typen in je editor, en Copilot vulde de rest aan: functies, loops, tests, documentatie.

Programmeurs reageerden verdeeld. Sommigen waren enthousiast: Copilot was een krachtige assistent die tijd bespaarde. Anderen waren sceptisch of bezorgd over kwaliteit en auteursrechtelijke vragen (Copilot was getraind op openbare code van GitHub, inclusief code met auteursrecht).

Maar de echte impact was onmiskenbaar: voor het eerst konden programmeurs in gewone taal beschrijven wat ze wilden en code terugkrijgen die daadwerkelijk werkte. In 2023 gebruikten meer dan een miljoen ontwikkelaars Copilot actief.

Het begin van AI als werktool

DALL-E en Copilot luidden een nieuw tijdperk in: AI als dagelijks werkinstrument, niet als laboratoriumcuriositeit. Kunstenaars, ontwerpers, schrijvers en programmeurs begonnen AI te gebruiken — en de gesprekken over wat dat betekende voor hun beroepen begonnen. Die gesprekken zijn vandaag nog steeds gaande.

GPT-3 — 175 Miljard Parameters (2020)

In mei 2020 publiceerde OpenAI het paper voor GPT-3. Met 175 miljard parameters was het model twee ordes van grootte groter dan zijn voorganger GPT-2 (1,5 miljard parameters). De resultaten lieten de AI-gemeenschap staan te kijken.

GPT-3 kon code schrijven, poëzie dichten, vragen beantwoorden, tekst vertalen, sommen uitrekenen — allemaal zonder expliciete training op die taken. Je gaf het een paar voorbeelden en het begreep wat je wilde. Dit werd few-shot learning genoemd.

De grens waarna alles veranderde

GPT-3 was de eerste keer dat een taalmodel gegeneraliseerde intelligentie demonstreerde op een schaal die mensen serieus nam. De demo’s circuuleerden op Twitter: GPT-3 schreef essays die journalisten niet van menselijke teksten konden onderscheiden. Het genereerde SQL-code uit gewone tekst. Het beantwoordde filosofische vragen.

Sam Altman (CEO OpenAI) beschreef het als een vroege versie van de technologie die de wereld zou veranderen. Er waren ook critici — Gary Marcus wees op de patronen die GPT-3 niet begreep en de feitelijke fouten die het maakte. Maar de schaal van de mogelijkheden was onomstreden.

De API: AI als product

OpenAI lanceerde GPT-3 niet als open-source model, maar als API. Bedrijven konden toegang kopen om GPT-3 in hun eigen producten te integreren. Er ontstond een hele industrie: duizenden startups bouwden op de GPT-3 API. Jasper.ai (schrijfassistent), GitHub Copilot (codegeneratie, gebaseerd op Codex — een finetuned GPT-3), en tientallen andere tools.

Dit was de eerste keer dat AI als dienst grootschalig commercieel werd. OpenAI verdiende geld met ieder verzoek. Het model voor AI-commercialisering dat nu dominant is, begon hier.

De vraag die GPT-3 stelde

GPT-3 riep één vraag op die sindsdien centraal staat in AI-debat: is dit schaal alleen, of is er iets fundamenteel nieuws aan het ontstaan? Zijn grotere modellen automatisch slimmer? De scaling hypothesis — dat meer data en meer parameters lineair leiden tot betere prestaties — kreeg door GPT-3 zijn sterkste empirische onderbouwing tot dan toe.

GPT-1 en BERT — Grote Taalmodellen Komen Op (2018)

2018 was het jaar dat grote taalmodellen van theorie naar praktijk gingen. Twee modellen domineerden: GPT-1 van OpenAI en BERT van Google. Ze hadden verschillende architecturen en doelen, maar samen legden ze het fundament voor de taalmodel-revolutie.

GPT-1: de geboorte van generatieve pretraining

In juni 2018 publiceerde OpenAI het paper “Improving Language Understanding by Generative Pre-Training”. Het introduceerde een aanpak die nu standaard is: train een groot model op enorme hoeveelheden tekst, en pas het daarna aan voor specifieke taken.

GPT-1 had 117 miljoen parameters — groot voor die tijd. Het werd getraind op de BooksCorpus (7.000 onuitgegeven boeken) en scoorde indrukwekkend op taal-benchmarks zonder taakspecifieke training.

BERT: twee richtingen tegelijk

In oktober 2018 publiceerde Google BERT (Bidirectional Encoder Representations from Transformers). Het sleutelverschil met GPT: BERT leest tekst in beide richtingen tegelijk. Bij de zin “De bank is leeg” kijkt BERT naar wat er voor én na het woord staat, wat rijkere contextuele representaties oplevert.

BERT versloeg in één klap de state-of-the-art op elf taal-NLP-benchmarks. Google implementeerde BERT in zijn zoekmachine — de grootste update aan Google Search in jaren — om zoekopdrachten beter te begrijpen.

Twee strategieen, één idee

GPT en BERT vertegenwoordigen twee fundamenteel verschillende aanpakken:

  • GPT (autoregressive): voorspel het volgende woord — goed in generatie
  • BERT (masked language modeling): vul ontbrekende woorden in — goed in begrip

De GPT-lijn zou uitgroeien tot GPT-2, GPT-3, GPT-4 en uiteindelijk ChatGPT. De BERT-lijn inspireerde RoBERTa, T5, en de Googlezoekmachine. Beide lijnen leven vandaag verder in de architecturen van alle grote AI-labs.

2018 was het jaar dat de vraag veranderde van “kunnen taalmodellen taal begrijpen?” naar “hoe groot moeten ze zijn?” — een vraag die de komende jaren alles zou bepalen.