Gevorderd • Les 23

Diffusiemodellen: hoe AI-beelden worden gegenereerd

Achter Stable Diffusion, DALL-E en Midjourney schuilt een elegante wiskundige truc: het model leert hoe het ruis kan omzetten naar betekenisvolle beelden. Dit principe, diffusie, is fundamenteel anders dan hoe taalmodellen tekst genereren.

Het forward-process: ruis toevoegen

Tijdens training worden echte afbeeldingen stap voor stap verpest door willekeurige ruis toe te voegen, totdat er alleen maar sneeuw over is. Het model leert bij elke stap hoe het de toegevoegde ruis eruit kan filteren. Dit is het forward-diffusion-process: afbeelding naar ruis.

Het reverse-process: ruis verwijderen

Bij gebruik draait het model dit proces om. Het begint met pure willekeurige ruis en verwijdert stap voor stap ruis, geleid door de tekstprompt via een tekst-encoder (meestal CLIP). Na tientallen tot honderden stappen ontstaat een coherent beeld dat overeenkomt met de beschrijving.

Latent diffusion

Originele diffusiemodellen werkten direct op pixelniveau, wat enorm veel geheugen en rekenkracht vergde. Latent diffusion models (zoals Stable Diffusion) werken in een gecomprimeerde latente ruimte. Een variational autoencoder (VAE) comprimeert de afbeelding naar een kleine representatie, diffusie vindt daar plaats, en de VAE decodeert het resultaat terug naar pixels.

ControlNet en guided generation

ControlNet maakt het mogelijk om naast tekst ook structurele informatie mee te geven: een schets, dieptekaart of pose. Dit geeft creators veel meer controle over de compositie van gegenereerde beelden. LoRA (Low-Rank Adaptation) laat toe om met weinig trainingsdata een stijl of persoon in het model te integreren.