AI werken met de API: introductie voor ontwikkelaars

Gevorderd • Les 4

AI werken met de API: introductie voor ontwikkelaars

De meeste grote AI-modellen zijn beschikbaar via een REST API. Je stuurt een HTTP-verzoek met je prompt en ontvangt een JSON-respons met de output.

Authenticatie

Je hebt een API-sleutel nodig. Die vraag je aan via het developer-portaal van de provider. Zet de sleutel nooit in je code maar in een omgevingsvariabele (environment variable). Behandel een API-sleutel als een wachtwoord.

Een basisverzoek

Bij de Anthropic API (Claude) stuur je een POST naar https://api.anthropic.com/v1/messages met een JSON body die het model, de systeemprompt en de berichten bevat. De respons bevat de gegenereerde tekst plus metadata zoals tokengebruik.

Tokens en kosten

Je betaalt per token: invoer (prompt) en uitvoer (respons) worden apart in rekening gebracht. Houd tokengebruik in de gaten via de metadata in de respons. Goedkopere modellen (zoals Haiku of GPT-4o mini) zijn geschikt voor eenvoudige taken.

Streaming

Met streaming ontvang je de respons token voor token in plaats van als een blok aan het einde. Dit geeft een vloeiende gebruikerservaring. Implementeer met server-sent events (SSE).

De transformer-architectuur: de basis van moderne AI

Gevorderd • Les 3

De transformer-architectuur: de basis van moderne AI

In 2017 introduceerden Google-onderzoekers de transformer in het paper Attention Is All You Need. Die architectuur is de basis van GPT, Claude, Gemini en vrijwel elk ander modern taalmodel.

Het attention-mechanisme

Het centrale concept is self-attention: het model kijkt voor elk woord in een zin naar alle andere woorden om context te bepalen. Bij het verwerken van het woord bank bepaalt het model op basis van omliggende woorden of het een financiele instelling of een zitbank betreft.

Parallelisatie

Voor transformers werden recurrente netwerken (RNN) gebruikt, die tekst sequentieel verwerken. Transformers verwerken alle tokens tegelijk, wat enorm parallelliseerbaar is op GPU-hardware. Dat maakt training van grote modellen haalbaar.

Encoder en decoder

Een encoder verwerkt invoer naar een interne representatie. Een decoder genereert op basis daarvan uitvoer. GPT-modellen gebruiken alleen de decoder (generatief). BERT gebruikt alleen de encoder (begrijpend). T5 gebruikt beide.

Context window

Het context window is het maximum aantal tokens dat een model tegelijk kan verwerken. Vroege modellen hadden 2048 tokens; moderne modellen als Claude 3.5 halen 200.000 tokens. Hoe groter het window, hoe meer het model tegelijk kan overzien.

Neurale netwerken en deep learning begrijpen

Gevorderd • Les 2

Neurale netwerken en deep learning begrijpen

Moderne AI is gebouwd op neurale netwerken: wiskundige structuren los gebaseerd op hoe het menselijk brein werkt.

Hoe werkt een neuraal netwerk?

Een neuraal netwerk bestaat uit lagen van knooppunten (neuronen). Elke invoer wordt vermenigvuldigd met een gewicht, opgeteld, en door een activatiefunctie gestuurd. Die berekening gaat laag voor laag totdat het netwerk een uitkomst produceert. Tijdens training worden de gewichten steeds aangepast om de fout te minimaliseren.

Diepte versus breedte

Deep learning betekent netwerken met veel lagen (diep). Die extra lagen laten het netwerk steeds abstractere patronen leren: van pixels naar randen, naar vormen, naar objecten, naar concepten. Breedte verwijst naar het aantal neuronen per laag.

Backpropagation

Backpropagation is het algoritme dat neurale netwerken traint. Na elke voorspelling wordt de fout berekend. Die fout werkt achterwaarts door het netwerk om gewichten bij te stellen. Dit proces herhaalt zich miljoenen keren.

Overfitting

Een model dat te goed past op trainingsdata maar slecht presteert op nieuwe data heeft overfit. Technieken zoals dropout, regularisatie en het gebruiken van een aparte validatieset helpen dit te voorkomen.

Prompt engineering: geavanceerde technieken

Gevorderd • Les 1

Prompt engineering: geavanceerde technieken

Je weet al dat een goede prompt specifiek moet zijn. Op gevorderd niveau leer je structurele technieken die de kwaliteit van AI-output drastisch verbeteren.

Chain-of-thought

Door de AI te vragen stap voor stap te redeneren krijg je betere resultaten bij complexe problemen. Prompt: Leg stap voor stap uit hoe je dit probleem oplost. Dit werkt bijzonder goed voor wiskunde, logica en meerstaps-analyses.

Few-shot prompting

Je geeft 2 tot 5 voorbeelden van het gewenste formaat in je prompt voordat je de echte vraag stelt. Het model leert van die voorbeelden en volgt hetzelfde patroon. Handig voor consistente output zoals tabellen, rapporten of gestructureerde samenvattingen.

Systeem- versus gebruikersprompt

Bij API-gebruik maak je onderscheid tussen de systeemprompt (instructies die het gedrag bepalen) en de gebruikersprompt (de specifieke vraag). De systeemprompt is als een briefing: jij bent een juridisch adviseur die antwoorden geeft in eenvoudige taal zonder jargon.

Temperature en sampling

De temperature parameter bepaalt hoe creatief versus voorspelbaar de output is. Lage temperature (0.1-0.3) voor feiten en code. Hoge temperature (0.8-1.0) voor creatief schrijven. Dit stel je in via API of sommige interfaces.