Gevorderd • Les 14
Context window en long-context modellen
Het context window is de hoeveelheid tekst die een taalmodel tegelijk kan zien en verwerken: invoer en uitvoer samen. Het heeft directe gevolgen voor wat je kunt vragen en hoe je het model moet inzetten.
Wat is het context window?
Elk taalmodel heeft een maximale context window uitgedrukt in tokens. Vroege modellen hadden windows van 4.000 tokens (circa 3.000 woorden). Moderne modellen zoals Claude Sonnet bieden 200.000 tokens, wat overeenkomt met een boek van zo’n 150.000 woorden. Alles buiten het window is voor het model onzichtbaar.
Wat zit er in de context?
De context bevat de system prompt, de gespreksgeschiedenis, meegestuurde documenten en de respons van het model. Hoe meer je meestuurt, hoe minder ruimte er overblijft voor de rest. Bij lange gesprekken raakt de context vol en moet je beslissen wat je weggooit of samenvat.
Lost-in-the-middle probleem
Onderzoek toont aan dat taalmodellen beter presteren op informatie aan het begin en einde van de context dan in het midden. Dit heet het lost-in-the-middle probleem. Als je een lang document meestuurt en de kritische informatie staat op pagina 30 van 60, kan het model dit missen. Plaats belangrijke instructies en data bij voorkeur aan het begin of einde.
Efficiƫnt omgaan met context
Voeg alleen relevante informatie toe aan de context. Gebruik samenvattingen van eerdere gespreksstukken. Bij RAG-systemen stuur je niet het hele document mee maar alleen de relevante passages. Monitor hoeveel tokens je per aanroep verbruikt, want grote contexts verhogen zowel latency als kosten.