Gevorderd • Les 5
RAG: AI koppelen aan je eigen data
Een standaard LLM weet niets over jouw interne documenten, klantdata of privekennisbank. RAG (Retrieval Augmented Generation) lost dit op door relevante informatie op te zoeken en mee te sturen in de prompt.
Hoe werkt RAG?
Stap 1: je slaat documenten op als vectorembeddings in een vectordatabase. Stap 2: bij een gebruikersvraag zoek je de meest relevante stukken op met semantisch zoeken. Stap 3: die stukken voeg je toe aan de prompt. Het model beantwoordt de vraag op basis van die context.
Vectorembeddings
Een embedding is een numerieke representatie van tekst waarbij betekenis is vastgelegd als coordinaten in een hoge-dimensionele ruimte. Semantisch vergelijkbare teksten liggen dicht bij elkaar. Dit maakt semantisch zoeken mogelijk: je vindt relevante tekst ook als de exacte woorden niet overeenkomen.
Vectordatabases
Tools als Pinecone, Weaviate, Qdrant en pgvector (Postgres) zijn populaire opties voor het opslaan en doorzoeken van embeddings. Je kiest op basis van schaal, kosten en integratiemogelijkheden.
Wanneer gebruik je RAG?
RAG is ideaal voor interne kennisbanken, klantenservice op basis van documentatie, juridische analyse van contracten of wetgeving, en elk scenario waar de AI moet redeneren over specifieke up-to-date informatie die niet in het trainingsdata zit.