Vector similarity is een maat voor hoeveel twee vectoren op elkaar lijken. In AI-systemen worden woorden, zinnen, afbeeldingen en andere data vaak omgezet in vectoren (lijsten van getallen), en vector similarity helpt bepalen hoe gelijk ze zijn.
Veelgebruikte maatstaven voor vector similarity zijn:
1. Cosine similarity: Kijkt naar de hoek tussen twee vectoren (meest populair in NLP)
2. Euclidische afstand: Meet de rechte lijnafstand tussen twee punten in de vectorruimte
3. Dot product: Vermenigvuldigt correspondierende elementen en telt ze bij elkaar
4. Manhattan distance: Som van absolute verschillen
Vector similarity is fundamenteel voor retrieval-augmented generation (RAG), semantic search, en vergelijking van betekenis. Twee zinnen kunnen verschillende woorden gebruiken maar toch hetzelfde betekenen, en hun vectorrepresentaties zullen dit uitdrukken door hoge similarity scores.