Een word embedding is een manier om woorden als vectoren (lijsten van getallen) weer te geven zodat AI-modellen ze kunnen verwerken. In plaats van het woord “kat” op te slaan als een tekenreeks, representeer je het als iets als [0.2, -0.5, 0.8, …] – honderden of duizenden getallen die de “betekenis” of “context” van het woord vastleggen.
Het slimme ervan is dat woorden met vergelijkbare betekenissen gelijkaardige vectoren hebben. Het woord “kat” ligt dicht bij “hond” en “dier”, en het woord “koning” min het woord “man” plus het woord “vrouw” geeft ongeveer “koningin”. Dit stelt AI-modellen in staat om betekenis en relaties in taal te begrijpen.
Word embeddings zijn fundamenteel voor moderne NLP. Voorbeelden zijn Word2Vec, GloVe, en FastText. Ze maken het mogelijk voor modellen om de semantische relaties tussen woorden te leren en teksttaken veel efficiënter uit te voeren.