Joint Embedding

Joint Embedding is wanneer verschillende modaliteiten (tekstus, afbeeldingen, geluid) in dezelfde vectorruimte worden ingebed zodat ze kunnen worden vergeleken. Dit stelt modellen in staat over modaliteiten heen te redeneren.

Multimodale modellen maken intensief gebruik van joint embeddings. Dit staat toe dat afbeeldingen kunnen worden vergeleken met tekstbeschrijvingen, wat toepassingen als image-to-text search mogelijk maakt.