Een Vision Transformer (ViT) is een model dat de transformer-architectuur, die bekend staat van taalmodellen zoals ChatGPT en Claude, toepast op afbeeldingen. In plaats van traditionele convolutional neural networks (CNN) te gebruiken die lokale patronen scannen, splitst een Vision Transformer een afbeelding op in kleine patches, zet ze om in vectoren en verwerkt ze dan met attention-mechanismen.
Dit is revolutionary omdat transformers veel betere resultaten kunnen bereiken voor bepaalde computer vision-taken, vooral met grote hoeveelheden trainingsdata. Vision Transformers zijn schaalbaar, flexibel en kunnen zeer grote afbeeldingen verwerken zonder de architectuur drastisch aan te passen.
Vision Transformers worden increasingly gebruikt in praktische toepassingen zoals beelddassificatie, object detection, en semantic segmentation. Google’s ViT en Meta’s DeiT zijn voorbeelden van baanbrekende Vision Transformer-modellen.