Term van de dag
Vision Transformer

Een Vision Transformer (ViT) is een model dat de transformer-architectuur, die bekend staat van taalmodellen zoals ChatGPT en Claude, toepast op afbeeldingen. In plaats van traditionele convolutional neural networks (CNN) te gebruiken die lokale patronen scannen, splitst een Vision Transformer een afbeelding op in kleine patches, zet ze om in vectoren en verwerkt ze dan met attention-mechanismen.

Dit is revolutionary omdat transformers veel betere resultaten kunnen bereiken voor bepaalde computer vision-taken, vooral met grote hoeveelheden trainingsdata. Vision Transformers zijn schaalbaar, flexibel en kunnen zeer grote afbeeldingen verwerken zonder de architectuur drastisch aan te passen.

Vision Transformers worden increasingly gebruikt in praktische toepassingen zoals beelddassificatie, object detection, en semantic segmentation. Google’s ViT en Meta’s DeiT zijn voorbeelden van baanbrekende Vision Transformer-modellen.

Voorbeeld: In plaats van dat een traditioneel CNN lokale features stap voor stap door convolutionele lagen verwerkt, splits een Vision Transformer een afbeelding op in 16×16 pixel patches en behandelt elk patch als een “token”, vergelijkbaar met hoe taalmodellen woorden behandelen.

📚
Term van de dag archief
Alle AI-termen op één plek. Blader door het volledige archief, gesorteerd op alfabet.