Multimodale prompting: tekst en beeld combineren

Gevorderd • Les 9

Multimodale prompting: tekst en beeld combineren

De nieuwste generatie AI-modellen is niet beperkt tot tekst. Ze kunnen afbeeldingen, grafieken, screenshots en soms ook audio verwerken. Dit opent een wereld aan nieuwe toepassingen, maar vraagt ook om andere promptingstrategieen.

Wat is multimodaliteit?

Een multimodaal model kan meerdere soorten invoer verwerken: tekst, afbeeldingen, audio of video. GPT-4o, Claude 3 en Gemini Ultra zijn voorbeelden van multimodale modellen. Ze zetten afbeeldingen intern om naar een representatie die ze net als tekst kunnen verwerken, via een zogenaamd vision encoder.

Effectieve multimodale prompts schrijven

Combineer altijd een duidelijke instructie met de afbeelding. Slechts een afbeelding sturen zonder context geeft vage resultaten. Specificeer wat je wil: een beschrijving, analyse, transcriptie of iets anders. Bij complexe afbeeldingen helpt het om het model te vragen eerst te beschrijven wat het ziet voordat het analyseert. Dit vermindert fouten.

Toepassingen

Multimodale modellen worden ingezet voor het analyseren van medische beelden, het beoordelen van productfoto’s, het lezen van handgeschreven notities, het debuggen van UI-screenshots en het automatisch beschrijven van grafieken uit rapporten. Ook kunnen ze code genereren op basis van een schets of wireframe.

Beperkingen

Multimodale modellen missen soms details in afbeeldingen, vooral bij kleine tekst, complexe tabellen of onduidelijke foto’s. Ze kunnen ook hallucineren over wat ze zien. Test altijd of het model de juiste elementen heeft herkend voordat je verderwerkt met de output. Hoge resolutie helpt, maar vergroot ook de token-kosten.

Terug