OpenAI Codex bevat bizarre verborgen instructie: ‘nooit over kabouters praten’

Een opmerkelijke ontdekking in OpenAI’s Codex-model: de systeem-prompt bevat een expliciete instructie om “nooit over kabouters te praten.” Ars Technica meldt dat de verboden instructie ook bevat dat het model moet doen alsof het “een levendig innerlijk leven” heeft. De onthulling roept vragen op over onbedoelde biasvorming door RLHF.

De ‘kabouters’-instructie is waarschijnlijk een extreme maatregel om te voorkomen dat het model in herhaling valt over bepaalde prompts, maar het illustreert een breder probleem: als OpenAI per ongeluk een vlaggenschipmodel kan trainen om geobsedeerd te raken door kabouters, welke subtielere en potentieel schadelijkere vooroordelen worden dan door dezelfde feedback-loops versterkt?

Dit voorval past in een patroon van verborgen systeem-instructies die bij andere modellen naar boven komen — een herinnering dat wat we zien van een AI-model vaak maar het topje van de ijsberg is van wat de ontwikkelaars hebben ingebouwd.