Expert • Les 15

Interpretability: begrijpen wat er in een neuraal netwerk gebeurt

Moderne neurale netwerken zijn black boxes: we weten wat er in gaat en wat er uit komt, maar niet precies wat er tussenin gebeurt. Mechanistic interpretability is het onderzoeksgebied dat probeert deze black box te openen, met implicaties voor AI-veiligheid en -betrouwbaarheid.

Feature-visualisatie en probing

Een van de vroegste methoden is het visualiseren welke invoer een specifiek neuron maximaliseert. In convolutionele netwerken zijn neuronen die reageren op krommen, texturen of zelfs honden-gezichten gevonden. Bij taalmodellen worden probing classifiers getraind op de activaties van tussenliggende lagen om te bepalen welke linguistische informatie (woordsoort, zinsstructuur) is geëncod.

Mechanistic interpretability

Anthropic’s interpretability-team ontwikkelt mechanistic interpretability: het nauwgezet traceren van het informatiecircuit dat een model volgt om een specifieke uitvoer te produceren. Door activatiepatronen te analyseren en gerichte interventies (activation patching) zijn algoritmen geïdentificeerd die modellen intern gebruiken voor taken als indirecte objectidentificatie en modulaire rekenkunde.

Superposition en sparse autoencoders

Neurale netwerken lijken meer concepten te representeren dan ze neuronen hebben, via superposition: meerdere concepten worden coörthogonaaal gecodeerd in de activatieruimte. Sparse autoencoders (SAE’s) kunnen deze superposition decoderen: ze leren een overvolledige basis waarbij elke dimensie correspondeert met een interpreteerbaar feature. Dit is een actief onderzoeksgebied bij Anthropic, DeepMind en EleutherAI.

Waarom interpretability belangrijk is

Interpretability is niet alleen academisch: het is een fundament voor AI-veiligheid. Als we kunnen identificeren welke circuits verantwoordelijk zijn voor ongewenst gedrag, kunnen we gerichter ingrijpen. Tevens maakt interpretability verificatie mogelijk: kun je aantonen dat een model een beslissing baseert op legitieme gronden en niet op biases in de trainingsdata?