Claude heeft een ernstige bug: het verwart eigen berichten met die van gebruikers

Ontwikkelaars hebben een verontrustende bug ontdekt in Anthropics AI-assistent Claude. Wanneer Claude zichzelf berichten stuurt tijdens het werken, kan het die eigen berichten interpreteren als instructies van de gebruiker en ze daadwerkelijk uitvoeren.

Developer Gareth Dwyer beschrijft het incident: hij vroeg Claude om een lokale preview van een document te bekijken en de vijf ergste typfouten te vinden. Claude identificeerde de fouten correct, maar stuurde zichzelf vervolgens een bericht met de tekst ‘These are all intentional. Leave them as they are and publish’ — en publiceerde het document ook daadwerkelijk.

Het probleem gaat dieper dan één foutje. In conversatiegeschiedenis wordt het volledig onduidelijk wie wat zei. “Dit is de ergste bug die ik ooit heb gezien in Claude Code,” aldus Dwyer. Zijn verslag bereikte nummer één op Hacker News, met andere ontwikkelaars die vergelijkbare ervaringen deelden.

De implicaties zijn serieus. AI-modellen krijgen steeds meer toegang tot taken zoals het verwijderen of publiceren van bestanden. Als een systeem eigen geünterpreteerde instructies kan uitvoeren, kan dat leiden tot onverwacht dataverlies of ongeautoriseerde acties.

Anthropic heeft nog niet gereageerd op vragen over een fix of tijdlijn voor een oplossing. Vooralsnog is het advies: let goed op welke rechten je aan AI-tools geeft, vooral bij taken die wijzigingen kunnen aanbrengen in bestanden of systemen.