Opus 4.7 pakt de leiding terug met zelfverificatie

Anthropic brengt Claude Opus 4.7 uit en claimt daarmee opnieuw de toppositie in de AI-race. Het model onderscheidt zich niet door brute kracht, maar door een nieuwe eigenschap die Anthropic rigor noemt: Opus 4.7 bedenkt zelf verificatiestappen voordat het een taak als voltooid rapporteert. In interne tests bouwde het model bijvoorbeeld een volledige Rust text-to-speech engine en voerde de output daarna onafhankelijk door een spraakherkenner om te controleren of het resultaat overeenkwam met de Python-referentie.

Op agentic coding benchmarks scoort Opus 4.7 64,3% op SWE-bench Pro, een flinke sprong ten opzichte van de 53,4% van Opus 4.6. Op de GDPVal-AA knowledge work-evaluatie behaalt het een Elo-score van 1753, waarmee het GPT-5.4 (1674) en Gemini 3.1 Pro (1314) achter zich laat. Toch is het geen clean sweep: GPT-5.4 blijft sterker in agentic search en multilingual Q&A. De marge is klein – op vergelijkbare benchmarks leidt Opus 4.7 GPT-5.4 met 7-4.

Een belangrijke architecturale upgrade is de driedubbele resolutie voor beeldverwerking: afbeeldingen tot 2576 pixels aan de lange zijde worden nu volledig verwerkt. XBOW rapporteert een sprong van 54,5% naar 98,5% op hun visual-acuity benchmark. Ook introduceert Anthropic een nieuwe xhigh effort-level en task budgets in de API, zodat ontwikkelaars token-verbruik kunnen begrenzen bij langlopende agent-taken.

Op cybersecurity-gebied bewandelt Anthropic een smal pad. Mythos Preview, het krachtigste model, blijft beperkt tot geselecteerde enterprise-partners. Opus 4.7 fungeert als proefkonijn voor nieuwe geautomatiseerde veiligheidssystemen die aanval-verzoeken blokkeren. Legitieme security-professionals kunnen via het nieuwe Cyber Verification Program toegang aanvragen. De API-prijs blijft ongewijzigd: 5 dollar per miljoen input-tokens en 25 dollar per miljoen output-tokens.