RabbitZ INFO

Claude Opus 4.8: Anthropics neues Modell soll vor allem ehrlicher sein

img
Mai
29

Anthropic hat Claude Opus 4.8 veröffentlicht – Nachfolger des erst im April erschienenen Opus 4.7. In den Benchmarks legt das Modell nur ein paar Prozentpunkte zu. Das eigentliche Verkaufsargument: Es gibt häufiger zu, wenn es etwas nicht weiß.

Was neu ist

Opus 4.8 schneidet in den meisten Benchmarks etwas besser ab als der Vorgänger, der zum gleichen Preis verfügbar bleibt: 5 US-Dollar pro Million Input-Token, 25 Dollar pro Million Output-Token. Die größten Sprünge liegen in der agentischen Code-Generierung und der Computer-Nutzung – laut einem Tester erreicht das Modell 84 % auf dem Browser-Agent-Benchmark Online-Mind2Web.

Den Schwerpunkt legt Anthropic aber nicht auf rohe Leistung, sondern auf „Ehrlichkeit“. Gemeint ist ein bekanntes Problem aller großen Sprachmodelle: Sie ziehen voreilig Schlüsse und behaupten selbstbewusst, eine Aufgabe erledigt zu haben, obwohl die Belege dünn sind. Opus 4.8 soll Unsicherheit über die eigene Arbeit häufiger benennen und seltener unbelegte Aussagen treffen.

Konkret macht Anthropic das an einer Zahl fest: Das Modell lasse Fehler in selbst geschriebenem Code etwa viermal seltener unkommentiert durchgehen als der Vorgänger. Diese Angabe stammt aus Anthropics eigenen Evaluierungen und ist im System Card dokumentiert.

Effort-Steuerung und günstigerer Fast Mode

Zwei praktische Neuerungen begleiten den Launch:

  • Effort-Regler. Nutzer können auf claude.ai jetzt selbst steuern, wie viel Aufwand das Modell in eine Antwort steckt. Höhere Stufen bedeuten gründlicheres Nachdenken und bessere Antworten, niedrigere Stufen schnellere Reaktionen und sparsameren Verbrauch des Nutzungskontingents. Opus 4.8 steht standardmäßig auf „high“.
  • Günstigerer Fast Mode. Der schnelle Modus arbeitet mit 2,5-facher Geschwindigkeit und kostet nun dreimal weniger als bei früheren Modellen.

Die im ursprünglichen Bericht genannte Angabe „dreimal weniger Tokens“ trifft also nicht ganz den Kern: Es geht um einen niedrigeren Preis des Fast Mode, nicht um pauschal geringeren Token-Verbrauch.

Dynamische Workflows: hunderte Subagents parallel

Neben dem Modell führt Anthropic in Claude Code „dynamische Workflows“ ein – vorerst als Research Preview. Das Feature lässt Claude eine große Aufgabe planen, anschließend hunderte parallele Subagenten in einer einzigen Sitzung starten und die Ergebnisse vor der Rückmeldung selbst verifizieren.

Als Beispiel nennt Anthropic Migrationen kompletter Codebasen über hunderttausende Zeilen hinweg – von der Initiierung bis zum Merge, mit der bestehenden Testsuite als Maßstab. Verfügbar ist die Funktion in den Enterprise-, Team- und Max-Tarifen.

Ein paar Prozentpunkte, aber ein anderer Fokus

Wer einen großen Generationssprung erwartet, wird enttäuscht – Anthropic selbst bezeichnet Opus 4.8 als „bescheidene, aber spürbare Verbesserung“. Die Benchmark-Zuwächse sind klein.

Interessant ist die Verschiebung des Marketings. Statt höchste Werte zu bewerben, stellt Anthropic eine Eigenschaft in den Vordergrund, die sich schlecht in eine einzelne Benchmark-Zahl pressen lässt: Verlässlichkeit. Gerade beim agentischen Einsatz – also Modellen, die eigenständig über viele Schritte arbeiten – ist ein Modell, das eigene Fehler zugibt, praktisch oft wertvoller als eines, das im Schnitt zwei Prozentpunkte besser abschneidet, aber selbstsicher Unsinn behauptet.

Zwei Einschränkungen bleiben aber. Erstens stammen die zentralen „Ehrlichkeits“-Belege aus Anthropics eigenen Messungen; unabhängige Bestätigung steht aus. Zweitens lässt sich die behauptete Selbsteinschätzung eines Modells nur schwer von außen prüfen – „gibt seltener unbelegte Aussagen ab“ ist eine Aussage, die man im Alltag erst über Wochen wirklich beurteilen kann.

Was als Nächstes kommt

Anthropic kündigt zwei Richtungen an: günstigere Modelle mit ähnlichen Fähigkeiten wie Opus sowie eine neue, leistungsstärkere Modellklasse oberhalb von Opus. Letztere läuft unter dem Namen „Project Glasswing“ mit einer Preview-Version, die derzeit nur einer kleinen Zahl von Organisationen für Cybersecurity-Arbeit zur Verfügung steht – wegen der nötigen Sicherheitsvorkehrungen bei diesem Leistungsniveau.

Der Beitrag Claude Opus 4.8: Anthropics neues Modell soll vor allem ehrlicher sein erschien zuerst auf Hardware News.


Quelle: Claude Opus 4.8: Anthropics neues Modell soll vor allem ehrlicher sein