AMD hat in der aktuellen Runde des MLPerf Inference 6.0 Benchmarks einen Wert veröffentlicht, der zumindest einordnungswürdig ist: Mehr als eine Million Tokens pro Sekunde im Multi-Node-Betrieb mit dem Instinct MI355X. Dass die Zahl diesmal mehr trägt als übliche Benchmark-Schlagzeilen, liegt nicht nur am Ergebnis selbst, sondern vor allem daran, dass MLCommons die Suite in dieser Runde grundlegend überarbeitet hat.
Was MLPerf Inference 6.0 anders macht
MLCommons bezeichnet Inference 6.0 als die bedeutendste Überarbeitung der Suite bisher. Fünf der elf Datacenter-Tests sind neu oder aktualisiert. Hinzugekommen sind ein offener GPT-OSS-120B-Benchmark, ein Text-zu-Video-Test und ein Vision-Language-Modell-Benchmark, außerdem wurde der DeepSeek-R1-Test erweitert. Gleichzeitig hat MLCommons den Anteil an Multi-Node-Einreichungen deutlich ausgebaut. Das verschiebt die Aussagekraft der Ergebnisse: Es geht weniger um isolierte Single-Node-Demos als um das Verhalten unter skalierter Inferenzlast – näher an dem, was Rechenzentren tatsächlich betreiben.
Die konkreten AMD-Ergebnisse
AMD nennt für Llama 2 70B bei elf Knoten mit 87 MI355X-GPUs 1.042.110 Tokens pro Sekunde im Offline-Test und 1.016.380 Tokens pro Sekunde im Server-Test. Für GPT-OSS-120B mit zwölf Knoten und 94 MI355X-GPUs gibt AMD 1.031.070 Tokens pro Sekunde im Offline-Modus und 900.054 im Server-Modus an; die Skalierungseffizienz beziffert das Unternehmen auf 92 bis 93 Prozent. Zusätzlich beschreibt AMD die MI355X-zu-MI325X-Verbesserung auf dem Llama-2-70B-Server-Benchmark mit dem Faktor 3,1.
Diese Zahlen sind offiziell im MLPerf-Rahmen eingereicht und veröffentlicht – keine isolierte Herstellerfolie, aber selbstverständlich auch keine pauschale Zusage für jede reale Deployment-Umgebung.
MI355X: Was die Hardware mitbringt
AMD beschreibt den Instinct MI355X als CDNA-4-Beschleuniger im 3-nm-Prozess mit 185 Milliarden Transistoren. Das Modell unterstützt FP4- und FP6-Precision, bietet bis zu 288 GB HBM3E und erreicht bis zu 10 Petaflops in FP4/FP6. Ein einzelner Beschleuniger soll Modelle mit bis zu 520 Milliarden Parametern tragen können.
Was die Zahlen bedeuten – und was nicht
Die eigentliche Nachricht ist nicht, dass AMD damit jede Konkurrenz erledigt hätte. Die interessantere Lesart ist, dass AMD mit MI355X und ROCm sichtbar näher an den Punkt rückt, an dem auch größer skalierte Inferenz-Setups glaubwürdig wirken – nicht nur im kontrollierten Einzelsystem. Die überarbeitete MLPerf-Suite macht diese Runde dafür relevanter als viele frühere Vergleichszahlen. Benchmark ist nicht Betrieb, aber ohne solide Benchmarks bleibt die Betriebsdiskussion meist nur Glaubenslehre in Firmenfarben.
Der Beitrag AMD Instinct MI355X: Über eine Million Tokens pro Sekunde in MLPerf Inference 6.0 erschien zuerst auf Hardware News.
Quelle: AMD Instinct MI355X: Über eine Million Tokens pro Sekunde in MLPerf Inference 6.0

by BlackRabbitZ