6

Gerüchteküche: Hardware-Daten, Chipflächen und eine erste Rechenleistungsangabe zu AMDs Navi 48 & 44

Von Twitterer All The Watts!! kommen diverse Grund-Daten zu den RDNA4-Grafikchips Navi 48 & 44, ergänzt mittels zwei nachfolgenden Tweets um eine Angabe der Chipfertigung sowie eine Angabe der Rechenleistung von Navi 48. Der Original-Tweet enthält allerdings leider keine Maßgaben dazu, welche Zahlen-Angaben was bedeuten soll, wobei sich vieles faktisch von alleine ergibt. Unsicher sind allein die jeweils zweite und vorletzte Angabe. Die zweite Angabe könnte die Menge des Infinity Caches oder die Anzahl der Shader-Cluster wiedergeben – letzteres ist aber weniger wahrscheinlich, da die erste Zeile bereits die Anzahl der WGPs enthält und sich die Anzahl der Shader-Cluster hieraus automatisch ergibt (das Doppelte der WGPs).

Navi 48 Navi 44 wahrscheinliche Erklärung
32 16 Anzahl an WGPs (Anzahl CUs = 2x WGP)
64 32 Infinity Cache in MB  (alternative Erklärung: Anzahl an CUs)
256 128 Breite des Speicherinterfaces in Bits
693 288 nominelle Bandbreite in GB/sec (ergibt Speicher mit 21,7 bzw. 18 Gbps)
2770 515 effektive Bandbreite in GB/sec (inkl. des Effekts des Infinity Caches)
~240mm² ~130mm² Chipfläche unter der N4P-Fertigung von TSMC
Wiedergabe der Angaben seitens All The Watts!! @ Twitter (1./2. Spalte) samt eigenen Erklärungen (3. Spalte)

Die vorletzte Angaben könnte einen Chiptakt enthalten – oder auch die effektive Speicherbandbreite unter Berücksichtigung des Infinity Caches. In diesem Fall ist die Auflösung inzwischen klar, nachdem "All The Watts!!" ein entsprechendes Posting seitens Twitterer RawMango repostet hat. Nachdem die Zuordnung der Daten somit weitgehend geklärt ist, scheinen sich mit diesen neuen Angaben die letzten Gerüchte zu bestätigen, wonach Navi 48 mit 64 Shader-Clustern und 64 MB Infinity Cache an einem 256-Bit-Speicherinterface sowie Navi 44 mit 32 Shader-Clustern und 32 MB Infinity Cache an einem 128-Bit-Speicherinterface (jeweils genau die Hälfte) antreten soll. Regelrecht neu sind hingegen die Angaben zur Speicherbandbreite, aus welchem sich die benutzte Datenrate ergibt – gewöhnliche 18 Gbps bei Navi 44 sowie vergleichsweise hohe 21,7 Gbps bei Navi 48.

Wirklich undenkbar ist diese hohe Datenrate, welche es eventuell nur beim Top-Modell von Navi 48 gibt, allerdings nicht. Schließlich läßt sich der von AMD bevorzugte GDDR6-Speicher bereits mit 22 Gbps bei SK Hynix bestellen und selbst 24 Gbps stand mal auf einer Samsung-Roadmap. Teilweise ebenfalls neu sind die Angaben zur Chipfläche sowie zur benutzten Fertigung (TSMC N4P), wobei verschiedene frühere Gerüchte zumindest teilweise bereits ähnliches berichtet hatten. Zur Chipfläche gab es allerdings bislang noch sehr voneinander abweichende Gerüchte: Während 'Moore's Law Is Dead' von Chipflächen à 300-350mm² sowie niedriger als 210mm² ausging, notierte 'RedGamingTech' zuletzt eine Chipfläche von ~220mm² für Navi 48 sowie einen deutlich kleineren Navi-44-Chip. Gemäß 'All The Watts!!', der bislang schon für einige zutreffende Leaks bekannt ist, geht es mit ~240mm² bzw. ~130mm² deutlich in letztgenannte Richtung.

Diese Chipflächen sind sehr klein, nahezu unglaubwürdig klein. Manche spekulieren darauf basierend bereits, dass es sich bei Navi 48/44 somit nicht um Monolithen, sondern MultiChip-Designs wie bei RDNA3 handeln könnte, sprich dass hier noch die jeweiligen MCDs hinzukommen würden. Allerdings klappt diese These bei genauem Nachrechnen dann doch nicht: Mit zwei MCDs á 37mm² (TSMC N6) würde die gesamte Chipfläche von Navi 44 bei 204mm² herauskommen – zufälligerweise exakt die Chipfläche von Navi 33, welches im Grunde dieselbe Hardware-Konfiguration aufbietet (32 CU @ 128-bit). Da Navi 33 jedoch aus der 6nm-Fertigung kommt und Navi 44 schon aus der 4nm-Fertigung, sprich hier ein ganzer Fullnode-Sprung dazwischen liegt, müsste bei gleicher Chipgröße Navi 48 somit grob doppelt so viele Transistoren für wie gesagt dieselbe Hardware-Konfiguration aufwenden.

Dies ist arg unwahrscheinlich, so viele Transistoren setzt man einfach nicht zugunsten von mehr IPC ein – denn ab einem gewissen Zeitpunkt lohnt sich der Weg über eine schlicht höhere Einheiten-Anzahl viel eher. Umgedreht gesehen funktioniert die Rechnung hingegen: Navi 33 geschrumpft auf 4nm könnte etwas mehr als die Hälfte von Navi 33 groß sein, ergo ca. 120mm² (Interfaces skalieren schlecht, deswegen nicht glatt die Hälfte). Die 10mm² Differenz zu Navi 44 reichen als IPC-Befeuerung wohl aus, wenn es wie gesagt grundsätzlich dieselbe Hardware-Konfiguration gibt. Man muß an dieser Stelle auch einrechnen, dass bei diesen kleinen Grafikchips der eigentliche Grafik-Part (ohne Interfaces, ohne Video-Engine, ohne Infinity Cache) vielleicht nur 60% der Chipfläche einnimmt, in diesem Fall umgerechnet ~70mm². Hierfür dann 10mm² mehr zur Verfügung zu haben, ergibt sehr wohl einigen Spielraum für IPC-verbessernde Maßnahmen.

Zudem gibt es direkt von AMD historische Vorbilder: Die Polaris-Generation ging anno 2017 auch einmal mit nur 232mm² Chipfläche für Polaris 10 (Radeon RX 470/480/570/580) sowie 123mm² für Polaris 11 (Radeon RX 460/560) ins Rennen. Auch seinerzeit gab es in der kleinen Chipfläche von 232mm² schon ein 256-Bit-Speicherinterface, allerdings war seinerzeit die Hardware-Differenz zwischen Polaris 10 & 11 bezüglich der FP32-Einheiten sogar noch etwas größer (2304 vs 1024) als nur das Doppelte. Seinerzeit war die Polaris-Serie mal ziemlich beliebt als schlagkräftige Beschleuniger mit guten Speichermengen zu vor allem vernünftigen Preislagen. Gut möglich, dass AMD diesen Ansatz bei der RDNA4-Generation zu wiederholen versucht (natürlich auch notgedrungen, da die schnelleren RDNA4-Chips gestrichen wurden).

Hierfür könnten auch hohe Taktraten nützlich sein, welche Navi 48 sowohl gemäß der früheren Gerüchteküche als auch einem Nachtrags-Tweet seitens All The Watts!! erreichen soll. Danach soll ein Navi-48-Sample auf einem 215-Watt-Board immerhin 50 TFlops Rechenleistung erzielt haben. Dies ergibt im Vollausbau von Navi 48 einen Chiptakt von 3051 MHz – was automatisch auch die Frage beantwortet, ob hiermit etwas anderes als die FP32-Rechenleistung gemeint sein könnte (FP16 bzw. FP64 würden jeweils komplett unrealistische Taktraten ergeben). Damit würde die RDNA4-Generation neben einem mutmaßlichen IPC-Sprung somit auch noch einen kräftigen Sprung beim Chiptakt von ca. +20-30% mit sich bringen.

Die Navi 48 Samples sind in der Lage, 50 TFlops auf einer ~215W Platine zu erreichen.
Quelle:  All The Watts!! @ Twitter am 6. April 2023 (maschinell übersetzt ins Deutsche)

Jener läßt sich derzeit noch nicht genauer beziffern, da unklar ist, mit welchen Vergleichsgrößen hier zu arbeiten wäre – nominelle Taktraten oder der jeweils erzielte Realtakt, verglichen mit welcher konkreten RDNA3-Grafikkarte. Zudem ist ungewiß, wie nahe die Taktrate jener Sample-Chips am späteren realen Produkt liegt: AMD könnte für die Massenfertigung zugunsten der Stabilität leicht niedrigere Taktraten ansetzen, gleichfalls könnte aber natürlich auch die spätere Massenfertigung von Navi 48 wiederum etwas höhere Taktraten ermöglichen als die aktuellen Engineering Samples leisten können. Mitnehmbar ist jedoch, dass es tatsächlich in Richtung 3 GHz gehen soll, was deutlich weg von dem liegt, wie RDNA3-basierte Grafikkarten üblicherweise takten.

Positiverweise soll dies sogar mit einem geringeren Stromverbrauch von 215 Watt erzielt worden sein. Allerdings ist derzeit nicht sicher, ob mit diesem Begriff der Verbrauch der kompletten Grafikkarte oder nur des Grafikchips gemeint ist. In letzteren Fall kommen dann noch einmal ca. 40 Watt oben drauf, womit der Stromverbrauch ähnlich wäre wie bei der Radeon RX 7800 XT. Normalerweise ist die vorstehende Formulierung "~215W Platine" eigentlich eindeutig, aber im Vorserien-Status kann dies durchaus anders gemeint sein als bei verkaufsfertigen Grafikkarten. Genauso wenig sicher ist, inwiefern reale Navi-48-basierte Grafikkarten tatsächlich mit diesen konkreten Daten (50 TFlops & 215W) antreten werden. Insofern kann man derzeit nur von einer generell höheren Energieeffizienz seitens Navi 48 reden, ohne dies jedoch schon genauer beziffern zu können.

Die insgesamten Vorzeichen sind allerdings durchaus vernünftig. Kommt ein gutklassiger Taktraten-Sprung samt gewisser IPC-Verbesserungen daher, ist mit Navi 48 selbst mit einer nominellen Hardware nur leicht besser als Navi 32 sehr wohl die Performance der Radeon RX 7900 XT anzupeilen (welche im übrigen ebenfalls ca. 50 TFlops FP32-Rechenleistung aufweist). Dies dann auf nur ~240mm² Chipfläche zu realisieren, wäre das eigentliche Kunststück: Denn für die Radeon RX 7900 XT benötigt AMD schließlich gleich 485mm² Chipfläche (300mm² N5 sowie 185mm² N6), hinzu der mit 309 Watt höhere Stromverbrauch. Selbst "Ada Lovelace" würde Navi 48 damit bei der Energieeffizienz schlagen, die im ähnlichen Performance-Feld liegende GeForce RTX 4070 Ti Super verbraucht ihre 277 Watt.

Navi 33 Navi 44 Navi 32 Navi 48
Fertigung TSMC N6 TSMC N4P TSMC N5 (GCD) + N6 (MCDs) TSMC N4P
Chipfläche 204mm² ~130mm² 348mm² ~240mm²
Architektur RDNA3 RDNA4 RDNA3 RDNA4
Raster-Engines (SE) 2 2 3 4
Shader-Cluster (CU) 32 32 60 64
Chiptakt (real) 2.7 GHz (7600XT) ? 2.4 GHz (7800XT) angbl. 3.0 GHz
FP32-Rechenleistung 22 TFlops ? 37 TFlops angbl. 50 TFlops
Infinity Cache 32 MB 32 MB 64 MB 64 MB
Speicherinterface 128 Bit GDDR6 128 Bit GDDR6 256 Bit GDDR6 256 Bit GDDR6
PCI Express PCIe 4.0 x8 whrschl. PCIe 4.0 x8 PCIe 4.0 x16 PCIe 4.0 x16
Hinweis: Angaben zu noch nicht offiziell vorgestellter Hardware basieren auf Gerüchten & Annahmen

Die große Frage ist nun natürlich, ob AMD diese Werte des Navi-48-Samples tatsächlich in die Massenfertigung entsprechender Grafikkarten übertragen kann. Gelingt AMD dies, hätte man sehr potente Produkte für das Mainstream- und Midrange-Segment, welche zudem auf Basis kleiner Chipflächen sehr günstig für AMD herzustellen sind. Eine große Preisoffensive braucht man deswegen jedoch nicht erwarten, in diesem Punkt dürfte sich "Polaris" (startend mit der Radeon RX 480 8GB für 239 Dollar Listenpreis) kaum wiederholen. Aber jedes neue Produkt höhlt hier den Stein: Erst wird RDNA4 herauskommen und die GeForce RTX 40 Serie unter Druck setzen. Dann kommt die Blackwell-basierte GeForce RTX 50 Serie heraus und macht selbiges mit RDNA4, was wiederum AMD zu Preissenkungen animieren dürfte.

Mittels der kleinen Chipflächen von Navi 48 & 44 hätte AMD zumindest die wirtschaftliche Basis hierfür. Aus der unglücklichen Situation heraus, dass man Navi 41 & 42 (wahrscheinlich wegen Problemen mit dem Multi-GCD-Design) streichen musste und somit für diese Grafikkarten-Generation auf neue HighEnd-Produkte verzichten wird, hat AMD offenbar doch noch einiges gemacht. Der Ansatz, um nVidia im Mainstream- und Midrange-Segment wirklich unter Druck setzen zu können, ist in jedem Fall vorhanden. Die großen offenen Fragen hierzu lauten somit: Wieviel des Kostenvorteils durch die kleinen Dies gibt AMD an die Konsumenten weiter, sprich wagt man tatsächlich mal Kampfpreise? Und um wieviel stärker steigt die RayTracing-Performance, um diesen klaren Nachteil der AMD-Grafikkarten beachtbar zu verringern?