AMD RDNA4 显卡架构

AMD 的 RDNA4 架构为 RX 9000 系列 GPU 带来了显著的效率提升，其核心目标是优化光栅化、计算和光线追踪性能，同时增强对机器学习工作负载的支持。该架构通过增大的 L2 缓存、改进的压缩技术、更高效的媒体与显示引擎等手段，在更小的芯片尺寸和更低的功耗下实现了超越前代产品的性能。最终，RDNA4 展现了一种务实的设计哲学：优先考虑能效和成本效益，而非追求绝对的顶级性能。

核心架构目标：效率优先

AMD 设计 RDNA4 的初衷是为当前及未来的游戏工作负载提供全面的效率提升。这不仅包括传统的光栅化性能，更重点关注了两个关键领域：

光线追踪： 通过改进的光追单元和更大的缓存，显著提升了光追性能。
机器学习： 随着 ML 在游戏中的应用日益增多，新架构也针对这些工作负载进行了优化。

RDNA4 代表了 AMD 在光线追踪和机器学习效率上的一次巨大飞跃，同时也改进了光栅化性能。

媒体与显示引擎的革新

除了核心图形加速，RDNA4 还在媒体处理和显示输出方面进行了重要升级。

媒体引擎：更高质量的视频编解码

媒体引擎负责硬件加速视频的编码和解码。高端 RDNA4 型号（如 RX 9070XT）配备了两个媒体引擎。

更快的解码速度： 通过“冲向空闲”（race to idle）的策略，在视频播放时更快完成解码任务以节省功耗。
优化的编码质量： 针对 H.265、H.264 和 AV1 编码器进行了改进，尤其是在低延迟流媒体场景下，视频质量（如 VMAF 指标）相比前代有明显优势。
保留细节： 在低比特率下，RDNA4 在处理高对比度轮廓和文本时表现更佳，伪影更少。

显示引擎：锐化与节能

显示引擎不仅负责输出图像，还集成了一些实用的新功能。

Radeon 图像锐化 (RIS)： RDNA4 在显示引擎中加入了专用的硬件锐化滤波器。这意味着锐化操作不会占用着色器资源、不影响游戏性能，并且比软件实现更节能。
多显示器低功耗模式： 这是一个重要的优化。通过利用 FreeSync 显示器的可变刷新率，RDNA4 可以在屏幕内容静止时动态降低刷新率，从而让内存总线进入低功耗状态，显著降低了多显示器桌面环境下的闲置功耗。

工作组处理器 (WGP) 的内部改进

RDNA4 的 WGP 在保持高层级布局不变的同时，引入了多项旨在提升性能和效率的微架构改进。

扩展的标量单元： 标量单元现在可以处理一些浮点指令，这有助于分担矢量单元的计算负载，从而节省功耗并提升性能。
分离式屏障同步： 传统的 s_barrier 指令会强制所有线程等待，造成性能瓶颈。RDNA4 将其拆分为独立的 s_barrier_signal（信号）和 s_barrier_wait（等待） 操作。线程可以在完成数据生产后立即发出信号，然后继续处理其他独立工作，仅在需要消费数据时才等待，从而减少了不必要的停顿。

缓存层次结构与压缩技术

RDNA4 对缓存和数据压缩进行了重大调整，这是其实现高效率的关键。

更大的 L2 缓存： L2 缓存容量从 RDNA3 的 6 MB 增加到了 8 MB。这对于像光线追踪这样涉及大量指针追踪的负载尤其有利，可以显著减少对速度较慢的 Infinity Cache 的访问。
移除了 L1 缓存： RDNA4 取消了之前几代架构中存在的 L1 缓存。这可能是因为其命中率不够理想，AMD 认为将晶体管预算用于扩大 L2 缓存是更优的选择。
改进的透明压缩： 压缩技术被广泛应用于整个芯片，包括缓存、显示引擎和媒体引擎。这有效减少了数据传输量，降低了对内存带宽的需求，并提升了能效。

改进的压缩技术是 RDNA4 能够在使用较小的 Infinity Cache 和 256 位 GDDR6 内存配置下，依然实现出色性能的关键因素之一。

设计哲学：单片设计的回归

与高端 RDNA3 型号采用的小芯片（Chiplet）设计不同，RDNA4 选择了单片式（Monolithic）设计。

AMD 在评估了性能目标、封装成本和周转时间后，认为对于 RDNA4 的规模而言，单片设计是正确的选择。这提醒我们，设计方案没有“一刀切”的答案，最佳选择取决于具体的设计目标。

最终，RDNA4 成功地将强大的性能封装在一个相对较小的 356.5 mm² 芯片中，并搭配了成本效益更高的 256 位 GDDR6 内存。它在光栅化性能上与 RX 7900XT 相当，而在光线追踪方面则更具优势，同时功耗和成本都显著降低。