AMD 的 RDNA4 架构为 RX 9000 系列 GPU 带来了显著的效率提升,其核心目标是优化光栅化、计算和光线追踪性能,同时增强对机器学习工作负载的支持。该架构通过增大的 L2 缓存、改进的压缩技术、更高效的媒体与显示引擎等手段,在更小的芯片尺寸和更低的功耗下实现了超越前代产品的性能。最终,RDNA4 展现了一种务实的设计哲学:优先考虑能效和成本效益,而非追求绝对的顶级性能。
核心架构目标:效率优先
AMD 设计 RDNA4 的初衷是为当前及未来的游戏工作负载提供全面的效率提升。这不仅包括传统的光栅化性能,更重点关注了两个关键领域:
- 光线追踪: 通过改进的光追单元和更大的缓存,显著提升了光追性能。
- 机器学习: 随着 ML 在游戏中的应用日益增多,新架构也针对这些工作负载进行了优化。
RDNA4 代表了 AMD 在光线追踪和机器学习效率上的一次巨大飞跃,同时也改进了光栅化性能。
媒体与显示引擎的革新
除了核心图形加速,RDNA4 还在媒体处理和显示输出方面进行了重要升级。
媒体引擎:更高质量的视频编解码
媒体引擎负责硬件加速视频的编码和解码。高端 RDNA4 型号(如 RX 9070XT)配备了两个媒体引擎。
- 更快的解码速度: 通过“冲向空闲”(race to idle)的策略,在视频播放时更快完成解码任务以节省功耗。
- 优化的编码质量: 针对 H.265、H.264 和 AV1 编码器进行了改进,尤其是在低延迟流媒体场景下,视频质量(如 VMAF 指标)相比前代有明显优势。
- 保留细节: 在低比特率下,RDNA4 在处理高对比度轮廓和文本时表现更佳,伪影更少。
显示引擎:锐化与节能
显示引擎不仅负责输出图像,还集成了一些实用的新功能。
- Radeon 图像锐化 (RIS): RDNA4 在显示引擎中加入了专用的硬件锐化滤波器。这意味着锐化操作不会占用着色器资源、不影响游戏性能,并且比软件实现更节能。
- 多显示器低功耗模式: 这是一个重要的优化。通过利用 FreeSync 显示器的可变刷新率,RDNA4 可以在屏幕内容静止时动态降低刷新率,从而让内存总线进入低功耗状态,显著降低了多显示器桌面环境下的闲置功耗。
工作组处理器 (WGP) 的内部改进
RDNA4 的 WGP 在保持高层级布局不变的同时,引入了多项旨在提升性能和效率的微架构改进。
- 扩展的标量单元: 标量单元现在可以处理一些浮点指令,这有助于分担矢量单元的计算负载,从而节省功耗并提升性能。
- 分离式屏障同步: 传统的
s_barrier指令会强制所有线程等待,造成性能瓶颈。RDNA4 将其拆分为独立的s_barrier_signal(信号)和s_barrier_wait(等待) 操作。线程可以在完成数据生产后立即发出信号,然后继续处理其他独立工作,仅在需要消费数据时才等待,从而减少了不必要的停顿。
缓存层次结构与压缩技术
RDNA4 对缓存和数据压缩进行了重大调整,这是其实现高效率的关键。
- 更大的 L2 缓存: L2 缓存容量从 RDNA3 的 6 MB 增加到了 8 MB。这对于像光线追踪这样涉及大量指针追踪的负载尤其有利,可以显著减少对速度较慢的 Infinity Cache 的访问。
- 移除了 L1 缓存: RDNA4 取消了之前几代架构中存在的 L1 缓存。这可能是因为其命中率不够理想,AMD 认为将晶体管预算用于扩大 L2 缓存是更优的选择。
- 改进的透明压缩: 压缩技术被广泛应用于整个芯片,包括缓存、显示引擎和媒体引擎。这有效减少了数据传输量,降低了对内存带宽的需求,并提升了能效。
改进的压缩技术是 RDNA4 能够在使用较小的 Infinity Cache 和 256 位 GDDR6 内存配置下,依然实现出色性能的关键因素之一。
设计哲学:单片设计的回归
与高端 RDNA3 型号采用的小芯片(Chiplet)设计不同,RDNA4 选择了单片式(Monolithic)设计。
AMD 在评估了性能目标、封装成本和周转时间后,认为对于 RDNA4 的规模而言,单片设计是正确的选择。这提醒我们,设计方案没有“一刀切”的答案,最佳选择取决于具体的设计目标。
最终,RDNA4 成功地将强大的性能封装在一个相对较小的 356.5 mm² 芯片中,并搭配了成本效益更高的 256 位 GDDR6 内存。它在光栅化性能上与 RX 7900XT 相当,而在光线追踪方面则更具优势,同时功耗和成本都显著降低。