软硬兼施 了解新一代显卡的“隐藏实力”

2021-05-23 15:08
电脑爱好者 2021年10期
关键词:处理器容量细节

显存访问革命

在AMD推出RX 6000系列显卡的时候,同时宣布了一个“新技术”——Smart Access Memory,简称SAM。它其实就是一种让处理器可以访问全部显存,即拥有全部权限(Full Access)的技术(图1)。

在十几年前,当显卡接口转向PCIe插槽时,显卡与处理器的通信能力就是PCIe总线的重要“卖点”。当然,处理器和显卡的通信并不是直接访问处理器或者GPU,那样会扰乱数据处理的,GPU通过PCIe通道访问的主要是内存数据,而处理器访问的当然就是显存里的数据了。只不过由于当初设计的问题,处理器访问显存的范围被定在了256MB,也就是最初几代PCIe高端显卡(图2)的显存容量。

不过之后随着显卡显存容量的提升,这个能力似乎被遗忘了,于是处理器访问显存时需要的BAR(基础地址寄存器)就没有升级过,访问权限一直保持在256MB,显卡和处理器只能交流少量的数据。但PCIe规范本身其实并没有这种限制,反而有ResizabIe BAR Capabilitv(可调节大小的BAR容量)这个功能(图3)。Smart Access Memory实际上就是终于“想起”并用上了这个功能,只要按照PCIe规范调节BAR,就可以让处理器获得访问全部显存的权限了。

英特爾和英伟达也随后推出了类似功能,大部分主板直接以PCIe规范的Resizable BAR Capability技术为名(图4),一般直接简称为BAR。也有部分主板比较个性,例如华擎将这一功能命名为CAM(Clever Access Mempry)(图5)。

至于为什么现在处理器和GPU厂商都突然想起来了这个功能,其实很简单,相对于目前的显卡,PCIe4.0×16插槽拥有了“太大”的带宽,比如我们测试支持PCIe 4.0的RTX 30系列、RX 5000/6000系列显卡时,使用PCIe 3.0×16(或PCIe 4.0×8)还是PCIe 4.0×16插槽,表现并没什么区别,说明有很大的接口带宽根本处于闲置状态。

另一方面,要想让处理器顺畅地访问高速、大容量缓存,对通道带宽的要求也非常高,在PCIe 3.0时代,大家根本不敢放开处理器访问显存的范围,以免影响最紧要的通信数据,也只有如今PCIe 4.0时代的带宽,才能让厂商放心开启这一功能。顺便说一下,现在动辄8GB甚至10多GB、20多GB的显存,也为处理器与GPU协作留下了一定的容量基础,否则被GPU自身紧急需求的数据塞满的区区几GB显存,也根本没有处理器插手的空间。也许正是出于这种考虑,英伟达第一款“出生”就为BAR进行优化的GPU,恰好是自身性能有限,但显存容量很大的RTX 3060(图6)。

至于性能方面,很遗憾的是,目前只有少数几款游戏可以从这一功能中明显受益,例如《战争机器5》在开启BAR之后帧速提升就比较大(图7),但其他3A游戏的帧速提升幅度大都很小,有些甚至还会有帧速下降的情况。

当然,这一功能的潜力还是非常明显的,处理器与GPU的良好协作,对未来场景越来越复杂、NPC越来越智能、物理效果越来越真实的游戏或3D应用,都是意义非凡的。只是想要充分感受它带来的益处,恐怕还得等待为其优化的全新3D应用/游戏引擎。

分辨率优化技术

使用低分辨率或低细节的画面,通过优化来模拟更高分辨率、画质的画面,是显卡的一种常见的帧速“优化”模式。不过在近期,软硬件结合,并且有了光线追踪画面的更紧迫需求,才使得两大GPU厂商的相关技术——英伟达的DLSS和AMD的FidelityFX技术更加引人瞩目。

火速连接

DLSS是英伟达在RTX 20时代就提出的技术,在本刊2020年第15期《低成本“升级”提升电脑性能的小手段》一文中已经有详细介绍,这里就不赘述了,

其中AMD的FidelityFX技术,实际上是为RX 6000系列显卡和以及AMD支持的新一代游戏主机推出的一整套图形品质优化工具(图8),可为游戏加入环境光遮蔽、可变阴影着色以及自定义锐化技术等,分辨率优化技术是其中的FidelityFX Contrast AdaptiveSharpening(对比度自锐化,简称CAS)部分,目前仍在开发和优化中。

从目前的情报看,FidelityFX CAS更偏向于游戏本身的支持和优化,与DLSS的实现途径有明显区别。DLSS是在英伟达自家的服务器上对游戏进行针对性的智能学习和优化,之后通过驱动放出相应的优化设置,这样可以获得最适合GPU的效果,但优化时间较长,如果游戏引擎有变化可能需要重新学习。而AMD可以利用自家在游戏主机平台上的绝对优势,要求开发商的游戏引擎直接为FidelityFX优化,以便在主机上发挥最好效果。由于目前大量的中高端游戏都是跨平台开发和发售的,PC平台上的这些游戏当然也会支持FidelityFX。这种方式虽然传统,但同样有效,而且不会出现游戏升级或发布后,需要推出新驱动才能对其优化的情况。

可变速率渲染

如果说DLSS和FidelityFX CAS的帧速优化主要是依靠低分辨模拟高分辨率,那么通过降低细节来提升帧速的新技术应该就是可变帧率渲染(VariabIe Rate Shading,简称VRS)了。

用最简单的方法解释VRS,它其实就是自动判别玩家不关注的景物、角度,比如远处的树皮,快速转身时候“途经”角度上的景物。然后尽量减少这些地方的细节渲染,使用更粗糙的材质等等(图9),这样可以降低显卡对每一帧画面的处理负担,就可以提升整体帧速了。当然在帧速已经足够的情况下,也可以将这些节省下来的资源放在更重要的景物、视角里,甚至还可能增加这些地方的细节表现,提升画质体验。

我们很难通过实际游戏的静态画面看到VRS的表现,因为一旦静止,没有所谓可以忽略的景物和角度了,显卡常常会去弥补画面细节,所以我们只能从3DMark的相应测试中截取图片来看一看效果。

3DMark的VRS测试分为两级,一级只能针对某个图形,比如远处的石头与树木与近处使用不同的渲染细节(图10、图11);而二级则可以针对图形的某个区域,比如同一所房子中,位于玩家侧面的墙壁和正对的墙壁都可以表现出不同的细节(图12、图13)。

在一级VIRS测试中,我们可以比较明显地看出远处的树皮变得更模糊了,虽然对重要景物的影响不大,但仔细观察会看到明显的不同。至于二级VRS,因为区域设定更灵活,画面损失也更小,静态图片就几乎看不出来变化了。

VRS对帧速的影响很大,以画质损失较小的二级VRS为例,使用同为图灵核心的GTX 1660和RTX 2070显卡进行测试,兩者开启VRS后的帧速提升都更明显。

这里要注意的是,VRS虽然不是RTX 30和RX6000这样的最新一代显卡才开始提供的技术,但对于核心还是有一定要求的。特别是画面效果与帧速更加平衡的二级VRS,最好使用图灵或更新核心的显卡。

英伟达专属 快速响应与新G-Sync

英伟达发布RTX 3060的同时,还推出了一个有助于游戏整体速度体验的技术——Reflex。它除了通过英伟达自身的GPU研发能力,降低游戏画面的生成、传输、显示延迟之外,还尽量降低处理器压力、并让鼠标、显示器厂商针对操控延迟、显示延迟进行优化,以加快游戏从操控输入到画面最终显示的整体速度(图14),降低延迟,提升体验。

火速连接

关于英伟达快速响应技术的介绍,可参考本刊2021年第4期的《感受未来走近CES 2021》一文。

而在RTX 3060的发布会前后,英伟达还悄悄地做了另一件事,那就是将G-Sync的认证标准降低了(图15)。首先是衍生出了所谓的G-Sync Compatible(G-Sync兼容)标准。从对比表中可以看出,显示器只需要支持可变刷新率,不用经过之前G-Sync认证的300+种检测,当然也不用内置芯片,价格也就便宜得多,这使得很多入门、主流游戏显示器可以开始支持G-Sync技术。

其次,英伟达将原本最高规格的G-Sync Ultimate标准降低了。原先的Ultimate HDR实际就是DisplayHDR 1000标准,包括峰值亮度达到1000nits,且要有多个背光分区等要求,现在变成了比较模糊的Lifelike HDR,这样HDR 600甚至400的显示器也可以宣传自己是G-Sync Ultimate标准了。

这两个举措的意义非常明显,Reflex可以从整体上改变画面延迟问题,让玩家更充分感受到升级显卡带来的实际好处,避免其他方面的延迟掩盖帧速提升的体验。而降低和扩展G-Sync认证,则可以让更多玩家体验到无撕裂的画面,同样有利于显卡展示其高帧速的优势。不过这两个技术,或者说戰略也存在一些缺陷,例如Reflex阵营中没有网络相关厂商加入,而网络延迟在游戏整体延迟中已经是无法忽视的问题了,而且G-Sync认证向下扩展和降低标准会不会影响高端玩家的体验,也是未知之数。

AMD专属 内置缓存与Rage模式

AMD的新一代GPU当然也有自己的专属特色技术,首先就是RX 6000全系都具有的特殊配置——Infinity Cache。如果说RX 6000系列采用的架构更像是处理器的话,那么Infinity Cache就有点像是处理器中常见的、所有核心共享的三级缓存(L3 Cache)。其实RDNA2架构图上确实和处理器一样明确标有一级、二级(L1、L2)缓存及Infinity Cache的位置(图16),也说明其使用方式和三级缓存真的非常类似。

Infinity Cache的存在大幅提升了RX 6000系列的数据响应速度(图17),在这方面将RTX 30系列远远甩在了身后。不过这一配置也存在一些问题,比如占用了GPU核心的外部带宽,也因此影响到了显存容量配置,造成RX 6000系列的高端型号在这两点上都弱于对手。

至于AMD的Rage模式,其实就是自动超频,或者说高频率状态(图18)。在发布会的时候我们甚至可以看到,RX 6900 XT能够与对手抗衡,实际上就使用了超过标准频率的Rage模式(图19)。而AMD之所以会有这种设计,应该也与RX 6000比对手更低的TG P(Total Graphics Power,全卡功耗)有关,这使其可以适当放松功耗管理来获得更高性能。

在新一代的显卡和其配套软件中,可能还隐藏着一些尚不为人熟知的技术,也有一些是我们特别熟知,因此算不上“隐藏实力”的技术,比如光线追踪等。它们的目的与实现途径各不相同,或实用、或超前、或强力、或有趣,但相同的是,它们都在努力推进着3D技术不断发展、完善。也许在下一代显卡露面后,我们可以回头更好、更全面地重新梳理这些技术及其带来的变化。

猜你喜欢
处理器容量细节
以细节取胜 Cambridge Audio AXR100/ FOCAL ARIA 906
留心细节处处美——《收集东·收集西》
细节取胜
Imagination的ClearCallTM VoIP应用现可支持Cavium的OCTEON® Ⅲ多核处理器
2015年上半年我国风电新增并网容量916万千瓦
2015年一季度我国风电新增并网容量470万千瓦
ADI推出新一代SigmaDSP处理器
改进等效容量法在含风电配网线损计算中的应用
在线血容量监测在血液透析中的应用
AItera推出Nios II系列软核处理器