性能炸裂增长神经网络渲染新纪元

2022-10-27 09:10戴寅
电脑报 2022年40期
关键词:功耗分辨率架构

戴寅

9月20日,NVIDIA正式发布了第三代RTX架构AdaLovelace,并推出了基于该架构的旗舰GPU———GeForceRTX4090。它配备了第四代TensorCores和第三代RTCores,AI性能和光追性能相对上代最高可提升2~4倍,并支持全新的DLSS3技术。10月11日,NVIDIAGeForceRTX4090FoundersEdition性能解禁,那么RTX4090为何如此强大?其采用的全新NVIDIAAdaLovelaceGPU架构到底有哪些进化?且看我们全面的解析与测评。

NVIDIA Ada Lovelace架构带来革命性进化

完整的Ada AD102 GPU包含了12个GPC、共计18432个CUDA单元、144个RT Cores(第三代)、576个Tensor Cores(第四代)以及576个纹理单元,晶体管数量高达760亿个,远远超过了NVIDIA Ampere的280亿个。

在Ada GPU的1个GPC中,包含了6个TPC,每个TPC包含1个多边形引擎和两个SM单元,每个SM单元包含128个CUDA单元、1个第三代RT Core和4个第四代Tensor Core。

得益于定制的TSMC 4N制造工艺,NVIDIA Ada Lovelace GPU架构规模达到了空前的强大,同时在工作频率方面也有了巨大的提升。以当前RTX 40中的旗舰GeForce RTX 4090为例,它包含了11个GPC、共计16384个CUDA单元、128个RT Cores(第三代)、512个Tensor Cores(第四代)以及512个纹理单元 ,默认加速频率为2520MHz,已经远远超过了上代RTX 3090 Ti的1860MHz,而在游戏中甚至还能更高。总而言之规模和频率的全面提升,为NVIDIA Ada Lovelace GPU架构强悍的性能打下了坚实的物理基础。

从NVIDIA官方数据来看,NVIDIA Ada Lovelace GPU架构的着色器数据吞吐量最高可达90 TFLOPS(GeForce RTX 4090为83 TFLOPS),而上代NVIDIA Amere大约为40 TFLOPS,这当然与新一代GPU规模大幅提升不无关系。除了规模暴增之外,NVIDIA Ada Lovelace GPU架构还有一项进化就是支持Shader Executing Reordering(SER)着色器执行重排序。该技术的出现,就可以把这些杂乱的工作任务进行分类,动态重组为更高效的任务,从而提升着色器的执行效率。

从RTX 20到RTX 30再到RTX 40,RT Cores当然也进化到了第三代。简单地从有效光线追踪计算能力来看,NVIDIA Ada Lovelace GPU架构的第三代RT Cores吞吐量达到了191 TFLOPS,是上一代的2.8倍之多。在Ada GPU的第三代RT Cores中,引入了被称为“微映射透明度引擎”(OMM)和“微网格置换引擎”(DMM)的新模块。

微映射透明度引擎的作用是优化光纤追踪渲染,大幅降低着色器的工作负载,这对于处理复杂物体光追特性来讲提升是很大的。具体的原理是将光线追踪特性烘焙到不透明的蒙版中,让那些不规则的形状与半透明的对象都能更快更精准地被渲染出来。

微网格置换引擎则可以将面数非常多的复杂图形做简化,创造出更加简单的模型,从而实现用基本三角形渲染复杂几何图形的目的,大大减少了计算量对显存的占用。从官方数据来看,微网格置换引擎可以让光线追踪的BVH速度最多提升15倍,而显存占用最多可降低到原先的1/20,总之就是越复杂的模型,微网格置换引擎的优化效果越突出。

Ada GPU上,Tensor Cores已经进化到了第四代,而这次Tensor Cores的升级尤其重磅。它配备了全新的FP8引擎,张量处理性能高达1.32 PetaFlops(相对上代提升了五倍之多)。当然,第四代Tensor Cores最具革命性的进步还得数全新加入的光流加速器(Optical Flow Accelerator),而它就是NVIDIA DLSS3黑科技的核心所在。

和之前的DLSS2不同,DLSS3在原有的超分辨率功能基礎上进一步引入了光学多帧生成技术,简单来说就是可以通过AI计算生成新的帧,而不像之前那样只是生成像素。而这个帧生成的工作,是由在第四代Tensor Cores中加入的光流加速器来完成的,当然这就意味着DLSS3中的“帧生成”功能是RTX 40独享的。

DLSS3拥有新的光学多帧生成技术

光流加速器可以在DLSS2的基础上计算两帧之间的光流场,捕捉游戏画面中从第1帧到第2帧之间变化的方向与速度,包含粒子、光线照射、反射等像素信息,通过计算运动矢量和光流来精确重建画面。

简单来说,DLSS2做的是通过AI计算出画面上剩余的像素,而DLSS3则在此基础上还能计算出下一帧完整的画面,这样算下来DLSS3等于是完全重建了实际显示画面7/8的像素,也可以说是重建了相当于实际渲染像素7倍的像素。此外,由于DLSS3的“帧生成”在GPU中后处理,所以即便是CPU性能出现瓶颈,也能提升游戏帧率。

按照官方数据,DLSS3最多可带来4倍的游戏性能提升,让8K与全景光追游戏成为了现实。DLSS3包含了“光学多帧生成技术”“超级分辨率”和“NVIDIA Reflex”三大部分,开发者只要整合DLSS3,就可默认支持DLSS2。目前DLSS3已经得到了游戏开发者与游戏引擎的支持,超过35款游戏和应用都将支持该技术,首批游戏与应用将在10月内推出。

在生产力方面,NVIDIA GPU必然是设计师们优先考虑的高效工具,而RTX 40系列在NVIDIA Studio方面的优化配合NVIDIA Studio驱动也将会为内容创作者们提供更加出色的选择。总的来说,目前RTX 可以加速 110 多款主流创意应用,此外,SDK的提供使这些应用更加高效,并提供独家的功能,例如Optix、DLSS和Maxine。NVIDIA Studio 还提供了全套创意应用,包括 NVIDIA Omniverse、Broadcast、Canvas 和 RTX Remix。

我们知道AV1相比H.264等编码方式可以在同码率下提供更加清晰的视频画面,而且AV1还支持一些更先进的编码特性,例如HDR与低延迟。RTX 40的编码器(显存12GB以上的RTX 40系列甚至还提供了双NVENC编码器)提供了对AV1硬件编码的支持,而OBS和Discord等推流软件都将在不久之后提供对NVENC AV1的支持,让玩家享受到更加精美而流畅的直播视频画面。

总的来说,全新TSMC 4N工艺打造的NVIDIA Ada Lovelace GPU在架构、频率与能效比方面带来了巨大的升级,提供了相对上代数倍的性能,全新的RT Cores、Tensor Cores设计、光流加速器加持的DLSS3技术等等都堪称革命性的进步。它不但为玩家带来了速度与画面双绝的光追游戏体验(甚至直接进入了8K游戏的时代),更是为内容创意设计者们带来了极致高效的生产力利器,称得上是GPU发展史上又一个里程碑式的存在。

巨大压迫感的经典外观设计 散热效能再次提升

我們知道,NVIDIA的Founders Edition一直都是N饭的信仰神器,在工业设计方面非常前卫,非常具备收藏价值,同时在电气性能方面也是众多AIC厂商的重要设计参考。

RTX 4090 Founders Edition的外观沿用了上代的设计思路,银色与黑色的搭配张弛有度,中央的X造型更显科技力量的神秘。散热器方面同样采用了一只轴流风扇位于显卡正面负责推风,另一只轴流风扇位于显卡背面负责拉风,从而在机箱中制造出更为高效的散热风道,提升显卡的散热效果。它搭载了新的散热鳍片和气流设计,相比RTX 3090 FE,RTX 4090 FE的最大气流多出了20%,在同噪声等级情况下,气流可以多出15%,以提供更好的散热效果。

本次的RTX 4090 FE也是有史以来体积最庞大的FE设计,厚度已经达到了3.5槽,重量接近2.2kg,散热器的体积也是相当的夸张,给人强烈的力量感。电源接口则是新规范的12+4Pin接口,使用老电源的玩家也不必担心,包装盒里附送一条12+4Pin转4×8Pin的转接线。

在RTX 4090 FE的侧面,有着GeForce RTX的信仰灯,通电后会亮起白光,颇具仪式感。显卡尾部设计了一个磁吸盖板,打开后会露出机架安装孔位,方便放入服务器机柜。接口方面,RTX 4090 FE提供了3个DP 1.4接口和1个HDMI 2.1接口,可以支持8K/60Hz HDR10输出,为8K游戏与超极清视频提供了物理规格上的支持。

RTX 4090 FE的PCB造型和上代相似,均采用了异型PCB设计。但本次加强了供电设计,全新设计的20+3相豪华供电可以提供更加平稳的高负载输出曲线,减少电源负载波动,带来更稳定的使用环境。

性能暴增,DLSS3开创AI渲染新方向

测试平台

显卡:NVIDIA GeForce RTX 4090 Founders Edition

处理器:Intel酷睿i9 12900K

主板:ROG MAXIMUS Z690 HERO

内存:Kingston FURY Renegade RGB 32GB DDR5 6000MT/s

硬盘:Kingston KC3000 2TB

电源:ROG THOR雷神1200W Platinum II

操作系统:Windows 11专业版

显示器:AGON PD32M

基准性能测试

在测试DX11 2K分辨率性能的Fire Strike Extreme项目中,RTX 4090直接达到了46000分以上,两年前我们还在感叹3090终于突破了单卡2万分,RTX 4090直接再加了2万分上去,比RTX 3090 Ti高出了78%。

代表DX12 2K分辨率性能的Time Spy项目中,RTX 4090跑到了36690分,相比RTX 3090 Ti提升了75%。在4K分辨率的Time Spy EXTREME中,RTX 4090依旧能比RTX 3090 Ti提升78%,提升非常明显而且很稳定。

光追性能方面,PortRoyal测试中,RTX 4090的得分比RTX 3090 Ti高了一万多分,有82%的提升。纯光追场景的DXR测试就更明显了,性能几乎翻倍了,毕竟128个第三代光追单元对上84个第二代光追单元,优势不言而喻。

光栅游戏性能测试

游戏实测部分,对于RTX 4090这种旗舰显卡来讲,使用1080P分辨率对GPU的压力太小,只会凸显出处理器等子系统的瓶颈,因此我们只在2K和4K分辨率下测试。

从经典游戏《古墓丽影:暗影》我们可以看出一些负载方面的问题。在2K分辨率下,RTX 4090比RTX 3090 Ti多出了70帧,提升幅度为38%,在4K分辨率下则多出了75帧,提升达到了71%。RTX 4090在高分辨率下的优势明显更大,如果仔细看的话就会发现,在2K分辨率下,RTX 4090是跑不满450W功耗的,甚至不到300W的功耗,GPU占用也没跑满,这说明现在部分游戏的2K分辨率下,12900K已经给RTX 4090造成了一定的瓶颈。

总体来看,在传统的光栅化游戏部分,在测试的这10款主流3A大作游戏中,2K分辨率下RTX 4090相对RTX 3090 Ti的平均帧率提升在30%左右,GPU的性能受制于CPU瓶颈比较明显。随着分辨率提升到4K,RTX 4090的性能优势就越来越明显了,大部分游戏的提升都在70%左右,最高帧率提升甚至高达80%。综合下来,RTX 4090的4K游戏平均帧率相对于RTX 3090 Ti提升了64%,提升非常巨大。这也让我们对其在高分辨率高画质的光追游戏中的表现充满了期待。

在这里也可以看到,普通的4K游戏也没有完全压榨出RTX 4090的真正实力,GPU性能还显得有不少盈余,那么,接下来就该光追游戏上场了!

光线追踪游戏+DLSS2性能测试

同样先来看看《古墓丽影:暗影》。4K分辨率下不开光追,RTX 4090比RTX 3090 Ti提升了71%,开启光追后,提升进一步加大到了78%,可以看到这一代的光线追踪性能确实是有提升的。

总体来看,2K分辨率的光追游戏对于RTX 4090来说毫无压力,甚至在所测试绝大部分游戏中,它在4K分辨率下的帧速表现都能高于RTX 3090 Ti在2K分辨率下的帧率,所以我们直接看4K光追游戏部分,并加入了DLSS2质量模式下的测试对比。

在4K最高画质和极致光追的超高负荷压榨之下,RTX 4090相对RTX 3090 Ti的优势再次得到提升,在大多数游戏中,都保持了70%~80%的优势,在《F1 2022》《消逝的光芒2》中,RTX 4090真的实现了接近RTX 3090 Ti两倍的性能。

综合来看,在开启最高画质光追的情况下,无论是否启用DLSS2,RTX 4090的领先优势都保持在70%左右。即使不开启DLSS,RTX 4090也能在大多数开启光追的3A大作中以高于60帧的帧率流畅运行。而开启DLSS2后,它在很多游戏中都实现了巨大的性能提升,让4K极致光追游戏也能运行在超过100fps甚至是200fps的流畅帧率上。

总而言之,就目前热門游戏的情况来看,只有在4K极致光追画质设置下,才能尽量发挥出RTX 4090的强悍性能。

DLSS 3性能测试

通过前面的测试,玩家们可能觉得上面的游戏还不足以真正榨干RTX 4090的性能,而未来的光线追踪游戏必然也会为玩家带来更真实的画面表现,从而更好的应用新硬件的性能。在RTX 40系发布的同时,我们也可以看到新的RTXDI直接照明技术将搭载在未来的游戏中,提供更好和更方便应用的光影效果。而在这种情况下,DLSS3成为了RTX40系列的灵魂。

而DLSS3的帧生成同样需要面临这个问题,所以在DLSS3技术中,我们可以看到它还绑定了NVIDIA Reflex,从而解决延迟问题。目前已经有35款游戏和应用宣布即将支持DLSS3技术,而本次测试我们选用了其中的几款测试版。在支持DLSS3的游戏中都提供了DLSS超分辨率、帧生成、NVIDIA Reflex的开关选项,这其实就是DLSS3的三个组成部分,而关闭帧生成则等效于使用DLSS2,但如果打开了帧生成,那Reflex就必须开启。

从测试结果可以看到,《赛博朋克2077》中,有了DLSS3的帧生成加持,同样在4K+DLSS性能模式下,RTX 4090的平均帧率甚至超过了RTX 3090 Ti的2.3倍!《逆水寒》的DLSS3测试版更为夸张,专为DLSS3打造的测试副本光追效果直逼电影画面,对GPU的压力堪称变态,就连RTX 4090在4K无DLSS的设置下也只有17fps,开启DLSS3性能模式后,帧率直接提升了接近4倍达到了84fps,而没有光流加速器的RTX 3090 Ti在4K+DLSS性能模式下只有25fps,RTX 4090足足领先了236%!由此可见,游戏中光追特效越多越复杂,DLSS3带来的性能提升幅度越大,因此要面对未来的全景光追游戏大作,拥有光流加速器支持DLSS3的RTX 40系列显然是必备之物。《Lyra》对于显卡的压力相对较小,而在开启DLSS3和帧生成之后,RTX 4090相对RTX 3090 Ti也有最多约65%的帧率优势。

当然呢,大家比较关心的就是DLSS3的帧生成带来的延迟问题。我们通过NV的FrameView工具记录了在开启关闭时的延迟数据。

《赛博朋克2077》中,在原生4K模式下,平均PC延迟为83ms,而开启DLSS3后,平均延迟则只有35ms,Reflex带来的延迟降低非常明显。《逆水寒》测试中,由于帧率较低,原生4K下的平均延迟高达367ms,而开启DLSS3后,平均延迟则降低到60ms,同样有非常明显的降低。在《Lyra》Demo中则可以一窥未来FPS游戏中加入DLSS3的延迟表现,可以看到,原生模式下的延迟达到了60ms,而开启DLSS3后,平均延迟则已经降至了23ms。

从这样来看,玩家应该是不用太担心DLSS3的帧生成带来的延迟增长问题。

我们还简单比较了一下DLSS3加持的游戏画质。从图中可以看到,经过AI机器学习,目前DLSS对于画质的优化已经比较出色了,就算是注重性能的DLSS性能模式,画面的锐利程度和细节甚至都好于关闭DLSS的原生画面(注意看车尾灯的纹理),这也是为什么NVIDIA也推荐大家在4K分辨率下选择DLSS3性能模式的原因,目前来看也确实做到了画质与高帧率兼得。

生产力性能翻倍,AV1双编码器带来效率飞跃

对于设计师用户来讲,NVIDIA Studio那可是太熟悉了,而拥有24GB GDDR6X大显存的RTX RTX 4090除了游戏之外,也将会有不少用户将其作为生产力工具的首选,CUDA生态也一直是行业标准之一,那这次RTX 4090有多少提升呢?

SPEC Viewperf 2020 v3.1

SPEC包含了大量的工业软件测试项目,在最新的2020 v3.1版本中,RTX 4090相对于RTX 3090 Ti的提升相当明显。整体的提升和游戏中的提升比较接近,大部分测试都拥有50%以上的提升。其中Energy能源测试集的提升最大,是RTX 3090 Ti的2.64倍。

渲染性能测试

常规的3D渲染软件方面,Blender Benchmark 3.3中,RTX 4090在三个测试场景中都有非常明显的提升,其中monster和classroom相对RTX 3090 Ti实现了性能翻倍,而junkshop也有64%的提升。

RTX 4090在V-Ray中的表现也非常不错,无论是使用RTX还是CUDA相对于3090 Ti都能实现翻倍的渲染效率提升。再加上V-Ray和NVIDIA最近合作很紧密,GPU渲染的全新时代应该会来得更快一些吧。同样,在OC渲染器这边,无论开关RTX,RTX 4090相对于3090 Ti的提升也都在80%以上。

视频编码与AI性能测试

达芬奇18提供了支持双编码器和AV1的预览版本,我们在这里可以获得双编码器的编码输出性能展示。從测试来看,将同样的4K和8K两段Prores422HQ的视频分别导出成H265,RTX 4090所用的时间不到RTX 3090 Ti的一半。

而AV1编码由于3090 Ti不支持,所以这里没法比较。但是我们同样可以看到,RTX 4090在编码4K AV1视频时,所用的时间和H265是一样的,8K则稍微慢一点,AV1编码的整体效率还是非常高的。

除了编码,达芬奇在解码、特效和AI方面对GPU也有很好的支持,比如说我们用达芬奇里广受好评的MagicMask魔法遮罩做一个简单的跟踪,RTX 3090 Ti需要28秒才能完成,而RTX 4090则只需要17秒,效率上的提升也是非常明显的。

这次还有一个使用非常广泛的国产剪辑软件在老黄的发布会上亮相,那就是剪映专业版。它率先支持了RTX 40系的双编码器和AV1输出。现在官网上已经能下到这个测试版。

从测试来看,在使用剪映专业版输出H265的时候,RTX 4090确实也做到了相较于RTX 3090 Ti效率翻倍,AV1的输出时间同样和输出H265差不多,具有非常高的效率。

从测试来看,对于3D设计师或者视频特效与剪辑工作者来讲,从RTX 3090 Ti升级到RTX 4090基本上就等于获得了高出一倍的处理效率,显然是非常值得的。

功耗温度与超频测试

最后再来看看温度和功耗的表现。RTX 40系列采用了TSMC 4N制造工艺,频率和能效都相对上代大幅提升,这也让它的默认GPU频率就非常高,而且有轻松冲击3 GHz的潜力。而且本次RTX 4090 FE夸张的散热器体积,也为不错的温度表现打下了基础。

在26℃的室内,使用FurMark连续考机半小时,可以看到GPU温度为70℃左右,GPU节点温度为78℃左右。使用TimeSpy稳定性测试考机时,FE版的温度表现和Furmark考机时差不多,GPU最高频率可以跑到2760MHz。而實际游戏中因为负载不会一直处于最高状态,所以GPU的温度一般都在60多摄氏度。

另外,本代FE版还加强了显存散热,可以看到即使连续考机,HWINFO报告的显存节点温度也只有74℃左右,相比上代FE散热表现优秀了不少。

功耗方面,在FurMark单考GPU时,GPU-Z报告的显卡整卡功耗为440~450W左右,电源上的功耗仪显示整机功耗为570W左右。在游戏中因为有处理器的加入,整机功耗则在600多瓦。整体来看,功耗方面RTX 4090相比之前RTX 3090 Ti并没有明显增长,不超频的旗舰平台使用1000W电源也是能够hold住的。何况这一代还改进了供电,不会像上代那样出现剧烈的峰值电压和电流波动,高负载供电更平稳,玩家们应该无须担心。

总结:光追时代的性能飞跃,次世代硬件发展的新探索

基于TSMC 4N工艺打造的新一代NVIDIA Ada Lovelace GPU架构,让RTX 40系列相对于上代RTX 30系有着性能上的飞跃,除了从制程工艺获得的超大芯片规模与高频率增益之外,第三代RT Cores和第四代Tensor Cores也大放异彩。NVIDIA一直走在图形业界的前端,在新技术的演进上老黄还是非常认真且激进的。

全新加入的光流加速器,让DLSS3技术的AI帧生成得以实现,从而大幅增加游戏帧率,最终带来2~4倍的光追游戏性能提升,让4K极致光追游戏以电竞级帧率流畅运行变得轻而易举,也让玩家可以从容应对未来画面更加真实的全景光追游戏与8K超极清游戏。它从另一个方面尝试解决光线追踪对硬件性能的恐怖需求,通过神经网络渲染为未来的硬件发展方向进行了探讨,并获得了不错的效果。

单看RTX 4090的性能,就已经能够实现让3A大作跑在4K/144Hz的游戏帧率了,说实话之前是没想到这一天能来得这么快的。而在DLSS3的加持下,确实也能最高特效光追跑4K/144fps,GPU的性能表现“赶上”了显示器能提供的性能呈现,从另一个方面来看的话,RTX 40系列也将为相对疲软的硬件市场带来一些活力。

当然,你可能觉得DLSS3对于本身就能在4K下流畅跑光追的RTX 4090来说没那么惊艳,但是如果想一下,这个技术是RTX 40系全系搭载的,如果放到未来将要发布的甜品卡上,对于玩家和市场的触动就非常有意思了。所以DLSS3毫无疑问是这代的重点技术了。

此外,从前面的测试也可以看到,RTX 4090在3D渲染输出与视频剪辑方面相对上代也有成倍的性能增幅,对“时间就是金钱”的生产力应用来讲真的称得上是必买的顶级高效工具。

猜你喜欢
功耗分辨率架构
基于FPGA的RNN硬件加速架构
基于任务映射的暗硅芯片功耗预算方法
功能架构在电子电气架构开发中的应用和实践
EM算法的参数分辨率
原生VS最大那些混淆视听的“分辨率”概念
WebGIS架构下的地理信息系统构建研究
基于深度特征学习的图像超分辨率重建
一种改进的基于边缘加强超分辨率算法
揭开GPU功耗的面纱
数字电路功耗的分析及优化