打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
NVIDIA GeForce RTX 4090架构浅析:带上AI,大步追光
userphoto

2022.10.08 上海

关注

从2018年Turing架构开始,NVIDIA GPU正式进入了实时光线追踪和人工智能加速的时代。从最初Eidos Montreal在《古墓丽影:暗影》率先尝试性的阴影实装,到现在全局光线追踪的大胆迈进,在短短的四年时间内,软件与硬件的升级换代开始不断狂奔。也正是这时候开始,NVIDIA开启了核心架构两年一更的节奏。而在Ampere架构发布两年后,以世界上第一位女程序Ada Lovelace为名的新架构孕育而生。

世界上第一位女程序Ada Lovelace

从好莱坞工业的光影创作到游戏,实际情况对复杂光影与现实场景模拟变得更为苛刻。例如在《赛博朋克2077》的光线追踪模式中,会要求635条光线追踪路径针对每一个像素点进行计算,而在2018年刚推出《战地5》时,仅39条光追路径就已经足以卡爆无数PC。

在NVIDIA GTC 2022的主题演讲上,我们已经知道了Ada Lovelace GPU架构能够比上一代Ampere GPU架构拥有2倍以上的传统光栅化游戏效率,以及4倍以上的光线追踪效率。随后的媒体日中,NVIDIA工程师为我们详细解答了Ada Lovelace架构的细节。现在不妨让我们花点时间,粗浅的了解一下NVIDIA GeForce RTX 4090背后AD102核心以及Ada Lovelace架构的特点。

Ada Lovelace的提升可以简单归结为三个方面:

工艺与设计改变:NVIDIA利用台积电4N定制工艺和改良的电路设计进一步扩大了芯片规模,完整的AD102核心拥有763亿个晶体管和18432个CUDA核心构成,运行时钟频率可以达到2.5GHz以上。在进行部分取舍之后,量产成行的GeForce RTX 4090的TGP功耗与GeForce RTX 3090 Ti相当,但效率翻了数倍。

更快的光线追踪性能:第三代RT Core拥有2倍的射线三角形求交吞吐量,并添加了两个硬件单元,分别是微映射透明度引擎(Opacity Micro-Map,OMM)和微网格置换引擎(Displaced Micro-Mesh,DMM)。其中OMM主要作用优化光线追踪渲染,降低着色器负担,DMM则是将用于光线求交加速的层次包围盒加速算法(Bounding Volume Hierarchies,BVH)的速度提升10倍,显存占用减少20倍。

NVIDIA DLSS 3:第四代Tensor Core与光流加速器(Optical Flow Acceleration,OFA)配合,实现AI帧生成,从而使得DLSS 3相对DLSS 2帧率提升2倍,相对原画质帧率提升4倍,并与NVIDIA Reflex配合实现更低的系统延迟。

现在就让我们针对这三个重要更新进行逐一分析。

AD102的进化论

在GTC 2022首发的Ada Lovelace架构产品一共包含三款,分别是GeForce RTX 3090的AD102,GeForce RTX 3080 16GB的AD103,以及GeForce RTX 3080 12GB的AD104。同时GeForce RTX 3090使用的AD102也并非完整形态,在GeForce RTX 3090首发评测中我们会进行分析。

完整的AD102包含了12个图形处理集群(Graphics Processing Clusters,GPC),72个纹理处理簇(Texture Processing Clusters,TPC),144个流式多处理器(Streaming Multiprocessors,SM),以及搭配了12个32-bit控制器的显存接口,共计384-bit。

从Turing架构开始至今,GPC、TPC、SM的包含层级没有做出变化。

以AD102为例,每个GPC独立使用1个光栅引擎(Raster Engine,RE),6个TPC,2个光栅处理分区(Raster Operations partitions)。其中每个光栅处理分区包含8个光栅处理单元(Raster Operations,ROP),因此总共16个ROP。

往下一级,每个TPC内包含2个SM。

再往下一级,就是包含大量单元的流式多处理器(Streaming Multiprocessors,SM)。从Maxwell架构开始,SM之下细分出了处理块(Sub-Core)概念,AD102中每个SM包含4个处理块,每个处理块包含1个64KB寄存器堆,1个L0指令缓存,1个Warp调度器,1个调度单元,4个加载/存储单元,1个特殊功能单元(Special Function Unit,SFU)用于执行超越函数指令(比如正弦、余弦、倒数、平方根等)和图形差值算法指令。

同时每个SM还包含16个专门用于FP32的CUDA Core,16个可以在FP32和INT32之间切换的CUDA Core,因此共计32个CUDA。此外还包含1个第三代RT Core,4个第四代Tensor Core,4个纹理单元(Texture Units),256KB寄存器堆,以及可根据需求进行配置的128KB L1共享缓存。

另外示例图中没有标出每个SM其实还包含2个FP64内核,FP64的TFLOP比率是FP32的1/64,用以确保FP64代码正常运行,其中就包括FP64 Tensor Core代码。

RT Core承担着层次包围盒加速算法(Bounding Volume Hierarchies,BVH)数据结构遍历、执行射线/三角形和光线边界框求交计算,也是实时光线追踪在游戏和专业应用实装以来,负载最高的引擎。

其中包围盒碰撞由下图左侧的包围盒碰撞引擎(Box Intersection Engine)完成,射线/三角形求交测试由右侧执行。

而Ada Lovelace的第三代RT Core在第二代RT Core的基础上,额外增加了下图左下角的微映射透明度(Opacity Micro-Map,OMM)引擎和右下角的微网格置换(Displaced Micro-Mesh,DMM)引擎,具体的运作方式我们会在后面的光线追踪章节详细说明。

前面提到128KB L1共享缓存,即从Turing架构开始的统一缓存架构,取决于驱动程序或者开发者对L1缓存和SharedMemory的定义,SharedMemory目的是为了让一个Thread Block 内的CUDA Thread可以共享数据,由前面提到的Warp调度器调配。当SharedMemory被设置成0KB的时候,所有空间归L1缓存所有,也就是128KB。由于L1共享缓存与SM为1:1关系,可以推导出AD102最大L1缓存可以达到18,432KB,比GA102的10,752KB多出71.4%。

更厉害的是,Ada Lovelace相比Ampere在L2缓存上进行了翻天覆地改造,总共配置了98,304KB的L2缓存,比Ampere GA102的6144KB提高了16倍,这让光线追踪,尤其是路径追踪从中获得巨大收益,最终让第三代RT Core的射线/三角形求交测试模块数量直接翻倍。

与此同时,NVIDIA与美光的在DRAM上的合作也有了新的进展,通过电路设计和信号优化,GPU显存速度从原来的19.5Gbps提升到了GeForce RTX 4080上使用的22.4Gbps,如果像GeForce RTX 4090的24GB GDDR6X满配,则会达到1TB/s的峰值显存带宽。

最后再来说说台积电4N NVIDIA定制工艺,这是NVIDIA与台积电工程师合作,在优化GPU生产流程后定制的工艺技术,基于台积电5N改进而来。这不是NVIDIA第一次找台积电或者三星定制工艺,从台积电12nm FFN(FinFET NVIDIA定制),到三星8nm NVIDIA定制。近年来每一代GPU架构更新都伴随着台积电配合的定制工艺升级,并且随着三星、台积电在制造工艺命名上的营销奔放,数字往往比实际工艺小以表示技术先进性。正是这样的环境下,让帕特·基辛格在掌权英特尔后,把计划中的10nm++改名成Intel 7,默认了这样的行业潜规则。

抛开营销的手段,台积电4N NVIDIA定制工艺确实表现更好,直接让GeForce RTX 4090的每瓦性能空前提高,当与RTX 3090 Ti同功率运行的时候,RTX 4090将会提供超过其2倍的性能。同时RTX 4090的最高时钟频率也轻松达到了2.52GHz,后续如果经过AIC调教,达到2.8GHz以上不是问题。

综上所述,我们可以做出一个简单的汇总。完整的AD102核心包括:

18432个CUDA Core

16个ROP

144个SM

144个第三代RT Core

576个第四代Tensor Core

576个纹理单元

18,432KB L1共享缓存

98,304KB的L2缓存

2.5GHz以上的Boost频率

优化后更快的GDDR6X显存

上述硬件参数在未来一段时间中将成为GeForce RTX 40系列继续引领图形计算市场的硬件基础。当然这对巩固NVIDIA的龙头地位远远不够,接下来我们要进入GeForce RTX系列称霸的两个核心,那即是光线追踪和DLSS。

第三代光线追踪:2个新引擎,20倍提升

经过4年多的运营,实时光线追踪已经对内容创造与游戏行业产生了巨大影响,光线追踪带来的逼近真实自然光线、散射、衍射、漫反射和阴影效果提升了真实场景的还原程度,不仅对游戏提供更好的视觉体验,对行业领域的所见即所得设计感知也带来了巨大贡献。

现在内容创作者开始利用GPU来设计更复杂的模型,这样的模型往往由数百万个三角形与环境设定构成的数以十亿记的组合构成。在对付更复杂应用时,开发人员需要面临两个挑战,即:存储、渲染性能。

在特定的帧中,细节层次技术(Level Of Detail,LOD)可以减轻场景复杂性对性能的一些需求,但其实是有限的。因为LOD几乎无法控制摄像机和玩家视觉的游荡位置,以及散射光线可能会在摄像机后方发生碰撞等等离奇的情况。

在Ada Lovelace架构的第三代RT Core中,NVIDIA工程师做出了三个改变,即:

第一个,得益于缓存增加,第三代RT Core在第二代RT Core的基础上,再次将射线/三角形求交测试吞吐量。意味着射线/三角形求交测试模块由原来的2个再次增加到4个,相对Turing架构的1个射线/三角形求交测试模块翻了4倍,第二代与第三代RT Core流程变化参考如下。

第二个,第三代RT Core拥有2倍速度的透明度遍历(Alpha Traversal),这是由全新的微映射透明度引擎(Opacity Micro-Map,OMM)实现的。OMM通过减少几何图形透明度(Alpha)测试数量,最终减少着色器的透明度计算。这个新功能可以让开发人员紧凑的描述不规则形状,或者半透明物体,比如蕨类植物、栅栏,最让第三代RT Core能够更有效的执行光线追踪效率。

第三个,增加微网格置换引擎(Displaced Micro-Mesh,DMM)。这让第三代RT Core能够在节省20倍的层次包围盒加速算法(Bounding Volume Hierarchies,BVH)空间内,以10倍的速度执行BVH。DMM也是全新的单元,它用来处理RT Core本地微求交结构网格,通过使用较少的基本求交三角形来描述比以往更复杂的几何形状。

正是由于以上三点,第三代RT Core可以做到不增加处理时间或者显存消耗的前提下,实现更高效的光线追踪计算。

但这还远远不够,NVIDIA还搞了一波大的。在接近真实场景的实时光线追踪中,多样化的环境变化意味着本应重要的原始处理工作量会越来越少,反而像反色、间接照明、半透明效果的二次折射等计算会占据大量的着色器资源,让着色器忙碌在无意义的二次反射、漫反射等场景中,导致效率降低。如果不加以解决,GPU以有序性常规执行方式会非常低效。

为此,Ada Lovelace架构引入了着色器执行重排序(Shader Execution Reordering,SER)功能,能够让着色器更智能的安排每一项工作的重要程度。是的,在某种程度上,GPU也具备了乱序执行的功能。

针对上述三个引擎,这里展开分析。

微映射透明度引擎(OMM)

开发人员经常会使用纹理透明通道经济的展现复杂形状或者半透明效果,比如一片叶子用几个三角形搭配纹理透明通道(Alpha)实现复杂的形状,这样的方式也被运用到火焰这样的半透明效果中,开发人员会通过透明通道(Alpha)来表示透明度级别。

在Ada Lovelace之前,开发人员会将这个类型的内容合并到射线中,并将他们标记为不透明场景进行追踪,比如叶子射线被击中时,着色器会调用正确的求交方式,让光线简单的表现为命中或者未命中。

这时候问题就来了。当投射光线扭曲时,对于非透明对象而言,单个光线查询查询需要多个着色器调用实现,同时其他光线追踪进程会立即终止让道,导致了线程效率低下。

在第三代RT Core添加了微映射透明度引擎(Opacity Micro-Map,OMM)后,每个微三角形都会添加一个不透明状态,RT Core会通过它来解析光线与不透明三角形的交点。具体的说,一个重心坐标(Barycentric Coordinates)交点用于处理对应的微三角形的透明状态,如果不透明,记录命中并返回,如果透明,忽略交集并进行下一轮探索,如果未知,则将控制权交回给SM,通过着色器编程方式解决交集。OMM引擎用于评估三角形网格中的射线/三角形求交测试,网格大小可以是1到1,600万个,每个微三角形占用1个或2个bit,具体的图片描述可以参考下图。可以看到OMM将极大减少着色器的工作内容。

NVIDIA表示,在进行透明度遍历的应用场景中,遍历性能直接翻倍,同时性能提升幅度取决于使用情况,通常投射到透明度遍历几何体上的阴影光线会获得追到收益。

微网格置换引擎(DMM)

几何复杂性会随着每一代产品更新而不断添加,当光线追踪开始应付更为复杂的环境,追踪需求成百倍增加的时候,也意味着BVH构建时间和显存也应该成百倍增加,显然这是不可能的。这时候Ada Lovelace引入了微网格置换引擎(DMM)。

DMM主要目的就是帮助BVH加速过程中,降低存储占用和传输成本。DMM利用几何结构化表示利用空间相干性实现紧凑性,并加速细节层次技术(Level Of Detail,LOD)和轻量级渲染。在光线追踪时,DMM可以让BVH保持高效遍历。在光栅化时,则可以通过DMM使用合适的网格着色器等等。

通过下图对比可以看到,DMM将图像中不同细节分成密度不同的微网格处理,红色密度越高,细节越复杂。相反,低密度微网格区域则可以帮助着色器节省更多资源。

在DMM中,每个微网格由一个基础三角形和置换图构成,DMM会按需生成定义中的微三角形,以便解析微网格交叉点位置,并利用高密度网格来表示高解析度对象,同时将位移幅度压缩到基础三角形的置换图中。最后通过重心坐标直接寻找到微顶点位移位置。这样的处理方式是的BVH节省更多的资源,通过使用跟更少的网格完成同一个几何图形创建。

同时,DMM现在已经交付给Adobe、部分Xbox游戏工作室进行测试,通过对比中可以看到,相同的几何图形通过DMM可以实现更快的创建速度和更小的体积,从而有效节约了更多资源。

着色器执行重排序(SER)

前面已经提到,就算RT Core再强大,也抵不住越来越复杂的工作负载需求。特别是在一个场景中遇到反射、二次反射、折射、阴影等随机路径跟踪算法的时候,大量的运算资源可能都放在了不重要的路径跟踪上,反而降低了主体呈现的效率。

通常而言处理这种情况会有两种手段,一种是直接执行发散,不同线程使用不同的着色器。另一种则是反过来,在着色器中通过代码路径和数据发散,线程直接访问难以合并的缓存资源。但两种情况都会遇到光线追踪数量增多之后,效率分配不均的问题,这时候就需要引入一套调度机制了。

在Ada Lovelace中引入的这套技术被称为着色器执行重排序(Shader Execution Reordering,SER),它可以即时重新排序着色工作,以实现更好的效率和数据本地化。事实上SER并非新技术,已经被研发多年。Ada Lovelace特别的地方在于在硬件设计时考虑了SER对内存系统优化,以及更高效的线程排序工作。

SER会通过一个API由应用程序完全控制,允许开发人员直接调用,根据工作的权重进行冲寻排序。同时SER也围绕了光线追踪着色器调用提供了构建渲染器的简化办法。在本质上,SER属于Direct API继承中的一部分,NVIDIA利用对SER的硬件支持与微软或者其他公司标准图形扩展API支持实现良好的效果。

以下图的猫猫雕像光线追踪为例,当光线从左往右射入,当线程将主光线射入场景之后,击中相同物体的主光线会放到同一个着色器程序中,这时候执行效率是高效有序的。但从物体开始发生折射、漫反射之后,所产生的二次反射开始射向不同地方,执行变得混乱无序。这时候就就需要SER介入了。

SER可以区分出反射、间接照明、透明效果等二次射线,并将其重新排序,将重点分配给更重要的部分,从而提升整体光线追踪着色效率。

NVIDIA表示,SER能够在光线追踪着色器中为诸如路径追踪等发散执行提供高达2倍性能提升,在《赛博朋克2077》的性能模式下,仅SER这一步就让整体帧率提升了44%。

DLSS 3:游戏与创意内容的砝码

对于图像处理而言,神经图形学的加入,可以算是GPU、顶点着色器、CUDA之后的有一个重要里程碑,目前应用到游戏和内容创作领域最多的功能就是深度学习超采样(Deep Learning Super Sampling,DLSS)。在过去四年中,NVIDIA研究团队一直在深挖利用DLSS改善游戏的实际体验,寻找在后摩尔定律时代寻找一种仍然能保持性能高速增长的方式。DLSS 2.X进化到DLSS 3就是很好的例子。

DLSS 3运行的前提是第四代Tensor Core,第四代Tensor Core的FP16、BF16、TF32、INT8、INT4性能相对前一代提升两倍以上,并增加了商业Hopper GPU架构中出现的FP8 Transformer Engine。得益于AD102 GPU中SM处理器增加,每个SM包含了4个第四代Tensor Core数量自然也同步增加,最终实现了AI计算性能的显著提升。

让我们回到DLSS。DLSS本质是一种卷积自编码器,在DLSS 2.X时代,通过AI模型训练分析当前与过去的帧,以及几何运动矢量,通过深度学习算法将将单帧的低分辨率提升成高分辨率,让游戏帧率获得2倍以上的性能提升,特别是在2K、4K分辨率以上的游戏画面更为明显。

但这远远不够,在DLSS 3上NVIDIA团队找到了利用光流加速器(Optical Flow Acceleration,OFA)与DLSS相结合的办法,构建出了一个更为立体的分析方式,将卷积自编码器的输入源扩展到几个部分,分别是:之前帧与当下帧,由光流加速器生成的光流场、游戏运动矢量和深度等数据。

同时获得四个源之后,DLSS会将新渲染的帧与之前的帧进行比较,并考虑运动矢量与光流场信息,了解场景如何变化,从而在两者间生成一个全新的高质量帧,以增加游戏的流畅性。换而言之,AI生成帧是不需要占用GPU渲染资源,而是完全由AI计算出来的。

DLSS 3也并非传统意义上的单一技术,事实上它是一个软件与硬件协同的集合。在软件层面,DLSS 3使用AI超分辨率生成,AI生成帧,加入对NVIDIA Reflex支持。在硬件层面,DLSS 3需要在第四代Tensor Core上运行,并利用改进的光流加速器帮助DLSS 3像素级的测量场景,最后云端的NVIDIA超级计算机则夜以继日的寻找提升高质量图像的途径。上述六种软硬件结合,才最终实现了DLSS 3的高质量表现。

事实上光流加速器并非Ada Lovelace架构独占,在Turing、Ampere架构中已经包含了光流加速器并独立于CUDA Core,被用于视频帧率提升,降低VR延迟等。

在Tensor Core被运用到消费产品的前一年,NVIDIA已经在商用的Volta架构推出Tensor Core,并随后推出神经图形加速NGX API,NGX其中一项功能就是利用AI Slow-Mo人工智能慢镜,对现有视频插帧生成平滑无失真的慢镜,这项功能也随着Optical Flow SDK版本升级而达到现在的程度。

但以往的光流加速器不能像素级的捕捉画面中的粒子、光反射、阴影、照明在游戏引擎中的运动矢量信息,这让后期处理光线追踪效果变得非常困难。因为光线追踪瞬息万变,缺乏相同类型的运动矢量参考。单纯的使用时间抗锯齿算法,仅可以将前一帧像素与当前帧像素混合,会造成画面重影、卡顿和模糊情况。比如街道行驶着的摩托车倒影就难以被预测和有效处理。

到了Ada Lovelace,新光流加速器与DLSS 3搭配,能够计算出场景中的所有像素是如何从一个像素移动到另一个像素的,其中就包括阴影、光反射和粒子等光流场信息。同时通过神经网络分析,分析之前帧与当前帧,最终获得一个高清且自然的效果。

DLSS 3在光流加速器的搭配下实现了脱离GPU渲染重建高分辨率方法,让GPU渲染的部分大幅减少,以两帧为例,DLSS 3会承担起第一帧的3/4的工作和第二帧的所有工作,实际上GPU只需要完成其中的1/8的渲染即可,从而节省了大量的计算资源。

这就意味着DLSS 3能够解决很多问题,比如进一步减轻CPU的负担。比如在《微软飞行模拟器》这样的CPU高负载游戏场景中,CPU需要每一帧都进行模型调用,最终导致GPU闲置,并在CPU完成调用后再进行下一步渲染操作。在DLSS 3中,GPU可以通过AI神经网络自行生成新的帧而不再通过CPU,跳过了CPU模型调用的过程,从而直接将帧率翻倍。

同样,当DLSS 3与NVIDIA Reflex配合,系统响应也会获得进一步降低,在生成更多的帧之后通过Reflex抓住关键帧,并跳过渲染队列,从而获得更低的系统延迟。NVIDIA表示DLSS 3可以将系统延迟降低最多2倍。

为了让DLSS 3能够在游戏和应用中得到快速部署,NVIDIA已经完成了Streamline SDK对DLSS 3的集成工作,包括AI超级分辨率、AI帧生成以及NVIDIA Reflex组件。由于Ada Lovelace与Turing、Ampere的差异,DLSS 2.X与DLSS 3注定会共存上一段时间,但不会添加开发工作量。DLSS会根据硬件的支持情况启动对应的功能,比如AI帧生成是GeForce RTX 40系列独占,但之前的AI超级分辨率则是所有GeForce RTX系列都能使用,NVIDIA Reflex则是GeForce GTX 900系列以后的GPU都能开启。

基本上,DLSS 3在游戏体验最重要的三个方面,即流畅性、响应性、图像质量都给予了更高质量的保障,从而成为GeForce RTX 40系列提升游戏体验的关键功能。

AV1双编码器:直播变得更轻松

编解码器同样也是GPU升级中的重要一环,特别是对新型格式提供硬件编解码器之后,性能提升便会愈发明显,同时也可以节约通过软件编解码消耗的大量资源。在Ada Lovelace中就首次加入了AV1双编码器,这是Ampere架构加入AV1解码器之后的又一步提升。

AV1编码是由英特尔、微软、亚马逊、谷歌、网飞等头部企业根据互联网需求制定的头部企业根据互联网需求制定的下一代视频编码格式,开放并且免费。它的特点是能在相同文件体积下拥有更高清的画质,或者相同清晰度的画质下拥有更小的体积。

如果与GeForce RTX 30系列进行对比,GeForce RTX 40系列的AV1编码器能比H.264编码器效率高出40%。这意味着AV1编码器能够利用现阶段可以进行1080p串流视频的带宽,实现1440p甚至更好的画质,比如同样的带宽占用下,在哔哩哔哩可以轻松播放2K或者4K的视频,而播放4K的带宽也将可以用来播放更高分辨率的内容,前提是网站能有所提供。

AV1编码器在运算性能上对GPU也有着更高的要求,它需要通过进一步利用运动矢量来改进视频压缩性能,支持8K分辨率捕获,对显存要求也非常高。

在NVIDIA规划中,会对12GB显存以上的GeForce RTX 40系列GPU提供AV1双编码器功能,相当于将画面一分为二,两个AV1编码器共同工作,效率翻倍,从而实现8K 60FPS专业视频编辑,同时处理4个4K 60FPS视频,一台电脑完成多路4K画质60FPS输出等以前不敢想象的玩法。

在软件支持上,NVIDIA会率先与DaVinci Resolve、Adobe Premiere Pro插件Voukoder以及剪映展开合作,在GeForce RTX 40系列上市之后同步推出。

Broadcast变得更智能

最后是主播更关心的Broadcast。从2020年发布Broadcast应用开始,NVIDIA工程师团队就开始着手Broadcast SDK的推进工作,方便将Broadcast功能融入到更多直播应用中,发挥GPU更多价值,目前主流应用包括OBS Studio、罗技G Hub等。

新版的Broadcast SDK功能主要提升了虚拟背景性能,面部表情模拟,以及眼神接触。其中虚拟背景性能提升是利用了时序网络信息对画面进行高质量分割,从而更好的区分出人与物体,表面虚拟化背景不自然的出现异物。时序网络相当于动态网络与时间戳结合的产物,也就是在网络上的各个节点经过编程处理的同时加上时间戳,信息之间产生连贯性,也方便程序更好的做出判断。

面部表情模拟属于增强现实工具包的一个新功能,能够将主播的表情更好的传递给数字化的虚拟人物脸上,让虚拟人物表情更为真实,无疑是VTuber的最爱。事实上NVIDIA确实在做了,他们与顶流应用之一的VTube Studio展开合作,十月份就会同步更新对应的支持。

眼神接触很好理解,正常来说我们的眼球一般会看着屏幕而非屏幕上方或者侧方摄像头,导致我们的眼球在视频中不会正对屏幕,与观众产生交流。眼神接触可以自然的矫正这个问题,包括正确的识别眨眼,消除看提词器时候产生眼球运动等。

上述Broadcast SDK的所有功能很快就会实装到周边硬件中,目前包括罗技、海盗船Elgato都已经确认对增强效果的支持,通过软件更新,这些品牌的摄像头搭配GeForce RTX显卡就能免费获取对应的智能功能。

写在最后:制程与技术的双重进步

可以看到GeForce RTX 4090背后的Ada Lovelace架构实际上是制程工艺、软硬件技术结合的双重提升,包括第三代RT Core加入的新引擎,引入着色器执行重排序支持,第四代Tensor Core与光流加速器配合实现DLSS 3的AI帧生成,AV1双编码器提升高分辨率视频处理性能,以及Broadcast SDK的更智能表现,都展示了GeForce RTX 4090,Ada Lovelace架构的先进性。

当然这仅仅是开始,随着GeForce RTX 4090评测解禁,我们将能更直观的感受新GPU给游戏、直播、视频编辑、专业软件内容创作等质的提升,并且也能更好理解黄氏定律替代摩尔定律背后的逻辑。而所有提升的前提,都建立在GeForce RTX 40系列强大的性能支撑上。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
元宇宙,什么鬼?
轰动全国的灭鼠大案:他拒绝卖给美国配方,被专家告到身败名裂......
深切哀悼中国人民的领袖江泽民同志
一场没有硝烟席卷全球的战争-【抗击病毒-3】
这30幅画,让你看清世界真相,也更好的看清自己
上海顶级富二代饿死在豪宅,其父竟是为中国创11个第一、留巨额遗产的高官!
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服