您的位置首页产经信息 IT

RTX 3080首发评测：翻倍CUDA+三星8nm，比2080 Ti强30%！

喜欢

来源：互联网
|
2020-09-17
|
0 条评论
|
我要分享
|
T小字　 T大字

[PConline 首发评测]RTX 30系显卡可能是今年至今的硬件中最震撼玩家的一样产品，有多震撼？黄仁勋仅通过一场在家里厨房提前录好的发布会，就让当晚几乎所有的DIY玩家为之疯狂：发布会首发RTX 3090，RTX 3080与RTX 3070，三款卡中定位最低的RTX 3070，性能都能超越上代旗舰RTX 2080 Ti，而且它只卖3899元。

一夜之间，各种关于20系显卡的梗满天飞：“2080收2080 Ti”、“早上买（RTX 20），中午用，晚上气死”，不得不说这届网友的整活能力越来越强了。

不过按照日程表，看似性价比最高的RTX 3070会在10月才发售，RTX 3080则作为第一款发售的RTX 30系显卡而备受瞩目。

虽然它上面还有更加顶级的RTX 3090，但万元出头的价格，价格仅为它一半的RTX 3080对于想用高性价比体验更强显卡性能的玩家来说显然更值得入手，这次RTX 30系首测的主角就是它：GeForce RTX 3080 Founders Edition。

前排提醒：我们PConline深度合作KOL搞机猛男也在B站发了RTX 3080首发评测视频，内含十年NVIDIA旗舰显卡跨时空对决、RTX 3090核心深度揭秘等硬核内容，大家可以到B站搜索搞机猛男进行观看哦~

RTX 3080：全方位升级，比RTX 2080首发还便宜？！

升级的地方标红了，一眼下去，这张卡好像就没有没升级的地方。

首先就是NVIDIA Ampere架构，升级了二代RT Core与三代Tensor Core，提升了实时光线追踪性能。SM单元的每组数据路径里再加入一组FP32，实现每个SM单元的CUDA数翻倍。

然后采用三星8nm制程，效能跃进，最高能达到Turing架构的1.9倍能效比。

升级了GDDR6X显存，对比GDDR6，每个时钟周期能传输的数据翻倍。

首发指导价格5499元，比RTX 2080便宜了1000元，非常有吸引力的售价。

另外还有多项新技术加持，这里为了文章结构与观看体验就不过多讨论参数与架构升级之处，感兴趣的可以翻页至第10页查看。

性能实测总结：提升幅度惊人

综合了3DMark+游戏实测的数据，在无光追、DLSS的情况下，RTX 3080提升幅度非常巨大，对比上代旗舰RTX 2080 Ti甚至能领先28%，对比上代对位产品RTX 2080高达52%，性能也秒杀了对面AMD的两款高端显卡。

而在打开光追的情况下，RTX 3080的性能也非常亮眼，对比RTX 2080 Ti提升达32%，对比RTX 2080甚至超越了75%。另外通过实测发现，RTX 3080在1080P下受限于CPU，游戏的渲染帧数无法往更高提升，在2K与4K方面提升幅度更大。

RTX 3080是一款无论在传统性能，还是光追性能都获得了全面大幅提升的一款旗舰卡，它已经能满足现在绝大部分游戏4K分辨率下流畅运行的需求，再加上5499元的官方指导价，是一款对发烧玩家来说非常实惠且强劲的游戏显卡。

此处只是对RTX 3080显卡的一个简短性能总结，想了解更详细的性能对比情况请继续往后看。

RTX 3080 FE开箱：眼前一亮的超前设计

相信之前很多人都看过这代FE版的泄露图了，不过实际拿到手上与看泄露图相比，带来的震撼感是不能相提并论的。

RTX 3080 FE的包装盒大幅减少了绿色元素，取而代之的是纯黑的底色与香槟金线条的衬托。

轴流风扇

外观虽然与泄露图一样，但看着实物却能品出一番味道：外观的线条设计非常流畅，虽然正面全是黑色的散热鳍片裸露设计，但被一圈香槟金色的线条很好勾勒了起来，黑色与金色配色也相得益彰。正面左侧则是一个直径9cm的轴流风扇。

背面同样设计了一个轴流风扇，这也是这一代FE公版的设计重点所在：为了提供更强的散热效果，使用了正反两面的双轴流风扇散热方案，且为了适配这种散热方案，PCB为异形设计。

不过细心的读者可能发现，这张图的风扇扇叶表示它是逆时针旋转的，但本应扇叶是凹进去的“兜风”设计，增大风量，却设计成了向外凸出的设计（不懂我说什么的可以用自己手上的风扇对比看一下就懂了）。

如果不明白FE这种正反风扇设计是如何散热的可以看这张图，从下方吸入冷空气，一部分由后方排出（涡轮散热的散热方式），一部分则从背面排出，由机箱背部风扇抽走。

当然很多人会对这种散热方式存有怀疑，显卡排出的空气会不会影响CPU散热？经过我们实测也确认这种方式会小幅影响CPU的温度，后面再讲。

侧面则是之前讨论已久的Micro-Fit 12Pin供电接口，官方在包装内附赠了一条双8Pin转12Pin的转接线。不过说实话，这条线确实一定程度上影响装机美观程度。

电源厂商海韵、全汉与海盗船给出了12Pin模组线的解决方案，如果有购买公版的小伙伴不满意这条公版转接线的话也可以购买上述三家厂商的模组电源，它们的模组线是经过英伟达认证的，可以放心使用。

侧面则是经典GEFORCE RTX的字样，会发光，不过灯效不是RTX 20的绿色，而是纯白色，看来英伟达确实有意在这代RTX 30上减少自己的标志性绿色元素。

接口方面，RTX 20系的Type-C也不见了，FE版是3DP 1.4a+1 HDMI 2.1的组合。

拆解：紧凑，但强大

官方虽然发了一份拆解指南，不过拆解的方式实属复杂，存在拆坏的风险，正好官方也提供了拆解图，我们也不冒这个风险去拆掉这张FE版RTX 3080了，望大家谅解。

PCB正面，确实是之前得知的异形PCB设计。10颗GDDR6X显存围绕核心紧密排布，可以发现这里的13个显存位，上面空掉了两个，下方也比RTX 2080 Ti多了一个显存位。

显存隔壁则是一排供电，看着像16+2相，因为这张图上看不到供电PWM芯片所以无法判断，不过供电模块还是非常豪华的。

如无意外，这张PCB的完全体应该就是正反焊满24颗GDDR6X显存，剩余的两个空焊供电位也焊满的样子。

右侧那个弯成L型的接口就是新的Micro-Fit 12Pin供电接口，其它方面就没有要多讲的了。

散热器方面，这张图显示的是正面，可以见到有4条热管贯穿了整个散热器，整个散热器几乎都是由散热鳍片堆砌而成。两面的风扇因为热管布满整个散热器的关系，也能完全吹透整个散热器，再加上这两个是轴流风扇，能提供比较大的风压。

测试平台简介

基准性能测试

基准性能测试部分基本以3DMark测试项目为主。覆盖1080P、2K与4K分辨率，DX11、DX12与光线追踪、DLSS测试项目。

3DMark DX11、DX12部分

3DMark DX11、DX12测试小结：结果显而易见，RTX 3080一路领跑，对比上代旗舰RTX 2080 Ti提升幅度依然可观。不过仔细对比一下可以发现，提升幅度最大的项目都在4K上（Fire Strike Ultra与Time Spy Extreme），可以看出GDDR6X带来的带宽提升能提升4K分辨率下的帧数，但也能推断出1080P、2K分辨率下帧数上限已经受限于CPU了。

3DMark 光线追踪、DLSS部分

光线追踪部分小结：在第二代RT Core的加持下，RTX 3080的光追性能提升了不少，对比RTX 2080 Ti提升了31%左右，对比RTX 2080则大幅提升了77%，非常恐怖。

DLSS部分小结：DLSS依靠的则是Tensor Core的AI计算能力，同样在第三代Tensor Core的加持下，RTX 3080对比上代显卡提升依然可观，在4K分辨率下打开DLSS的效果是最可观的。

无光追、DLSS游戏测试

因为现在不支持光线追踪的游戏依然占多数，所以我们就把支持光追与不支持光追的游戏划分开对比，以下游戏测试均设置为最高画质。

无光追、DLSS游戏测试小结：由于CUDA核心数暴力般的翻倍提升，即使是在没有光线追踪效果的游戏中，RTX 3080对比上代显卡的提升依然可观。

且细看的话可以发现2K与4K分辨率的提升幅度比1080P要大不少。就如上面3DMark测试得出的结论一样，在低分辨率情况下显卡性能已经受限于CPU了，不过也证明RTX 3080具备在4K分辨率，高画质的设置下畅玩游戏的性能。

光追与DLSS游戏测试

由于RTX 30系显卡升级了Tensor Core与RT Core，近期也有不少搭载了光线追踪与DLSS的新游与Benchmark出现，这部分也是需要重点测试的。

同样，此处游戏的画质均为最高，光线追踪设置为超高，如有DLSS选项则设置为质量。因为光明记忆和边境的要求较高，DLSS选项我们调节成了性能。

光追与DLSS游戏测试小结：光追与DLSS游戏部分依然是4K分辨率下提升率最高，第三代Tensor Core+第二代RT Core加持下RTX 3080的帧数已经能满足现在的光线追踪游戏4K流畅运行的需求。

而在两个国产游戏的Benchmark上，因为新加入了不少光线追踪特效，比如最新发布的光线追踪焦散等，相比起其它游戏不是一个维度的，所以对显卡的压力是最大的，我们也将DLSS设置调整成了性能模式。不过庆幸这只是Benchmark，在实际能游玩到这些游戏时应该会有更好的帧数表现。

NVIDIA Reflex测试

NVIDIA Reflex技术是在9月2日发布会时推出的新技术，旨在降低游戏响应延迟，提升玩家的反应速度。原理是消除CPU渲染时的Backpressure（意思大概是信息发送太快CPU当掉了，要等待处理），并可立刻传送至显卡进行渲染。打开BOOST功能，还可以提升GPU频率，加快渲染。

该技术未来会支持Valorant、Apex英雄、命运2、使命召唤：战区与堡垒之夜，这次我们使用堡垒之夜进行测试。技术支持GTX 16系及以上的显卡，本次评测就使用RTX 30系为例。

我们正好有一套英伟达提供的LDAT套件，用于测试端对端（鼠标→屏幕）延迟，可以测试一下NVIDIA Reflex技术能减少多少延迟。

NVIDIA Reflex测试小结：因为要测试3种分辨率下的延迟对比，我们手上并没有4K 144Hz的显示器，所以就使用了一台4K 60Hz的显示器代替了。

综合上述数据来看，1080P分辨率下，CPU还能较好的应付渲染队列工作，但从2K分辨率开始，CPU开始受到Backpressure影响，Reflex起效，并降低延迟，虽然幅度不大，只有2ms左右。

到了4K后效果就变得显著，打开Reflex后降低了5ms左右。对部分反应敏捷的玩家来说，这项技术应该会对他们的操作体验有一定提升。

功耗、噪音、温度

一直有很多人好奇新卡的功耗表现，与双轴流异形风扇设计会不会有很好的散热效果。值得一提，公版国内可能不会有正规渠道出售，所以这页的噪音温度可能只用作参考，功耗的参考意义会比较大。

我们通过3DMark的Fire Strike Ultra压力测试来测试显卡的稳定性，HWInfo记录显卡峰值温度，PCAT套件记录峰值功耗，噪音仪实测风扇噪音。

功耗、噪音、温度测试小结：显卡的功耗确实如预想一样非常高，测试场景的峰值功耗达到了362.7W，比之前公认的电老虎Radeon VII还要高40多W。

但对比温度，RTX 3080的峰值温度并没有太高，78°C，比RTX 2080 Ti还低2°C，反而最高的是RX 5700 XT，直飚90°C。

更离谱的是，六款显卡中噪音最低的竟然是RTX 3080，实测48.3dB的噪音在六款显卡中是最低的，新设计的散热器无论是散热性能还是噪音控制都是非常优秀的。

稳定性方面，RTX 3080能刚好通过稳定性测试，稳定性最高的是Radeon VII。

PCIe 4.0测试

RTX 30系称全系使用上了PCIe 4.0协议，但实测下来对显卡性能其实没有多大影响。

我们使用了AMD与Intel两套比较新的平台测试3DMark，对比出来的性能差距已经可以当没有了，PCIe 4.0更多的应用场景会在英伟达新的RTX IO技术中，后面会讲这个技术是干嘛用的。

所以在用Intel 9代酷睿或者10代酷睿的朋友现在无需担心PCIe 3.0会影响RTX 30显卡性能。

650W电源极限烤机

在我拿到显卡后有很多人问我650W电源能不能带，因为这个功率的电源在前两年是中高端机中比较热销的一款，不少用着650W的用户想更换RTX 3080，比较担心功耗问题。

按照实际情况使用的话，要考量到极端情况，比如游戏中功耗不是恒定的，而是频繁跳动的，这时因为GPU BOOST的关系，必然出现高于常理的功耗值。

此处我使用了鑫谷全模750这款650W的电源，299元650W应该能称得上平民电源。

打开AIDA64对CPU进行Stress FPU烤机，打开FurMark，设置1080P，关抗锯齿，关动态背景，打开Xtreme Burn-in，并在测试期间按着空格让中间的圈圈不停闪烁，此时对显卡以及电源的负载程度是非常大的。

最后PCAT测得显卡峰值功耗398W，AIDA64读取CPU功耗206W，因为功耗波动太快的关系我们无法读取到总平台的峰值功耗。

加起来604W，是不是就代表650W够了吗？未必。

首先这里只读取到CPU和显卡，如果把其他杂七杂八的硬件加起来，几十瓦是有的，所以这里可能已经碰到了650W的额定功耗。

其次就是，装机时选电源留余量对稳定使用有很高的必要性，我们也不建议按照整机峰值功耗来选择额定功耗刚刚好的电源来装机，起码要在峰值功耗的基础上再加100W才算稳妥，那就是750W起步。

当然如果你主机除显卡外其他硬件的功耗才100W，整机功耗500W，那650W也应该是能用的，这里只是给不打算冒险的朋友提个醒，如果清楚自己整机功耗是多少的完全可以根据自己需求选电源。

超频测试：超了还反向提升

用了新的三星8nm制程，超频能力就要好好考量一番，没准还能摸到奖白捡性能。

不过实测下来，显卡的超频能力也不太理想，通过MSI Afterburner拉频率，核心频率只能拉高80MHz，再拉就会黑屏了。得分11032，比默频的10990就高了一丢丢。

显存可以拉高800MHz，达到9502MHz，不过成绩也和默频差不多。

总体来看，默认用就差不多了，虽然显存非常能超，但目前来看并没有带来太大收益，可等后续软件优化跟进后再尝试。

装机散热测试

接着文章开始的话题，公版的这种散热到底会不会影响到CPU的散热？从官方的风道模拟图来看，后部风扇排出的热风直接穿过CPU所在位置，那势必会给CPU区域“加热”，而经过实测也确实是会出现这种现象。

风道大致符合官方示意图

我们将堡垒360EX水冷换成了猫头鹰NH-D15S来测量CPU温度，采用三种测试情况来对比：单烤CPU、双烤不挡显卡风扇与双烤挡显卡风扇，将平台装进九州风神CL500机箱，合上侧板，并将机箱风扇与CPU风扇转速拉满。

单烤CPU

单烤CPU，最高温84°C，显卡待机时候只有26°C。

双烤CPU+显卡，不挡显卡风扇，显卡风扇转速60%

双烤的时候CPU温度明显提高，到达91°C，显卡温度满载提升至65°C。

双烤CPU+显卡，挡显卡风扇

挡顶部风扇的方法稍微“硬核”了一些，直接用盒子盖住了。

把显卡风扇盖住，温度也回复至单烤CPU的状态，CPU为84°C，显卡温度从双烤的65°C上升至71°C。

装机散热测试小结：公版的这种方案虽然能将体积做小，并能拥有非常强劲的散热效果，不过显卡排出的热风也确实会通过这种风道给CPU“加热”，并从后方风扇排出，7°C的温度差距也不容忽视。

但平时用的时候一般不会遇到显卡CPU双满载的情况，如果是使用水冷的用户也不用太担心显卡热量会给CPU造成负担，非公采用的都是单面风扇，侧面排风的设计，所以选择买非公版卡的大家也不用太担心新卡会通过这种风道影响CPU散热。

PConline评测室总结：从不满，到惊喜，只需两年

RTX 30系，已经是GeForce显卡诞生以来，对比上一代性能提升幅度最大的一个系列。

先看传统性能方面，提升幅度是非常显而易见的，RTX 3080能超越上代旗舰显卡RTX 2080 Ti 28%的性能。

然后再看光线追踪与DLSS方面，新技术方面的提升依然可观，对比RTX 2080 Ti也高达32%。

而按照分辨率对比，4K分辨率下的提升是最大的，其次是2K，最后是1080P，无论是传统性能还是光追+DLSS都是如此。看来RTX 3080显卡的领域已经不仅限于1080P与2K，但也反映出一个问题：1080P下显卡的性能已经受限于CPU，帧数无法再拔高了。今年的Zen 3处理器搭配RTX 30系显卡会有怎样的性能表现，估计会很有看头。

1、从“能玩”到“玩爽”光线追踪，RTX 30系做到了。

如果说RTX 20系对实时光线追踪的试水被玩家诟病“鸡肋”，食之无味弃之可惜，那RTX 30系就好比一根烤鸡腿，香喷喷够过瘾。曾经想着要很久后才能畅玩的光线追踪，也终于能在RTX 30显卡上实现了。

RTX 20系显卡上，独占且大力推广的RTX虽然能让光线效果更真实，但即使有DLSS的支持，逃不过的就是运行效率低下，且实际体验并没有预期那么理想，习惯了光栅化渲染光线效果的玩家感觉并无太大变化，很多买了RTX 20系的玩家也表示不是奔着光追去买的新卡。再加上当时支持光线追踪的游戏数量并不充足，显卡价格也普遍较贵，让RTX 20系的销量一度低迷。

不过我们也非常庆幸RTX终于迎来了30系列，第二代RT Core与第三代Tensor Core终于能跑起实时光线追踪，RTX 3080也对得起它旗舰显卡的定位，在现在支持光线追踪的游戏中4K跑60fps的光线追踪已经毫无压力。

其实我们可以回想一下18年11月首发RTX 20系的时候，那时光线追踪游戏只是PPT阶段，我们当时能测试光线追踪的程序也只有一个DEMO，但在这两年间光线追踪游戏陆陆续续多了起来，部分游戏只要肯牺牲一些画质，还是能将光线追踪跑在60fps的。

两年内RTX 20系已经实现了光追游戏从看PPT到可以玩，那RTX 30系你也大可以放心相信英伟达，起码今年搭载光线追踪的大作《赛博朋克2077》是不会让你失望的。

2、5499元就能拥有比RTX 2080 Ti强的性能，买不买？

值不值得买，更多的是看需求，买一张旗舰卡回去玩低配网游，只能证明你可能过于有钱。

注意看了，下面是给你们的选购建议：

如果你是GTX 10系或更旧款显卡用户，对于3A大作有一定要求，今年觉得性能不够想换显卡，大可放心直接买RTX 30系新卡，具体选什么卡可看自身预算，首发的RTX 3070、RTX 3080与RTX 3090都不会让你失望；

如果你是RTX 20系早期用户，即是购入RTX 20显卡一年以上的用户，直接把显卡卖掉，购入新显卡也不算太亏，短期内如果你在显卡这里不想再花钱，可以等到下年的购物节（如618、双11，或者电商自己组织的优惠节日）再考虑换卡，RTX 20系显卡的战力还可以支撑至下一年；

如果你是RTX 20系末期用户，即2020年内购入显卡的用户，你现在有两个选择：一是趁保修期还比较长立刻卖掉换新卡，二是安慰自己，当没事发生，用到自己觉得不行了再换。

如果你是新装机的用户，玩3A，比较吃配置的网游（如FF14），想追新游戏的，直接买RTX 30系；如果是纯网游玩家，只玩LOL、DOTA2或者其它不怎么吃配置的游戏，GTX 1660 Super就够你玩两三年了。

3、8K还是科幻，游戏还是4K 144Hz比较实际

虽然RTX 30系标配了HDMI 2.1接口，除了DP接口之外显卡的HDMI接口终于也支持8K@60Hz输出了，但现在看实际使用意义不算太大，大可能还是接电视上用。英伟达的发布会上8K演示还是RTX 3090接电视机上演示的，也可能是英伟达打算和新一代游戏主机（PS5、XBOX Series X）抗衡的一项特性。

搜了一波电商，8K显示器貌似只有戴尔有，UP3218K，卖3万，而且还要接两条DP线才能正常用。

8K电视就比较多，但价格差距也是一个天一个地，最便宜的长虹55D8K只要4399元就可以抱回家，贵的索尼Z9G、三星Q900卖到快50万了。

想来想去，能用到8K的场景非常少，家里接8K电视放电影、打游戏可能是我想到比较合理的8K使用情景，但想要好的体验还是需要购置显示效果好的电视，加起来花费也不少。户外的广告牌可能也是适用情景之一，用来直接输出8K AV1编码格式视频，展示的效果可能比拼接屏幕要好一点。

反正目前8K分辨率打游戏，对大家来说还是比较科幻的存在，想在电视上看8K电影的话片源也比较少，设计领域应用可能会更广（例如后期剪辑8K视频、修图）。

相对于不太现实的8K分辨率，4K 144Hz可能是RTX 30系未来用来打游戏比较合理的一个使用场景，目前在售的4K 144Hz显示器也不多，但价格还可以接受，泰坦军团的4K 144Hz 4599就可拿下，追求信仰的话还可以选ROG XG27UQ。

4、超频：显存可拉，其他建议等软件完善再操作

除了Intel还在宣传“超5G”，内存超频因为CJR与E-Die等颗粒被发掘而引起注意之外，基本很多硬件都处于出厂灰烬的情况了。

RTX 30系经过我们测试，至少是在目前，除了GDDR6X显存理论上是能达到更高的频率，核心上还不能看到太多能大幅超频的迹象。建议买到显卡的朋友默认用就好，可以尝试拉一下显存频率，更多的超频方式就建议等一两个月后软件完善后再尝试超频。

5、公版虽好，但国内不卖？

这次公版显卡其实有两版PCB：一版就是这次你们看到的异形PCB，用在FE版上，一版则是提供给AIC用于设计，或者直接量产的PCB。

其实在之前的显卡里，英伟达给FE版安排特制PCB与用料设计已经是众人皆知的事了，只不过这次做得更加激进，直接用上异形PCB，且各方面表现都非常出色，尤其是新散热器，在合理的体积里能提供惊人的散热效果。

但大家最喜欢的公版，这次可能不在国内卖了，理由也比较复杂，这里就不多说了。

其实如果公版一出，可能就没人买AIC的卡了，毕竟公版这设计和售价估计谁都抵挡不住。

NVIDIA Ampere架构与RTX 30系显卡详解：大幅性能提升是怎样来的？

CUDA核心再改，实现翻倍CUDA数？

三张显卡发布后，大家最热议讨论的应该就是CUDA核心数了，还记得同事最深刻的一句感叹：“有生之年我想看到CUDA数能做到一万，结果没想到这么快就来了。”

确实，RTX 3080虽然算是RTX 2080的对位产品，但按官网规格来看，CUDA数却直接多了快两倍了，对比RTX 2080 Ti也几乎翻倍，这两年里英伟达技术进步快得这么离谱了吗？

Turing架构SM单元示意图，图中FP32区域每个小框框=1个FP32单元

先讲讲CUDA怎么算的：CUDA数=FP32单元数。

一直以来CUDA核心数的计算方式是一个SM模块下的FP32运算单元个数，在我们固有印象中，INT（整数运算单元）和FP（浮点运算）组合才算是一个处理器单元，但因为大部分运算性能（比如游戏计算）主要考察FP32单元性能，所以老黄从Fermi架构开始，其实就直接用FP32单元=CUDA核心这样的计算方式，沿用至今。

以Turing示例，每SM单元有64个CUDA核心，看上图数FP32的格子就能数出64个FP32单元。

NVIDIA Ampere架构图，FP32+INT32同步运算

而到了这代NVIDIA Ampere架构后，布局结构与Turing是差不多的，中间的一组数据路径依然是全FP32单元设计，而左边的数据路径则变成了“FP32+INT32”，对于新SM单元是怎么工作的，英伟达内容与技术副总裁Tony Tamasi在Reddit上作出了解释：

Tony Tamasi：

（红线部分）一组数据路径包含16组FP32 CUDA核心，每个时钟周期可以执行16条FP32指令；

另一条路径包含16个FP32和16个INT32核心。

得益于新设计，每个SM单元里的分区可以选择在每个时钟周期内执行32条FP32指令，或者是16条FP32+16条INT32指令。

换算下来，一个SM单元可以在每个时钟周期执行128条FP32指令，是Turing架构的两倍。或者是，每个时钟周期执行64条FP32+64条INT32。

RTX 3080核心示意图，总共68组SM单元

128个FP32，那相对于Turing，每个SM单元的FP32数量就是翻倍了。而按照FP32=CUDA核心数的计算方式，那也确实没错，68组SM单元x每单元128个FP32=8704，就是官方标称的CUDA核心数了。

那么，CUDA核心翻倍，是否意味着性能翻倍呢？如果纯理论FP32计算的时候，是的。但在游戏中，虽然FP32用得很多，也有包括INT在内的多种运算情况，十分复杂。所以游戏里两倍性能提升几乎不可能存在。

话说回来，在官网上看到NVIDIA Ampere架构的简介，写的是“2倍FP32吞吐量”，而不是直接标注两倍FP32数量，估计是考虑到翻倍可能会曲解意思，毕竟只有单独计算FP32时才能有翻倍的性能。

不过这种FP32翻倍的设计能大大提升运算效率，且在实际应用场景中能在不少地方体现出来，也是这次NVIDIA Ampere架构GPU能大幅超越上代Turing架构GPU的主要原因。

三星定制8nm制程，芯片效能跃进

英伟达似乎很久没有提升它们显卡的工艺技术了，从Pascal的TSMC 16nm，到Turing的12nm FFN（其实算是16nm的改良版），相比于AMD从GF 12nm提升至TSMC 7nm，英伟达这边的产品并没有太大的工艺提升。

虽然NVIDIA Ampere架构升级工艺是板上钉钉的事，但英伟达首先给我们放了个烟雾弹：5月份发布的GA100使用的是TSMC 7nm工艺，让大家以为RTX 30系显卡使用的是一样的工艺。等到发布会，大家才知道用的是三星8nm工艺。

虽然书面上是三星8nm，但实际上它是三星10nm工艺改良而来。

图源igor's LAB

RTX 3080（GA102）628mm²的芯片尺寸内塞进了280亿个晶体管，与之相比的是上代的RTX 2080 Ti，则是754mm²内，只有186亿个晶体管，密度几乎翻倍，而对比采用了TSMC 7nm的GA100，826mm²的面积里塞下了540亿个晶体管。

下面简单换算一下：

GA100的晶体管密度在6537万/mm²左右，GA102是4458万/mm²左右，而TU102则是2466万/mm²左右。

三种工艺的晶体管密度差距比较大，不过三星8nm对比TSMC 12nm FFN也有非常大的提升。

升级了工艺，肉眼可见的提升就是提频，不过因为GPU BOOST技术的存在，在加速的情况下两代的核心频率其实差不了太多。

另外就是能效比方面，看上面的图，官方称在60fps时，NVIDIA Ampere能达到Turing的1.9倍能效比，实现同样的性能，前者只需120W多点的功耗，后者则要240W的功耗，并且温度低了3°C，噪音还能减少2dB。

对比AMD的暴力激进工艺提升（GF 12nm直接升级至TSMC 7nm），英伟达这边显然放缓了一下脚步（只从TSMC 12nm FFN升级至三星8nm），虽然晶体管密度提升非常可观，但没有用上7nm还是让人觉得有些惋惜，当然这也可能与TSMC 7nm的产能有关。

升级GDDR6X，比肩HBM2显存带宽

GDDR6X显存也是RTX 30系新卡算力大幅提升的关键因素之一，在更高分辨率、更高光追特效这些高压应用场景下，显存的容量和带宽都很容易成为计算的瓶颈，所以NVIDIA也首发应用了美光GDDR6X显存。GDDR6X的升级重点是加入了PAM4，可以大致理解为每周期传输的数据量翻倍。

GDDR6与GDDR6X眼图

官方提供的眼图中可以看到，因为拥有4种电平（以250mV为步进），对比于GDDR6只能发送两个二进制数据（上升沿和下降沿），GDDR6X可以在每个时钟周期发送四位二进制数据。

按照19.5Gbps的显存频率来计算，GDDR6X能提供最高936GB/s的显存带宽，非常接近HBM2的1TB/s带宽，对比RTX 2080 Ti上的GDDR6带宽提高了52%。

使用上GDDR6X，显存带宽可以提升至HBM2的水平，但也不用花费HBM2那么多的成本和技术，对消费级显卡来说是一大利好。

Tensor Core与RT Core齐升级，光追不再是鸡肋

光线追踪是RTX 20系主打的新技术，它开启了一个画质的新维度，能制造出传统的光栅化渲染无法比拟的光线效果，但很明显的缺点就是显卡的性能比较难应付当时的光追游戏，游戏表现的光追效果不太明显。

影响实时光追性能的主要是RT Core，第一代RT Core可提供34T的RT性能，而Tensor Core可提供DLSS处理能力，能提供89T的性能，还有一个是传统的SM单元，提供11T的FP32计算能力。

在NVIDIA Ampere架构中，三种单元的性能都获得了大幅度提升，首先是之前介绍的SM单元，FP32计算性能提升至30T，幅度2.7倍；然后是RT Core的RT性能提升至58T，幅度是1.7倍；最后是Tensor Core的Tensor性能提升至238T，幅度2.67倍。

而虽然RT Core能大幅提升实时光线渲染能力，但在RTX 20系上，只打开光线追踪的性能表现依然不理想，这时就要AI核心Tensor Core提供的DLSS来让运行效率再提升了。

Turing架构渲染时间

在Turing架构的RTX 2080 Super中，使用RT Core渲染一帧图像为19ms，传统着色器为51ms，渲染速度提升了2.68倍。而在打开DLSS后，渲染速度缩短至13ms。

NVIDIA Ampere渲染时间

在NVIDIA Ampere上，同样是使用RT Core+Tensor Core，RTX 2080 Super需要13ms，而RTX 3080可以缩小至7.5ms，而通过新的并行处理技术，SM、RT Core与Tensor Core可以同时工作，渲染时间更是能缩短至6.7ms，对比RTX 2080 Super提升高达94%。

而通过实测，RTX 3080已经能在绝大部分游戏中，满足4K分辨率下光线追踪效果拉满并维持60fps以上帧数的条件，从“能玩”到“可以玩”，RTX 30系已经实现。

PCIe 4.0、HDMI 2.1、RTX IO、Reflex……

PCIe 4.0首发于X570主板，并在去年AMD的RX 5000系显卡上适配，但即使是系列里最强的RX 5700 XT，其性能也完全用不上PCIe 4.0 x16的带宽。

这次的RTX 3080，虽然支持PCIe 4.0，但理论性能也不能跑满通道带宽，这里的PCIe 4.0其实是为以后的RTX IO做铺垫。

显卡要渲染游戏图像，传统方式需要经过如图上复杂的路径，这样会频繁调用CPU与内存，这些硬件很有可能会造成瓶颈，且数据传输速度会受限于PCIe通道速度。

为了避免这种瓶颈，NVIDIA开发了RTX IO技术，能够让GPU直接从SSD中调用素材，既节约了CPU的占用，也提高了效率，而采用PCIe 4.0通道，就能直接把这条通道的带宽翻倍。

从官方DEMO的展示来看，RTX IO的提升幅度非常大，对比使用PCIe 4.0 SSD，24核线程撕裂者的配置，RTX IO解压只需1.5秒，而前者最快也要5秒。

不过目前的问题是，RTX IO技术需要游戏独立研发支持，像DLSS、光追技术一样，得花额外的研发与推广成本。

另外还有HDMI 2.1显示输出接口，如果你未来想体验8K的游戏画面，那你需要用上RTX 3090显卡、HDMI 2.1线缆、以及HDMI 2.1标准接口的显示器，缺一不可，因为它的传输带宽相比原来的标准也是提高了不少，反正短期来说依然是土豪的玩意。

最后还有一个比较重要的技术是NVIDIA Reflex，简单理解就是一项能降低延迟的技术，能减轻CPU负载，让渲染队列即时进行，并可智能提速核心频率。在电竞游戏中这项技术能起到较大作用，能提升玩家，甚至电竞选手的反映速度。

非公显卡外观大赏，你最爱哪款？

国内能买到的基本都是非公卡了，这里我整理了一些AIC显卡的外观图，看看你最喜欢哪款？（排名不分先后）