NVIDIA公布帕斯卡架构白皮书
(原标题:nvidia公布帕斯卡架构白皮书:gp100规格完全曝光)
关于下代架构“帕斯卡”(pascal)的产品,nvidia目前只宣布了一款大核心的高性能计算卡tesla p100,其他各种geforce游戏卡都还得等一段时间,不过近日,nvidia很慷慨地公布了一份帕斯卡架构白皮书,几乎完全公开了gp100核心与tesla p100的各种规格。
gp100是帕斯卡家族的旗舰核心,预计桌面上的gtx 1080 ti、新版gtx titan x也会使用它。
它采用台积电16nm finfet工艺制造,集成了153亿个晶体管,比麦克斯韦gm200多了超过90%,核心面积达610平方毫米,只比28nm工艺的gm200大了区区9平方毫米。
完整的gp100核心拥有60个sm(流式多处理器)单元,tesla p100只开启了其中的56个。每个sm单元内有64个fp32单精度cuda核心(麦克斯韦、开普勒架构分别有128个、192个),总计3840个。
每个sm单元分为两部分,每部分有32个fp32 cuda核心、一个指令缓冲器、一个warp调度器、两个分派单元。
gp100核心每个sm单元的cuda核心数量虽然只有麦克斯韦架构的一半,但是拥有相同的寄存器文件尺寸(256kb),支持类似的warp和线程模块。
gp100核心的每个sm单元内还有32个fp64双精度cuda核心,总计1920个,是单精度的1/2,这种比例可以更好地配合gp100核心新的数据路径配置,更高效地处理双精度负载。
gp100核心还有统一的4096kb二级缓存,超过开普勒gk110 1536kb、麦克gm200 3702kb,可以减少对gpu dram的请求,从而降低整体功耗、内存带宽,提升性能。
整个核心还配备了240个纹理单元。
tesla p100计算卡拥有3584个fp32单精度、1792个fp64双精度cuda核心,核心基础频率1328mhz,加速频率高达1480mhz,峰值单精度性能10600gflops,比起上代提升了足足55%,而双精度性能也达到了5300gflops,是开普勒架构的3.2倍,更是麦克斯韦架构的25.2倍。
它搭配了4096-bit hbm2高带宽显存,容量16gb,热设计功耗300w。
500)this.width=500' align='center' hspace=10 vspace=10 alt='nvidia公布帕斯卡架构白皮书:gp100规格完全曝光'>
tesla p100计算卡
500)this.width=500' align='center' hspace=10 vspace=10 alt='nvidia公布帕斯卡架构白皮书:gp100规格完全曝光'>
三代架构顶级计算卡规格对比
500)this.width=500' align='center' hspace=10 vspace=10 alt='nvidia公布帕斯卡架构白皮书:gp100规格完全曝光'>
gp100核心架构图
500)this.width=500' align='center' hspace=10 vspace=10 alt='nvidia公布帕斯卡架构白皮书:gp100规格完全曝光'>
gp100 sm单元架构图
500)this.width=500' align='center' hspace=10 vspace=10 alt='nvidia公布帕斯卡架构白皮书:gp100规格完全曝光'>
gp100核心与hbm2显存堆叠示意图
关于下代架构“帕斯卡”(pascal)的产品,nvidia目前只宣布了一款大核心的高性能计算卡tesla p100,其他各种geforce游戏卡都还得等一段时间,不过近日,nvidia很慷慨地公布了一份帕斯卡架构白皮书,几乎完全公开了gp100核心与tesla p100的各种规格。
gp100是帕斯卡家族的旗舰核心,预计桌面上的gtx 1080 ti、新版gtx titan x也会使用它。
它采用台积电16nm finfet工艺制造,集成了153亿个晶体管,比麦克斯韦gm200多了超过90%,核心面积达610平方毫米,只比28nm工艺的gm200大了区区9平方毫米。
完整的gp100核心拥有60个sm(流式多处理器)单元,tesla p100只开启了其中的56个。每个sm单元内有64个fp32单精度cuda核心(麦克斯韦、开普勒架构分别有128个、192个),总计3840个。
每个sm单元分为两部分,每部分有32个fp32 cuda核心、一个指令缓冲器、一个warp调度器、两个分派单元。
gp100核心每个sm单元的cuda核心数量虽然只有麦克斯韦架构的一半,但是拥有相同的寄存器文件尺寸(256kb),支持类似的warp和线程模块。
gp100核心的每个sm单元内还有32个fp64双精度cuda核心,总计1920个,是单精度的1/2,这种比例可以更好地配合gp100核心新的数据路径配置,更高效地处理双精度负载。
gp100核心还有统一的4096kb二级缓存,超过开普勒gk110 1536kb、麦克gm200 3702kb,可以减少对gpu dram的请求,从而降低整体功耗、内存带宽,提升性能。
整个核心还配备了240个纹理单元。
tesla p100计算卡拥有3584个fp32单精度、1792个fp64双精度cuda核心,核心基础频率1328mhz,加速频率高达1480mhz,峰值单精度性能10600gflops,比起上代提升了足足55%,而双精度性能也达到了5300gflops,是开普勒架构的3.2倍,更是麦克斯韦架构的25.2倍。
它搭配了4096-bit hbm2高带宽显存,容量16gb,热设计功耗300w。
tesla p100计算卡
三代架构顶级计算卡规格对比
gp100核心架构图
gp100 sm单元架构图
gp100核心与hbm2显存堆叠示意图
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186
- 标签:
- 编辑:崔雪莉
- 相关文章
TAGS标签更多>>
网站热点更多>>
热网推荐更多>>