NVIDIA's Legendary RIVA TNT (NV4) Makes Gaming History with 16MB VRAM: Rewriting the Rules in October 1998!
RIVA TNT是nVIDIA研发的显示芯片,核心代号NV4,于1998年10月发布。这个系列被称为“3dfx的终结者”。TNT是TwiN Texel的意思。 TwiN Texel就是拥有2条32位像素流水线的架构,每条流水线有1个TMU,每个周期可并行处理两个像素,所以显示核心时脉达90MHz的RIVA TNT填充率能达到250M Texels/s;同时它还首次拥有24位深度缓冲,并拥有16MB显存。
扩展阅读
NVIDIA的目标是让RIVA TNT的效能能达到3dfx Voodoo2的两倍。
但受制于0.25微米制程还没有成熟,RIVA TNT的制造工艺是0.35微米制程。这令到核心频率比原先预计的110MHz大幅降低,只有90MHz,在这一频率上RIVA TNT的综合效能并不及Voodoo2。
RIVA TNT是当时最快的显示核心之一,多间显卡厂商都加入了NVIDIA阵营,包括德国的Elsa和美国的Canopus,使RIVA TNT的综合性能虽然略逊色于Voodoo 2,但依旧实现了商业上的成功。
同期,NVIDIA成为OpenGL architecture Review Board(OpenGL ARB)的成员。后来,NVIDIA意识到驱动程式的重要性,开始为RIVA TNT编写全新的驱动程式,这就是著名的“雷管”(Detonator)。
AMD于2020年11月16日发布全新架构计算卡Instinct MI100,AI性能暴涨7倍
Instinct MI100 是其迄今为止性能最高的HPC GPU,FP64双精度浮点性能首次突破10TFlops(也就是每秒1亿亿次),并在架构设计上专门加入了Matrix Core(矩阵核心),用于加速HPC、AI运算,号称在混合精度和FP16半精度的AI负载上,性能提升接近7倍。
扩展阅读:
Instinct MI100 集成多达120个计算单元、7680个流处理器,搭配32GB HBM2,带宽高达1.23TB/s,同时支持PCIe 4.0,集成Infinity Fabric x16高速互联通道,峰值带宽达276GB/s(相当于PCIe 4.0 x16的大约4倍),而整卡功耗控制在300W。
计算性能方面,FMA64/FP64双精度为11.5TFlops(每秒1.15亿亿次),FMA32/FP32单精度为23.1TFlops(每秒2.31亿亿次),FP32 Matrix单精度矩阵计算为46.1TFlops(每秒4.61亿亿次),FP16 Matrix半精度矩阵计算为184.6TFlops(每秒18.46亿亿次),Bfloat16浮点为92.3TFlops(每秒9.23亿亿次)。
如今的一块卡,就相当于20年前的一个大规模计算集群!
AMD上代计算卡Instinct MI50采用的还是Vega 20核心,60个计算单元,3840个流处理器,32GB HBM2显存带宽1TB/s,Infinity Fabric总线带宽92GB/s,功耗300W。
Instinct MI100的核心规模翻了一番,显存带宽提升了超过20%,Infinity Fabric带宽提升了整整2倍,但是功耗却完全没变(工艺应当也还是7nm),新架构的能效可见一斑。
新卡的性能更是不可同日而语,FP64双精度、FP32单精度性能均提升74%,FP32矩阵性能提升接近2.5倍,AI负载性能更是几乎7倍的飞跃。
在美国能源部旗下的橡树岭国家实验室,AMD MI100计算卡已经在支撑多项百亿亿次科研项目,涉及NAMD分子动力学模拟、CHOLLA星系形成研究、PIConGPU激光放射癌症疗法、GESTS流体动力学等等诸多前沿科技。
AMD Instinct MI100计算卡还有一个绝佳搭档,那就是AMD自家的霄龙数据中心处理器,慧与、戴尔、超威、技嘉等多家行业巨头都有提供这种双A方案。
当然了,只有硬件,是做不成高性能计算的,AMD同时一直在推进一站式软件解决方案ROCm。
从2016年初入江湖的1.x版本,2018年奠定基础的2.0版本,到2019年专注于机器学习的3.0版本,再到如今最新的4.0版本,AMD ROCm已经打造成了一整套针对机器学习、高性能计算的百亿亿次级开发方案,规划中的各项功能特性也基本都已经实现。
软件优化的力量无疑是巨大的,可以充分释放硬件潜力,比如说上代MI50,搭配ROCm 3.0的话性能相比于搭配ROCm 2.0可以提升3-4倍,而最新的MI100、ROCm 4.0联合,更是可以轻松带来5-8倍的性能提升。AMD ROCm生态的进步速度非常快,已经有众多领域的头部厂商采纳和支持,而且它沿袭了AMD一贯的原则,那就是完全开源开放,非常方便代码迁移,比如说HACC(宇宙学)只用了一个下午,SPECFEM3D(地震学)半天就搞定,CHOLLA(天体物理学)花了几天,QUDA(量子物理学)也不过21天。
2G独显与4G独显:性能升级带来的巨大突破
同显卡芯片型号情况下,2G独显和4G独显的区别在于显存容量大小。
显存的作用是用于存储显卡芯片已经处理或即将提取的渲染数据,与电脑内存一样,是暂时性存储图形数据的部件。
显存大小会一定程度上影响显卡芯片的性能,尤其是在处理大量渲染数据时,更大的显存容量可以更快地完成数据传输,更及时地响应图形信息。4G显存是2G显存的2倍,在数据量超出2G后,单位时间内,4G显存显卡处理速度比2G显存显卡更快。
因此在预算允许的情况下,推荐用户选择显存容量更高的显卡。
复制本文链接 攻略文章为肉团资源网所有,未经允许不得转载。
-
威盛电子(VIA)正式宣布并购S3 Graphics
肉团资源网 2024-10-04 00:04
-
win11使用过期的或不安全的TLS安全设置的解决方法
肉团资源网 2025-03-05 14:01
-
Hype, the League of Legends Player: A Rising Star on the E-Sports Horizon
肉团资源网 2024-10-06 04:10
-
华为儿童手表 5X:轻松实现智能互动,助你在2023年与孩子无时无刻相伴
肉团资源网 2024-11-20 16:57
-
Win11系统浏览器无法联网怎么办
肉团资源网 2025-04-20 08:01
-
索德 M5爆料:即将发布全新型号,重磅亮相!
肉团资源网 2025-04-21 09:01