整合显存是未来 从Intel及NVIDIA说起
《中无通讯》第71期 文︰ 世界网络 www.linkwan.com 林和安 小洛夫论现今厂商提升晶片性能的法门,以架构的更新获利最大,这便离不开新增更多功能、提升时脉之类。然而,新增功能需要投入大量的研发及测试时间,提升时脉则大大增加功耗,同样不是短时间内能上马的灵单妙药。于是厂商们另辟途径,尝试整合内存以加快处理数据速度,这在CPU上已是每代产品的指定动作,最近开始为GPU厂商所取用。
Intel最早整合eDRAM
对于GPU厂商来说,由于采用与CPU不同的架构; GPU架构重平行计算,可直接通过增加核心的数目来直线提升性能,这点与CPU重视执行效率不同。NVIDIA GeForce GTX TITAN X内建3072个CUDA Cores,相当于整合3072个小CPU核心,这在CPU上是不可思议的事情。同样对于GPU来说,也没必要采用CPU动辄8MB以上的快取记忆体。现时整合L2 Cache最大的NVIDIA Maxwell也不过是2MB,可见两者设计上的不同。不过,在GPU与CPU设计最终会走在一起,在2013年,Intel成功把128MB eDRAM整合到Intel Iris Pro Graphics显示核心去,自始宣布GPU整合显存的开始。
为何选择eDRAM
在介绍Intel Iris Pro Graphics前,笔者想先为大家介绍甚么是eDRAM。eDRAM全名Embedded DRAM,简单来说是把现在DDR整合到SoC。有别于CPU/GPU一般采用的SRAM,DRAM的特点是结构简单、容量大(理论上是SRAM的6倍),但缺点是需要定时刷新(Refreshing)数据,会增加功耗。对于Intel来说,在22nm制程下,每Cell bit的面积在SRAM为0.108um2,而在eDRAM不过是0.029um2,相当于提升3倍多的容量,足以抵消其缺点。虽然如此,但据Realworldtech分析,在22nm制程下,Intel为了128MB eDRAM需要额外60mm2的面积,相当于增加50美元的成本,十分可观。(原文请见http://www.realworldtech.com/intel-dram/2/)
Intel Iris Pro Graphics这品
2013年Intel发布新一代Haswell架构CPU,同时推出高档整合显示核心,即Iris Graphics(GT3)及Iris Pro Graphics(GT3e),其中Iris Pro Graphics便是整合128MB eDRAM的版本,也是本文的主角。然而,Intel的整合并不是一个严谨的做法,事实上在Iris Pro Graphics的CPU版本上可以见到两个独立的核心,其中大的一颗是CPU + GPU,而小的一颗是128MB eDRAM。这两颗核心不但并未封装在一起,而且制程及工作频率也南辕北辙。CPU/GPU的那颗采用高性能的22nm制程,工作频率可在3GHz以上。而128MB eDRAM则采用低功耗的22nm制程,工作频率只有1.6GHz。
在性能方面,Intel表示整合128MB eDRAM的版本可提供主流NVIDIA GT650M独立显示卡的效能,当然这只是理想。先看看纸面性能方面,Intel 128MB eDRAM一条很窄的串行总线,双向频宽仅有50GB/s,连同128-bit DDR3-1600存储器25.6GB/s也不过是75.6GB/s频宽,略输于GT 650M 128-bit 5GHz GDDR5的频宽80.3GB/s。另外,笔者在网上找到的测试成绩是,在3D Mark Fire Strike测试,整合Iris Pro 5200的Core i7-4750HQ得分可达1302,比整合Iris 5100的Core i5-4278U的889分有46%的可观效能增长,但无法与A10-7850K整合Raden R7显示的1439相比。AMD APU尚且不敌,更遑论NVIDIA GT650M,只可说这是Intel整合GPU先天不足的问题,eDRAM有其价值所在。(原文请见http://www.pcpop.com/doc/1/1058/1058256_all.shtml)
在此简单Intel整合eDRAM的作用,是有增加频宽,降低系统延迟从而提升性能的效果。除此以外,eDRAM也可降低对DDR3的读写需求,有助降低系统功耗。另外,Intel架构图也表明了eDRAM还可作CPU的L4 Cache使用,这解释了为何Intel不惜工本也要加入128MB eDRAM的原因。
Intel整合128MB eDRAM其实是独立的一颗芯片,未算真正整合。
就这幅架构图所见,Iris Pro Graphics除了使用eDRAM提供的频宽外,同一时间也使用了传统DDR3记忆体频宽。
NVIDIA Volta GPU
并不是每家厂商都像Intel拥有尖端的半导体工厂,对于NVIDIA及AMD来说,它们要内建显存,便得采用MCM多晶片封装技术,即在同一基板上内建特制的DRAM,称为Stacked DRAM。
最早提出Stacked DRAM产品的是NVIDIA。在GTC 2013中,NVDIA发表最新产品Roadmap,表示在2016年左右推出新一代Volta GPU,计划在GPU的四周整合Stacked DRAM,预计可提供1TB/s记忆体频宽,差不多是当时NVIDIA旗舰产品288GB/s记忆体频宽的4倍,即时引起市场上热烈的讨论。及在2014年,NVIDIA更新产品Roadmap,原来的Volta GPU不见了,改在2016-2017年左右推出整合3D Memory的Pascal GPU,但这代表NVIDIA计划有变或整合Stacked DRAM产品会推迟吗?不是的,虽然下一代GPU计划推迟了,但会于这一代Maxwell GPU中追加Stacked DRAM的支援。这当中有被迫的成份,因为AMD整合显存的产品马上要推出了。
NVIDIA在GDC2013发表的产品Roadmap表示,新一代Volta GPU将整Stacked DRAM。
Volta计划整合6颗Stacked DRAM。
在2014年Volta改为Pascal,而Stacked DRAM也改为3D Memory。
3D Memory堆栈多层存储器,计划在2016年提供1TB/s以上的存储器频宽。
AMD整合显存的产品
与NVIDIA的事先张扬的做法不同,AMD选择相对沉默,直到R9 300系列产品差不多推出才公布会在新一代GPU的四周整合HBM记忆体。HBM全名High Bandwidth Memory,从它的名字得知是一种高频宽的记忆体。它的原理是把4颗记忆体(第一代)以TSV穿孔的方式堆叠起来,可用频宽是现有顶级7Gbps GDDR5的3.5倍以上(100GB/s vs 28GB/s),而且体积细小,如同样是1GB GDDR5要672mm2,HBM只要35mm2,相当于前者的5%左右,可轻易在GPU四周内建4颗HBM记忆体,至少提供400GB/s频宽,大大领先R9 290X的320GB/s频宽,实现不同世代的性能。
另外,也许大家会问,NVIDIA及AMD整合显存的做法,显示卡厂商们会愿意接受吗?其实,现时NVIDIA及AMD的GDDR5 GPU普遍采用GPU + GDDR5捆绑式销售的做法,令显示卡厂商难以改动卡上的显存。现在GPU厂商只是变本加厉,令改动显存变得完全不可能然而。
AMD新一代GPU会把HBM封装在同一PCB基板上。
与现时最快的GDDR5相比,HBM的速度是前者的3.5倍以上。
结论∶整合显存势不可挡
总结本文,目前有Intel整合eDRAM及NVIDIA/AMD整合Stacked DRAM两种不同的做法。前者技术门槛极高,因为需要先进的半导体制支持,后者只要采购昂贵的新一代HBM记忆体即可解决,以技术而论Intel是略为先进,但其GPU技术的落后所以也没有可比性,而且最终都没有整合了CPU晶片去,算不上真正的整合。从众多厂商整合DRAM的做法只说明了一点∶整合是新潮流,大家准备好没有呢。