整合显存是未来从Intel及NVIDIA说起

《中无通讯》第71期文︰世界网络 www.linkwan.com 林和安小洛夫

论现今厂商提升晶片性能的法门，以架构的更新获利最大，这便离不开新增更多功能、提升时脉之类。然而，新增功能需要投入大量的研发及测试时间，提升时脉则大大增加功耗，同样不是短时间内能上马的灵单妙药。于是厂商们另辟途径，尝试整合内存以加快处理数据速度，这在CPU上已是每代产品的指定动作，最近开始为GPU厂商所取用。

Intel最早整合eDRAM

对于GPU厂商来说，由于采用与CPU不同的架构; GPU架构重平行计算，可直接通过增加核心的数目来直线提升性能，这点与CPU重视执行效率不同。NVIDIA GeForce GTX TITAN X内建3072个CUDA Cores，相当于整合3072个小CPU核心，这在CPU上是不可思议的事情。同样对于GPU来说，也没必要采用CPU动辄8MB以上的快取记忆体。现时整合L2 Cache最大的NVIDIA Maxwell也不过是2MB，可见两者设计上的不同。不过，在GPU与CPU设计最终会走在一起，在2013年，Intel成功把128MB eDRAM整合到Intel Iris Pro Graphics显示核心去，自始宣布GPU整合显存的开始。

为何选择eDRAM

在介绍Intel Iris Pro Graphics前，笔者想先为大家介绍甚么是eDRAM。eDRAM全名Embedded DRAM，简单来说是把现在DDR整合到SoC。有别于CPU/GPU一般采用的SRAM，DRAM的特点是结构简单、容量大(理论上是SRAM的6倍)，但缺点是需要定时刷新(Refreshing)数据，会增加功耗。对于Intel来说，在22nm制程下，每Cell bit的面积在SRAM为0.108um2，而在eDRAM不过是0.029um2，相当于提升3倍多的容量，足以抵消其缺点。虽然如此，但据Realworldtech分析，在22nm制程下，Intel为了128MB eDRAM需要额外60mm2的面积，相当于增加50美元的成本，十分可观。(原文请见http://www.realworldtech.com/intel-dram/2/)

Intel Iris Pro Graphics这品

2013年Intel发布新一代Haswell架构CPU，同时推出高档整合显示核心，即Iris Graphics(GT3)及Iris Pro Graphics(GT3e)，其中Iris Pro Graphics便是整合128MB eDRAM的版本，也是本文的主角。然而，Intel的整合并不是一个严谨的做法，事实上在Iris Pro Graphics的CPU版本上可以见到两个独立的核心，其中大的一颗是CPU + GPU，而小的一颗是128MB eDRAM。这两颗核心不但并未封装在一起，而且制程及工作频率也南辕北辙。CPU/GPU的那颗采用高性能的22nm制程，工作频率可在3GHz以上。而128MB eDRAM则采用低功耗的22nm制程，工作频率只有1.6GHz。

在性能方面，Intel表示整合128MB eDRAM的版本可提供主流NVIDIA GT650M独立显示卡的效能，当然这只是理想。先看看纸面性能方面，Intel 128MB eDRAM一条很窄的串行总线，双向频宽仅有50GB/s，连同128-bit DDR3-1600存储器25.6GB/s也不过是75.6GB/s频宽，略输于GT 650M 128-bit 5GHz GDDR5的频宽80.3GB/s。另外，笔者在网上找到的测试成绩是，在3D Mark Fire Strike测试，整合Iris Pro 5200的Core i7-4750HQ得分可达1302，比整合Iris 5100的Core i5-4278U的889分有46%的可观效能增长，但无法与A10-7850K整合Raden R7显示的1439相比。AMD APU尚且不敌，更遑论NVIDIA GT650M，只可说这是Intel整合GPU先天不足的问题，eDRAM有其价值所在。(原文请见http://www.pcpop.com/doc/1/1058/1058256_all.shtml)

在此简单Intel整合eDRAM的作用，是有增加频宽，降低系统延迟从而提升性能的效果。除此以外，eDRAM也可降低对DDR3的读写需求，有助降低系统功耗。另外，Intel架构图也表明了eDRAM还可作CPU的L4 Cache使用，这解释了为何Intel不惜工本也要加入128MB eDRAM的原因。

Intel整合128MB eDRAM其实是独立的一颗芯片，未算真正整合。

就这幅架构图所见，Iris Pro Graphics除了使用eDRAM提供的频宽外，同一时间也使用了传统DDR3记忆体频宽。

NVIDIA Volta GPU

并不是每家厂商都像Intel拥有尖端的半导体工厂，对于NVIDIA及AMD来说，它们要内建显存，便得采用MCM多晶片封装技术，即在同一基板上内建特制的DRAM，称为Stacked DRAM。

最早提出Stacked DRAM产品的是NVIDIA。在GTC 2013中，NVDIA发表最新产品Roadmap，表示在2016年左右推出新一代Volta GPU，计划在GPU的四周整合Stacked DRAM，预计可提供1TB/s记忆体频宽，差不多是当时NVIDIA旗舰产品288GB/s记忆体频宽的4倍，即时引起市场上热烈的讨论。及在2014年，NVIDIA更新产品Roadmap，原来的Volta GPU不见了，改在2016-2017年左右推出整合3D Memory的Pascal GPU，但这代表NVIDIA计划有变或整合Stacked DRAM产品会推迟吗？不是的，虽然下一代GPU计划推迟了，但会于这一代Maxwell GPU中追加Stacked DRAM的支援。这当中有被迫的成份，因为AMD整合显存的产品马上要推出了。

NVIDIA在GDC2013发表的产品Roadmap表示，新一代Volta GPU将整Stacked DRAM。

Volta计划整合6颗Stacked DRAM。

在2014年Volta改为Pascal，而Stacked DRAM也改为3D Memory。

3D Memory堆栈多层存储器，计划在2016年提供1TB/s以上的存储器频宽。

AMD整合显存的产品

与NVIDIA的事先张扬的做法不同，AMD选择相对沉默，直到R9 300系列产品差不多推出才公布会在新一代GPU的四周整合HBM记忆体。HBM全名High Bandwidth Memory，从它的名字得知是一种高频宽的记忆体。它的原理是把4颗记忆体(第一代)以TSV穿孔的方式堆叠起来，可用频宽是现有顶级7Gbps GDDR5的3.5倍以上(100GB/s vs 28GB/s)，而且体积细小，如同样是1GB GDDR5要672mm2，HBM只要35mm2，相当于前者的5%左右，可轻易在GPU四周内建4颗HBM记忆体，至少提供400GB/s频宽，大大领先R9 290X的320GB/s频宽，实现不同世代的性能。

另外，也许大家会问，NVIDIA及AMD整合显存的做法，显示卡厂商们会愿意接受吗？其实，现时NVIDIA及AMD的GDDR5 GPU普遍采用GPU + GDDR5捆绑式销售的做法，令显示卡厂商难以改动卡上的显存。现在GPU厂商只是变本加厉，令改动显存变得完全不可能然而。

AMD新一代GPU会把HBM封装在同一PCB基板上。

与现时最快的GDDR5相比，HBM的速度是前者的3.5倍以上。

结论∶整合显存势不可挡

总结本文，目前有Intel整合eDRAM及NVIDIA/AMD整合Stacked DRAM两种不同的做法。前者技术门槛极高，因为需要先进的半导体制支持，后者只要采购昂贵的新一代HBM记忆体即可解决，以技术而论Intel是略为先进，但其GPU技术的落后所以也没有可比性，而且最终都没有整合了CPU晶片去，算不上真正的整合。从众多厂商整合DRAM的做法只说明了一点∶整合是新潮流，大家准备好没有呢。

整合显存是未来 从Intel及NVIDIA说起

整合显存是未来从Intel及NVIDIA说起