浅谈近来国产CPU的成就
中无通讯61期 文︰www.linkwan.com 林和安 小洛夫
中国内地产业正在升级转型,从过去的劳工密集型升级到智识密集型产业。即以中国的IT产业为例,中国正逐渐全面掌握芯片的半导体技术,从早期的芯片封装、测试,中期的芯片生产技术,到现时掌握层次更高的芯片设计,中国CPU真的来了,这次笔者以申威超级计算机、龙芯服务器、华为(海思)4核心智能手机,从各方看看国产CPU的最新成就。
位列Top 100世界超级计算机—申威1600
申威 1600W超级处理器
2009年中国发表自主研发的超级计算机,位列Top500世界超级计算机排行榜第二名。而在2010年10月更升级为天河-1A,一跃成为第一位,此一纪录直至2011年6月才被日本的“京”超级计算机所超越。虽然天河-1A的成就令鼓舞,但它采用的CPU及GPU等核心配件分别为外国厂商Intel及NVIDIA的出品,所以天河-1A只属于中外技术的成品,不能说是真正的国产超级计算机。不过中国国产超级计算机之梦随即实现,在2011年10月27日揭幕的国家超级计算济南中心,以国产CPU达成超级计算机,成为中华民族之光。
世界超级计算机Top100排第14名
这台名为神威蓝光的国产超级计算机,采用8704颗16核心的申威1600处理器,采用外国厂商主导的:InfiniBand QDR技术交换器技术,连续浮点运算能力高达798TFLOPS、峰值可达1.07PFLOPS,LINPACK效率高达74.4%。这样出众的成绩一推出即位列2011年11月世界超级计算机Top500排行榜第14名(见http://www.top500.org/list/2011/11/100)、中国超级计算机Top100排行榜第2名(见http://www.samss.org.cn/sites/shuxue/pcC.jsp?contentId=2657331594092),可见其性能强悍,足以挤身世界顶级超级计算机平台的前列位置。
神威蓝光国产超级计算机采用了8704颗申威1600处理器
在世界超级计算机Top500排行榜排第14名
在中国超级计算机Top100排行榜排第2名
技术源自DEC Alpha 21164
有谓万丈高楼从地起,申威1600技术源于鼎鼎大名的DEC Alpha 21164。DEC Alpha 21164是90年代盛极一时的高性能服务器/工作站处理器,其技术影响后世CPU的发展良多,如超纯量(Superscalar)的工作方式为Intel Pentium处理器所沿用,而EV6总线更成为AMD Athlon处理器的前端总线(FSB),时至今日,DEC Alpha团队已被并入Intel Itanium研发团队中,继续从前顶级服务器处理器的研发工作。
虽然官方消息表明申威1600技术源于DEC Alpha 21164,但没有具体说明采用了后者甚么技术,只说明是采用国人自行开发的CPU指令集,属于精简指令集(RISC)微架构。另负责CPU研发的江南计算器所属于军方研究机构(总参56所),得到国家「核高基」重大专项的支持,基于国家安全不公开最机密的指令集架构是可以理解的。
一代名处理器Alpha 21164成为申威1600设计的基础
产品己经历三代拥有16核心
据官方消息表示,申威1600属于第三代产品。第一代申威SW-1在
2006年发表,采用单核心设计、130nm制程工艺及900MHz工作频率。第二代申威SW-2在2008年发表,采用双核心设计、130nm制程工艺及1.4GHz工作频率,工作功耗在70-100W。至于第三代即本文的主角申威1600,内建16个RISC 64位核心,65nm制程工艺及975-1200MHz工作频率,浮点运算能力高达140.88GFLOPS(1.1GHz工作频率表现),作为参考Intel Nehalem-EX 8核心为96GFLOPS(3.0GHz工作频率)、AMD Opteron 6100 12核心为83.2GLOPS(2.6GHz工作频率)、IBM Power 7 8核心为131.2GFLOPS(4.1GHz工作频率)。
申威1600采用低功耗设计,首先是它的最高工作频率不过是1.2GHz,其次是它设有标准及省电模式,使工作功耗低至35~70W左右,因此采用它的神威蓝光超级计算机功耗才1兆瓦,作为对比天河为4兆瓦,美州虎为7兆瓦。
申威1600处理器的介绍海报。
神威蓝光超级计算机采用胖树结构,各节点之间以QDR 4 x 10Gbps高速串行接口连接。
神威蓝光超级计算机采用液冷散热。
龙芯CPU正式染指服务器市场
龙芯3A服务器用CPU。
龙芯作为知名度高的国产CPU,其一举一动倍受华人世界所关注。早期的龙芯一、龙芯二因为运算性能不高,主要针对嵌入式方案及入门级笔者记计算机市场为主,而在累积两代产品的研发经验后,第三代的龙芯开始进军服务器市场,并跟宝德科技公司合作推出一系列产品,包括2x Socket的高阶版本,虽然与主流CPU性能存在不少的距离,但在国产CPU的发展上却写下新的一页。
龙芯3A采针对服务器的多核心设计
从龙芯1到龙芯3A,龙芯可说是经历了三代微架构的发展。从龙芯二开始,龙芯迎来了1GHz工作频率及对64bit的支持;而到了第三代,大突破是加入多核心设计,支持4-8个核心,并开始支持多SMP多CPU工作,令运算速度倍增。据说龙芯3A(4核心设计)的双精度浮点运算能力可达16GLOPS,而传说中的龙芯3B(8核心设计)更达128GLOPS,竟比Core i7 980X的107.55GFLOPS还要高,同一家族产品性能竟可差8倍,实教人难以相信,事实如何相信要待产品推出后才知分晓。
龙芯3A产品规格︰ 工作频率1GHz 核心数目4个 指令集MIPS64及龙芯扩展指令集 L1 Cache64KB(Data) + 64KB(Instruction) L2 Cache4MB 工作总线2x HyperTransport 12.8GB/s 整合内存控制器2个64bit DDR2/3-800 晶体管数目4.25亿 制程65nm CMOS 核心面积173mm2 封装40mm x 40mm, BGA 1121pin 功耗<15W
龙芯3A电路图,可以见到有2个HT控制器及4个核心。
支援双龙芯3A的主机板,采用的是旧式AMD RS780E + SB710芯片组。
另一款支援单龙芯3A的主机板。
借用外国厂商现成架构
龙芯3A在微架构方面仿照了AMD Athlon II的设计,特点是把内存控制器,北桥芯片等功能整成到CPU去,再以HyperTransport作为对外连接的接口,而Core与Core之间的通信以Xbar小型交换机处理,以加快处理速度。与此同时,每个Core还有专属的1MB L2 Cache存放重要的数据。笔者认为,龙芯3A的微架构使用市场上成熟的技术,可以降低研发时间及风险,但以现在的标准来看未免落后,特别是新一代CPU普遍加入共享L3 Cache设计,提升多核性能。
率先上市的两款龙芯3A服务器
这次展出龙芯3A服务器的,是一家名为宝德科技公司的深圳公司,共推出了两款龙芯3A产品,分别为PL-001及PR2920L。前者主要针对工业服务器使用,采用1U设计方便上架,后者则是2x Socket设计,可提供较高的效能。
PL-001工业服务器产品规格︰ CPU1x 龙芯3A 1GHz 主机板AMD RS780E + SB710 内存4x DDR3 DIMM,最大8GB 显示功能整合ATI M72显示控制器 硬盘2x 3.5吋或4x 2.5吋SATA 其它Realtek Gigabit LAN & HD Audio 尺寸483mm(W) x 44.4mm(H) x 412mm(D), 19英寸1U标准上架机 售价约$7000RMB
PR2920L双路部门级服务器产品规格︰ CPU1-2x 龙芯3A 1GHz 主机板AMD RS780E + SB710 内存8x DDR2 DIMM,最大8GB 显示功能整合ATI M72显示控制器 硬盘8x 3.5/2.5吋SATA/SAS 其它2x Intel Gigabit LAN, SATA DVD-ROM 机型19英寸1U标准上架机 尺寸675mm(W) x 88mm(H) x 430mm(D) 售价约$20000RMB
性能更胜国外同级产品—华为(海思)4核心智能手机
海思K3V2 4核心智能手机处理器。
最后要介绍的是华为(海思)4核心智能手机CPU。它由一家名为海思(HiSilicon Technologies Co., Ltd.)的公司开发,型号为K3V2。海思公司成立于2004年10月,前身是华为的ASIC 设计中心,总部位于深圳,设计团队分布北京、上海、美国硅谷、瑞典。2010年年底拥有3000名员工,有兴趣的读者可到www.hisilicon.com了解更多。首批采用海思K3V2 4核心CPU的手机为华为Ascend D quad及Ascend D quad XL。
采用K3V2 的华为4核心手机
采用英国ARM 公司授权架构
K3V2 CPU架构由英国ARM公司授权而来。提起ARM公司,严格来说只是一家芯片架构设计公司,既没有自己的半导体工厂,更没有面向最终市场的产品。他只负责CPU微架构的研究,而后通过授权的方式赚钱,有效避开风险及营销产品的各式各样的开支。而对于海思公司来说,马上便可取得市场上成熟可靠的架构,确保可与他牌基于ARM架构的CPU相容。海思公司仅需专心从事CPU的设计优化及市场推广,工作效率极高。
在架构的选用上,K3V2使用目前最流行的ARM Cortex-A9架构,在40nm制程下核心面积12×12 POP,比另一款外国厂商NVIDIA Tegra 3 4核心处理器的14×14 BGA细小,成为目前业界体积最小的4核心智能手机CPU。K3V2 拥有4个最高1.2/1.5GHz的处理核心,设有热管理技术,在确保CPU温度安全的情况下,最大发挥CPU效能。据海思方面表示,K3V2的Dhrystone MIPS达15000,超过Tegra 3已知的13800 DMIPS(编按︰MIPS是Million Instructoins per second的简写,即每秒执行100万次指令,是目前衡量智能手机CPU性能的重要指针。
K3V2的另一优势是在I/O性能,它拥有目前手机处理器最高端的64bit LPDDR2控制器,是外国Tegra 3 32bit控制器的一倍。不过Tegra 3可以支持DDR3-L 1500内存,以较高的内存工作频率补频宽之不足。
内建 16核心GPU
在多媒体性能方面,K3V2采用ARM公司的NEON多媒体指令集,兼容性比外国Tegra 3好。内建的GPU为32bit Immersion 16,拥有16个super GPU核心,数字上比Tegra 3的12个核心为多,但NVIDIA既为显示界的霸主,拥有强大的显示性能及兼容性,实际性能需视乎应用的不同而定。已知Immersion 16在超大型3D游戏,运行速度及流畅度可以与PC媲美。
采用各种省电技术
K3V2采用了多项技术降低功耗,宣称在同样电池容量下,比传统设计的手机可延长30%电池使用时间。它通过通讯算法优化、智能低功耗和全硬件调频调压技术,处理器各部件能因应当前的操作需求,灵活地配置性能水平,避免电力空耗的情况。不过与外国Tegra 3为省电而设的4+1架构,以慢速核心及快速核心负责不同的工作,则外国Tegra 3似乎更能针对省电作出优化,但代价是耗用更多的晶体管作为慢速核心之用,成本较高。
结论︰
总结申威、龙芯及华为(海思)等国产CPU成就,得出两点结论。第一是他们均避开Intel、AMD主导的x86,避免可能遇到的技术投权等复杂问题。事实上现时x86架构的主导权牢牢的控制在Intel手里,像最新的SSE4.1/SSE 4.2及AVX指令集均需要Intel授权。与其在授权问题上与外国厂商虚耗时间,不若把时间投放在产品研发上更为划算。第二是在发展自家CPU系统时,有效化借用外国成熟的技术。比如龙芯CPU使用AMD HyperTransport总线、AMD主机板芯片组等等,既可节省研发的时间、费用及技术风险,而且最重要的CPU核心设计智识产权控制在国人的手上,借力打力,四两拨千斤,在短短十年多时间追上西方社会花几十年时间才有的成就,体现了中华民族的智慧及刻苦耐劳的精神。展望未来,中国能够推出更多高性能的CPU,而且是技术上处于世界领先水平的作品。