在刚结束的Hotchips 2015会议上,一家来自中国的初创企业亮出了迄今为止最震撼人心的ARM服务器处理器方案——代号“火星”的ARM指令集64核心处理器。这颗由中国团队开发的CPU拥有媲美Intel公司最顶级服务器芯片的性能,是目前ARM阵营最强大的处理器。

这家名为飞腾信息技术有限公司的年轻厂商诞生于2012年,其宣称自家处理器采用64个自定义ARMv8计算核心,采用28纳米制程工艺并拥有最高2 GHz主频。由于每运算周期可处理高达四条指令,这意味着其最大运算能力将达到每秒5120亿次浮点运算。
这款代号为“火星”的设计方案超越了当前各类高端ARM服务器芯片,包括目前正处于样品展示阶段的Cavium 48核心ThunderX处理器以及另一款仍处于开发当中的博通方案。今年2月,EZchip公司曾表示其将发布一款采用28纳米制程的100核心ARMv8处理器,但其正式推出时间定为2017年。
这款“火星”处理器的设计方案尚未公开,但齐聚一堂的分析师以及微处理器设计师们已经开始将注意力转移到其身上,—部分原因是飞腾公司在此前可以说是寂寂无名。
“火星”的核心代号为“小米”,这个名字足够令许多人浮想联翩了。不过取这个名字很可能只是巧合,因为飞腾公司与制造智能设备的小米公司并没有任何关联。“小米”核心是典型的现代高性能处理器微架构设计,四发射、两个浮点单元,不长的流水线和三级缓存方案。它显然并不是为密集浮点运算设计的产物,单周期双精度浮点输出只有4Flop。
但是"小米"核心的访存结构设计很激进,192个寄存器、单核心512K L2、2M L3的设计非常像Intel的Haswell微架构。”火星”采用二维mesh多核互联结构,每8颗”小米”核心组成一个阵列,每个阵列有一个双通道DDR3-1600内存控制器;8个阵列组成”火星”芯片,总共64个核心、32M二级缓存、128M三级缓存和16通道内存,205G/s理论内存带宽。芯片上还有32个PCIe 3.0通道。

“火星”的理论浮点计算能力是512G DP Flops,采用28nm制造工艺,主频2GHZ,核心运行电压不足1v。虽然整个芯片面积达到了吓人的640平方毫米,但是满载功耗只有120w,甚至比使用22nm先进工艺,性能相当的Xeon E5-2699v3、E7-8890v3都低一截。ARM阵营性能功耗比较强的优势过去仅仅体现在移动设备使用的低功耗芯片上,而飞腾公司证明了即使在高性能服务器处理器领域,兼容ARM指令集的处理器也能取得对同时代Intel顶级产品的功耗优势。

“火星”的量产版本预计会在2016年推出,预计会首先用在国防科大下一代超级计算机(可能命名为天河3)上。不久前,国防科大展示了一款用来取代Intel Xeon Phi浮点运算芯片的计算卡Matrix 2000,预计下一代天河会使用”火星”和Matrix 2000的组合来搭建。

“我敢肯定,火星将成为世界上第一款64核心的ARMv8处理器,”飞腾公司研究员Charles Zhang通过电话向Hot Chips大会的各位与会者们宣称。“这是个很好的开端……在接下来的几年中,我们将开发出更为强大的CPU方案。”
火星处理器的最大弊端之一在于其庞大的体积,分析师们指出。想利用这样巨大的芯片实现运营收益实在不是易事。
甲骨文公司在本届Hot Chips大会上公布了一款新的服务器处理器,这是其首款集成了Infiniband的芯片产品。这款代号为Sonoma的芯片是新家族中的首位成员,同时能够为甲骨文数据库及其它软件方案提供加速功能。
Sonoma是一款采用20纳米制程工艺的芯片,其中包含八个M7级Sparc计算核心,每核心最高可支持八线程。它封装有两个DDR4内存控制器,单插槽内存容量上限为1 TB,且峰值内存传输带宽为每秒77 GB。
这款芯片还包含一个PCI Express Gen 3控制器,外加四条用于多处理器协同工作的每秒16 Gb传输链路。
值得国人骄傲的是,这一历史性时刻是一家之前默默无闻的中国企业创造的。自从2006年Intel发布酷睿2处理器以来,十年时间里除了老牌巨头IBM,未曾有任何企业挑战Intel性能冠军的宝座。
如今,第一个向老大哥扔出巨斧的不是AMD,不是Nvidia,也不是一众欧美企业,而是几年前还背着“山寨”恶名的中国团队。即使是业界最老资格的前辈,此刻也应向年轻的飞腾致以敬意。
毫无疑问,”火星”的发布会大大刺激ARM阵营的发展,直接影响未来数年的CPU产业格局。照此趋势发展下去,我们很快就会在桌面、高性能服务器领域看到ARM与x86的直接对抗。当Intel的神话不再闪耀,IT产业又会迎来一个高度竞争的全新时代。