2016-06-22 06:40:13
来 源
毕波ZDnet
超级计算机
神威太湖之光系统是一台拥有自主架构的设备,其中包括以神威公司RISC处理器为基础的创新型处理器设计,这也是中国十年来技术积累的重要成果。

2016年全球超级计算机top500排行榜 神威登顶,中国在最强HPC上已经碾压了美国、欧洲和日本,但更具指标意义的是中国的TOP500总数也超过了美国,这次中国有167台HPC入围TOP500,美国是165台,欧洲则是105台,日本则是29台。

2016年全球超级计算机top500排行榜 神威登顶

拥有23年历史的全球五百强超算榜第一次被彻底颠覆,美国已经不再是榜单上入选机型最多的国家——而中国在经历了数十年的投资与技术研发之后,成功在上榜超算数量方面占据首位。

超级计算项目绝不仅仅是学术或者政府方面的努力成果,其中的每一个组成部分都是庞大设备不可或缺的元素所在,包括为其编写软件、保持运行直至新的技术浪潮催动下一轮升级。而考虑到超算设备对于军方及本土产业的巨大促进作用,超级计算机也往往同政治有所关联。因此,高性能计算之争成为美国、中国、欧洲以及日本之间的角力也在意料之中——这不仅是一种技术抗衡,更是地球上各大经济体间的较量。

中国此前已经凭借全世界最强大的超级计算设备登顶这份榜单,即由国防科技大学于2013年6月在广东省国家超级计算机中心构建的至强与至强Phi混合型设备天河二号,其Linpack高性能计算系统性能基准测试结果高达每秒33.86千万亿次。

天河二号在过去三年中一直位列超算榜榜首,但今天这一历史地位开始面临新的挑战者——这台名为神威太湖之光的设备坐落于无锡市国家超级计算中心,由国家并行计算机工程与技术研究中心打造,其理论性能峰值高达每秒125.4千万亿次,且已经在Linpack测试中带来了每秒93千万亿次的持续运行性能。

我们对神威太湖之光系统进行了深层剖析,并发现其与公布于2013年6月的天河二者有所不同——事实上,一直有人质疑后者只是大量计算元件的规模化堆叠,中国政府投入巨额资金只是为了在超算榜上挣得面子。

 原创技术助力中国超越美国成为顶级超级计算机用户

但根据目前我们掌握的情况,神威太湖之光系统是一台拥有自主架构的设备,其中包括以神威公司RISC处理器为基础的创新型处理器设计,这也是中国十年来技术积累的重要成果。另外,神威处理器基于Alpha 21164,这款RISC芯片可能由Digital Equipment公司为其AlphaServer系统于二十年前打造,但这一消息从未得到证实或者官方认可。

截至目前,我们了解的是神威处理器已经进行了三次换代,而且未来还可能在无锡继续自己的升级之路。其中神威SW-1单核心处理器出现于2006年,主频为900 MHz;SW-2为双核心1.4 GHz;SW-3,亦被称为SW1600,则为十六核心1.1 GHz。

此次于2016年6月公布的神威太湖之光超级计算机已经成为全球超算五百强榜单的新王者,其采用SW26010处理器——每块处理器包含256个计算核心,外加4个管理核心,全部封装在单一晶片之上,主频则为1.45 GHz。这套系统共容纳有40960个节点,总计算核心数量超过1060万个,各核心总计共享1.31 PB内存。

就目前来看,神威太湖之光设备将在一段时间内雄踞在超算五百强榜单之上,直到IBM、英伟达与Mellanox Technologies共同为美国能源部橡树岭国家实验室打造的、预计于2017年上线的“Summit”系统彻底竣工。这套设备的峰值性能水平据称可达到每秒150千万亿次,总节点数量为3500个。Summit设备将采用24核心Power 9处理器,外加数量未知的“Volta” GV100 Tesla协处理器,同时配备每秒200 Gb HDR InfiniBand互连机制。

另外,基于英特尔“Knights Hill”至强Phi处理器的美国阿贡国家实验室“Aurora”系统也有望插进一脚,这套预计于2018年上线的设备将再度超越Summit,在超过50000个节点上提供约每秒180千万亿次计算能力。

可以看到,美国还需要相当一段时间才能重夺这场性能竞赛的主动权,除非部分超大规模设施厂商与云服务构建商也开始在自己的大型集群上运行Linpack基准测试。不过在这方面,中国企业也并非无所作为,因此从系统数量角度看美国恐怕也很难占到便宜。而讽刺的是,目前的落后局面很可能刺激美国乃至欧洲与日本在超级计算机领域投入更多研发资源。

 原创技术助力中国超越美国成为顶级超级计算机用户

在最近的榜单中,中国在超算五百强中占据167席,远高于六个月前的109席。随着越来越多中国企业开始利用Linpack测试自己的设备性能,其不断将众多原有榜单成员挤出五百强。而目前美国在2016年6月的榜单中占165个席位,远低于去年的233席与前年的256席。

长久以来,美国一直统治着全球超算五百强榜单,甚至在相当长的历史时期内占据半数以上席位。2016年6月的排名中,欧洲设备占得105个席位(与上年基本持平),其中德国上榜系统数量为26套,法国为18套,英国为12套。中国的强劲表现则大幅拉高了亚洲各国在榜单上的占比,不过日本由6个月前的37个席位削减至本次的29个。

而美国目前榜单上最为强大的系统仍然是橡树岭国家实验室的“Titan”超级计算机,由克雷公司打造,采用16核心AMD皓龙6274处理器与英伟达Tesla K20X GPU加速器,配合“Gemini”互连技术,能够在Linpack基准测试中实现每秒17.6千万亿次持续性能表现。

Titan曾于2012年11月在当时的全球五百强超算榜单中占据头位,但七个月后即被中国的天河二号击败,又于此次伴随神威太湖之光的崛起落至第三位。

美国能源部劳伦斯·利弗摩尔国家实验室的“Sequoia” BlueGene/Q系统,其采用由IBM公司设计的BlueGene架构,包含157万个1.6 GHz计算核心与定制化3D环状互连体系,能够在Linpack基准测试中提供每秒17.2千万亿次计算能力。而坐落于美国阿贡国家实验室内的BlueGene姐妹设备Mira系统在计算核心数量方面为前者的一半,性能自然也打了折扣,为每秒8.59千万亿次。

Sequoia于2011年11月的榜单中曾一度名列首位,但很快在2012年被Titan所超越,接下来又目送天河二号与神威太湖之光分别登上冠军宝座。

位于Sequoia与Titan之间的则是K超级计算机,由富士通公司负责制造,目前坐落于日本日本理研高级计算科学研究所。其性能水平为每秒10.5千万亿次,使用Sparc 64-VIIIfx处理器——八计算核心,主频为2 GHz——同时采用Tofu 5D定制化互连机制。顺带一提,这台设备目前仍是Linpack测试当中能源效率最高的方案,且安装于五年多之前。

 原创技术助力中国超越美国成为顶级超级计算机用户

接下来,榜单十位的其它设备全部由克雷公司打造,且采用其当前“Aries”互连机制。其中Trinity系统由洛斯阿拉莫斯国家实验室与桑迪亚国家实验室共同使用,这套克雷XC40系统采用16核心Haswell至强E5-2698 v3处理器,能够实现每秒8.1千万亿次处理性能。而Piz Daint则是一套XC30系统,采用8核心至强E5-2670处理器与英伟达Tesla K20X GPU加速器,Linpack测试成绩为每秒6.27千万亿次计算能力。

Hazel Hen系统在本次榜单上位列第九,这套位于德国的系统拥有每秒5.64千万亿次处理能力的成绩,使用12核心至强E5-2680 v3处理器。Shaheen II超级计算机位于沙特阿拉伯的阿卜杜拉国王科技大学,配置有16核心Haswell至强处理器,但总处理器数量低于Trinity,性能水平为每秒5.54千万亿次。

考虑到超级计算中心一般第三到四年就会更新设备,因此其中上榜的约五年期系统似乎已经有些过时。不过它们都显示出了强大的生命力与处理性能,而且考虑到这类庞然大物的构建成本普遍超过2亿美元,因此尽可能榨取其价值也在情理之中。

 原创技术助力中国超越美国成为顶级超级计算机用户

不过为了持续推进高性能计算中心的系统架构升级,各国纷纷投入巨额资源,也正因为如此全球五百强榜单也在不断发生变化。但需要注意的是,目前这种升级速度已经开始放缓,因为依靠单一设备实现极致性能的作法在性价比方面并不出彩。

 原创技术助力中国超越美国成为顶级超级计算机用户

千万亿次级别的设备数量不断增加,这得益于摩尔定律支持下的计算引擎与互连技术的进步。目前已经有95套系统在Linpack基准测试中拥有超过1千万亿次的每秒处理能力,高于半年前的81套、一年前的68套、两年前的37套以及三年前的26套。构建千万亿次级别的大规模系统确实变得更容易也更经济,但我们还很难确定市场需求是否真的随之快速增长。另外值得一提的是,企业级数据中心与超级大规模基础设施服务商也在挤占超算设备的生存空间。

然而五百强榜单各系统的总体性能水平也在持续提升。2016年6月榜单中,全部设备的计算能力总和为每秒566.7千万亿次,远高于一年前的363千万亿次,两年前的274千万亿次以及三年前的223千万亿次。另外,并发性系统——即跨集群与MPP共享计算核心——的占比不断增高,目前的平均共享水平为81995个核心,高于一年前的50495个,两年前的43301个以及三年前的38700个。目前占据榜单首位的系统拥有数百万个计算核心,未来的霸主则将拥有上千万个核心。

 原创技术助力中国超越美国成为顶级超级计算机用户

另外值得注意的是,配合加速机制的设备较上份榜单略有减少,由2015年11月的104套降低至83套。英伟达Tesla业务部门已经实现了调整业务增长,因此榜单未能反映出这一点确实令人有些困惑。不过也可能是相当一部分用于机器学习的超大规模基础设施消化了这部分产品,而其规模仍然无法与超算五百强相比肩。

另外,至强与至强Phi系统间的分裂趋势也非常有趣。许多混合系统会将二者分别构建在单一集群内,而非将CPU与GPU共同塞进同一集群节点。

毫无疑问,也有相当一部分设备从来没有运行过Linpack测试,因此其性能虽然强大但却无缘榜单。由克雷公司为美国国家超级计算应用中心打造的“Blue Waters”混合型CPU-GPU超级计算机,在峰值性能上可达到每秒13千万亿次以上,但我们从未听说过其运行Linpack基准测试。因此尽管这份榜单足以说明技术发展趋势并帮助业界厂商制造系统、引导各国规划发展方向,但其作为高性能计算系统的排名仍然不够全面。

声明: 此文观点不代表本站立场;转载须要保留原文链接;版权疑问请联系我们。