曙光HPC产品事业部总经理李斌和 Intel OPA Marketing Director Joe Yaworski
11月13日,第50届全球超算TOP500榜单在美国丹佛的全球超算大会SC17上揭晓。中国超算跻身全球500强的席位数由6个月前的160套升至202套,美国由169套降至143套。
这是继2016年6月中国超算份额以微弱优势(167比165)超越美国后,首次以显著优势大幅超越美国(202比143)。
这份榜单的前五名由中科曙光(下称曙光)等3家中国厂商与2家美国厂商包揽,且占据了榜单份额的72.6%(363套),数量遥遥领先于其它厂商。
其中,在涉及中国传统HPC应用领域的6个厂商中,曙光的份额超过了三分之一,继续领先于其它厂商。
在高性能计算领域,曙光的确是专业选手。作为中国高性能计算领军企业,曙光不仅多年来在HPC领域拥有深厚的技术积累,同时技术创新也是曙光发展的强大基础。在本次SC17大会上,曙光便创新推出了全球首款面向E级计算的Torus硅元交换机。
突破超算网络瓶颈
众所周知,高性能计算机有很多重要的组成部分,其中最主要的三个硬件的部分就是计算、存储和网络。高性能计算蓬勃发展的背后不仅需要计算能力的支撑和推动,同样也离不开能实现高速互连的网络技术。
“目前大型超级计算机,特别是准E级或未来的E级系统,在系统规模、扩展性、成本、能耗、可靠性等方面仍面临着严峻挑战。本次发布的硅元交换机是全球首款采用Torus架构的高速网络交换机产品,基于它构建的超级计算机互连网络系统具有领先的性能、超强的扩展能力、极佳的容错能力,是迈向E级计算的最佳网络技术路线。”曙光公司HPC产品事业部总经理李斌介绍说。
高性能计算机的内部网络与我们平时理解的互联网络有很大的不同,它有很多不同的特点。如果把超级计算机比喻为跑车,那么网络就是公路。没有一条好的道路作为支撑,即使跑车再好,它的速度也很难发挥出来。
因此,要想提高计算力,就要把超级计算机的“道路修好”,也就是要把网络的速度、带宽扩大。还要把道路的规划做好,比如道路是什么样的连接结构,同时还要把交通控制做好。所以既要把道路修好,又要做到很好的控制,这种控制其实就是网络的拓扑结构还有网络的路由算法。
但是,通过一代代的演变发展,全球超级计算机的规模越来越大。从计算单元来看,已从1P发展到100P到1000P甚至1亿P。从计算节点来看,美国的红杉树超级计算机系统规模达到9.6万个计算节点。从计算核心来看,最新的超级计算机TOP500排名前十的系统中计算核心多达几十万,甚至上百万。
当高性能计算机(HPC)的计算能力从P级跃上E级、超级计算机的计算核心数目从几十万个扩展到几百万个,超大规模计算之下各计算单元如何保持高效互连与协同?目前看来,Torus网络便是未来高速网络技术的主流发展方向。
此外,假如按照传统的网络技术来说,如果不对连接结构做一些优化的话,可能来未来计算网络成本要占到整个设备的50%。可以想象,这是一件非常恐怖的事情。
据曙光HPC产品事业部总经理李斌介绍,与传统的胖树网络拓扑结构相比,强调邻近互连的Torus直接网络在扩展性上具有明显的优势,且网络成本和系统规模呈线性关系。
此外,因为具有很多冗余数据通路和采用动态路由,Torus网络也具有天然的容错性优势,这些都是超大规模系统所需要的网络特性。曙光此次发布的硅元交换机,便是全球首款采用Torus架构的高速网络交换机产品。
全球首款Torus硅元交换机
据了解,“硅元”是指Torus高维直接网络中的一个单元,一个硅元内部采用3D-Torus拓扑结构,多个硅元可以构建更高维的4D/5D/6D-Torus直接网络,基于它构建的超级计算机互连网络系统不仅具有领先的性能,还有超强的扩展能力以及极佳的容错能力。
实际上,曙光早在2015年的硅立方高性能计算机中就已实现了三维的3D-Torus。将一个3D-Torus硅元集成到一台模块化交换机,能够极大提高系统集成度和密度,从而减少网络线缆,降低部署复杂度,最终大大降低未来高性能计算的部署成本。
此次发布的Torus硅元交换机,采用了与刀片式服务器类似的设计理念,基于英特尔的Omni-Path架构的网络协议,同时维度从3D进化到了6D,有效降低大规模系统的最长网络跳数,可以支持多达192个100Gb高速网络端口,并且可以通过400Gb专用接口在多个交换机之间进行互连。
通过这样的硬件实现,提高了Torus高速网络技术的覆盖范围,使得一些中小规模的高性能计算系统也可以更便捷地享用这项先进技术。
值得注意的是,本次发布的Torus硅元交换机还支持冷板式液体冷却,这也是现在能看到的高速网络交换机里最先实现液体冷却的产品。
关注这个行业的都知道,曙光有很多成熟的支持液冷的高性能计算机与服务器产品,是业界第一家大规模商业应用冷板式液冷的服务器厂商。此次发布的Torus硅元交换机,也标志着曙光的液体冷却技术从计算设备延展到了网络系统,这对提高大规模网络系统的集成度和可靠性、降低能耗等方面有着重要的作用。