《电子技术应用》

天河二号超级计算机,稳定性傲视全球

南方日报 2016/1/18 10:50:00

    在例行确认“天河二号”各项参数准确无误后,国家超级计算广州中心应用部工程师陈璟锟开始处理来自世界各地客户的技术方案。陈璟锟看起来并不善于交流,但一聊起“天河二号”,似遇见多年的好友,滔滔不绝。

    去年底,新一期全球超级计算机500强榜单在美国公布,中国“天河二号”超级计算机连续第六度称雄。

 3d27f6a805d503466378ab9c7a01d731.jpeg

    “天河二号”六度夺冠的背后是越来越多像陈璟锟一样的年轻人,日复一日地为超级大脑保驾护航。目前,超算中心已构建起材料科学与工程计算、生物计算与个性化医疗、智慧城市大数据和云计算等6大应用服务平台。共有48名工作人员,其中技术人员有30名。

    走进广州超算中心,一排排狭长的黑色机柜整齐地摆放在接近三个篮球场那么大的实验室中。陈璟锟告诉记者,“天河二号”由170个机柜组成,一共装有3.2万颗主CPU和4.8万个协处理器。虽然每排机柜彼此分开,但它们工作时是彼此相联的,其实是一台计算机。

计算速度快,存储量大,体积也非常大,这是记者看到超级计算机时最直观的感受。要保证“国之重器”的正常运行,首先需要保证水电不断。

    “基本上我每天来到中心的第一件事就是检查系统是否正常。比如,能否正常登陆、资源有没有分配好等,保证整个机器的运行。”这是陈璟锟每天必做的事情。

     点亮机柜上的触控屏,看了看各项参数,“今天的水温稍微有点高”。陈璟锟告诉记者,机柜负荷运行时,会散发出大量热量,广州超算中心采用的是“水冷”系统,这也是为何一进超算中心大门便感到凉快的原因。“8℃的水从水厂泵过来,经过超算中心内循环交换,出水21℃。”

    陈璟锟还告诉记者,从目前“天河二号”来看,计算节点的能耗约为18兆瓦,再加上散热系统的整体能耗在20兆瓦以上。如果正常运行,年耗电量约为2亿度。每个星期电费大约在80万元左右。

    据了解,超算中心不仅有固定的运维人员保证“天河二号”平稳运行,同时,无论供电、供水都是“特别配置”。为了保障机器不因断电而数据丢失,南方电网为超算中心建设了两路独立并互为备份的电源。在供水方面,广州市政府在距离超算中心3公里以外建了一个冷水厂,专门供中心使用。

    由于超级计算机的基本组成组件与个人电脑的概念无太大差异,所以很多人会误以为超级计算机就是简单的cpu叠加。但这是一个认识误区。

袁学锋打了个比方:你用1000台PC,用普通的网线把它们连接在一起,你可能花了1万度电,算了10天,但是你用真正的超级计算机,可能只用5000度电,花了两天就算出来了。

“超级计算机就好比算盘,如果没有口诀,它就毫无用处。”国家超级计算机广州中心应用部工程师钟康游解释道。对于超级计算机而言,要让它真正运行起来,也需要各种口诀,但这些口诀更庞大、更复杂。目前科学界把这个算法称为超级算法理论。

超算中心的工程师们,每天花大量的时间,在优化“口诀”,找出更高效率的计算方法,最大限度地充分利用超级计算机的计算能力。

    “有些客户想要运行一些很庞大的程序,操作比较复杂,但客户往往还停留在‘双击’启动的操作习惯,就得由我们来优化‘口诀’,让操作更‘傻瓜’。”钟康游形象地说,简单来说优化“口诀”就是“木桶效应”原理。一个木桶能装多少水,取决于最短的一块板。而一个程序运行的速度,取决于跑得最慢的那个进程。“我们要做的就是通过一些小技巧,尽可能地使所有进程加快。优化后,原来需要11小时才能出的结果,现在只需3小时。”

    袁学锋表示,目前,天河二号可以连续运行10小时无故障,稳定性全球第一。计算机运行过程中,最核心的是高速互联。可以想象成是几万台的PC联在一起做并行计算。而做并行计算的核心就是通讯,使大规模的系统能同步。因此我们要构架足够短的距离,使通讯速度足够快、稳定和可靠。


继续阅读>>