2015年第2期工作简报

发布者:系统管理员发布时间:2015-04-08浏览次数:2193

2015年第2期(总第2期) 2015年6月

本期导读

近期有受超级计算中心支持的用户成果发表在Nature,本期主要介绍第五大校级公共平台-超级计算平台的工作,以便您了解相关信息(底部pdf版因版面所限,有所删减)。

 

简介

超级计算平台简介

超级计算平台为学校六大公共实验平台之一,隶属于网络信息中心,以推动科学计算、促进人才培养为建设方针,承担校级超算平台建设和运维、用户自有超算设备托管、用户培训和技术支持以及科研软件开发优化等四个方面的工作。超算中心现有六套超算平台运行,共446个计算节点,6280颗CPU核心,总理论计算能力达到363万亿次/秒,其中CPU计算能力为150万亿次/秒,GPU计算能力为208万亿次/秒、MIC计算能力为5万亿次/秒:用户范围涉及全校28个院系和国家实验室的253位老师,共969个账户。2014年共完成了13.25万个作业,提供计算机时2485.68万CPU小时,比去年同期增加35.7%。各系统具体情况统计如下表:

超算系统

总CPU核数 浮点计算能力
(万亿次/秒)
开户数 完成作业数 总机时
(万 CPU小时)
平均作业
运行机时
( CPU小时)
平均作业
运行时间
(小时)
平均作业
排队时间
(小时)
实际利用率
曙光TC4600百万亿次超级计算系统 2640 105.60 30 13208 226.3159 171.35 1.42 12.00 44.65%
ChinaGrid高性能计算集群 704 14.64 102 4904 530.2660 1081.29 35.31 37.71 87.91%
刀片及胖节点集群 512 15.46 267 93138 968.6392 104.00 9.67 5.28 74.15%
联想深腾7000G GPU集群 800 7.26 163 9271 564.8986 609.32 18.43 16.16 84.06%
联想深腾1800集群 512 4.77 243 11966 195.5584 163.43 12.25 3.10 43.84%
IBM JS22刀片集群 112 1.79 82            
总计 6280 149.52 969 132487 2485.6780        

主要超算系统实际使用率在74%到88%之间,处于较高水平。“曙光TC4600百万亿次超级计算系统”为测试运行,“联想深腾1800集群”已接近停机,实际利用率较低。

超算专家组及主任换届

2015年1月15日,经学校研究决定,新一届超级计算中心专家组及主任如下:

  • 专家组组长:杨金龙
  • 专家组成员:陈华平、陈晓非、丁泽军、傅尧、陆夕云、盛六四、李京
  • 主任:李京
  • 副主任:李会民

平台建设

中科院超级计算环境合肥分中心建设

超算中心经过积极努力的申请,以答辩排名第一的身份,于2014年11月成为中科院超算环境合肥分中心(与中科院合肥物质科学研究院共建),获得院资助建设经费100万元。这是继2009年,我校超算中心成为院超算环境的GPU分中心之后,再次获批成为院超算环境级别更高的分中心平台。加入院超算环境之后,将为双方合作提供更好的环境,并能得到院超算中心的技术支持、用户培训、计算资源、建设经费等多方面的支持,为我校师生提供更加丰富优质的科研计算服务。同时,使用院超算环境的超级云计算服务应用平台软件,我校及校外用户可以共享院超算环境,将计算作业自动调度到空闲的院超算环境的系统上,不仅能快速得到结果,而且提高了资源利用。

安徽省高校科研协作高性能计算公共平台建设

在安徽省教育厅的支持下,超算中心承担了安徽省高校科研协作高性能计算公共平台建设工作,为全省加入教育网的高校提供高性能计算公共平台的建设运维服务,促进我省高校科学计算发展。当前已经有安徽大学、合肥工业大学等近十所省内高校的用户在使用此公共平台,保障了科研需求。

曙光TC4600百万亿次超级计算系统发布

以前受我校超算资源所限,不仅用户作业排队时间长,而且无法运行大规模的并行模拟计算,严重制约了我校教学科研的进行。超算中心于2014年4月23日通过公开招标,投资623万元购置了105万亿次的曙光TC4600刀片超级计算系统。此套系统共有110个计算节点,每计算节点配置2颗12核主频2.5GHz的Intel Xeon E5 2680 v3 CPU和64GB DDR4内存,共2640颗CPU核心。系统通过56Gbps InfiniBand高速互联,采用并行文件存储系统。经过前期大量的系统优化、用户计算应用测试等,此套超算系统的稳定性、各项性能达到了预期目标,于2014年12月面向计算用户正式推出。截至2014年底,已支持了5个千核以上的大规模并行计算,解决了缺少千核级别计算能力的问题,缓解了近期教学科研所需计算能力不足的紧张局面。

Intel MIC计算平台发布

为了为用户提供学习使用Intel MIC(集成众核)高性能计算技术,适应高性能计算发展潮流,2014年9月,ChinaGrid高性能计算集群新增加两台基于Intel MIC的异构高性能服务器,其配置为:两颗Intel Xeon Phi 7110P MIC加速卡(每颗61核、244线程、主频1.1GHz、双精度峰值计算能力为1.073TFLOPS,8GB内存)、两颗64位主频2.6GHz的Intel Xeon E5-2650 v2 x86_64 8核CPU(共16核)、两颗64GB内存及600GB SAS硬盘。

规章制度、规范日常业务完善

2014年8月1日,经校超级计算中心专家委员会和校公共实验中心会议批准,《中国科学技术大学超级计算中心服务管理办法(试行)》、《中国科学技术大学超级计算中心收费标准(试行)和《中国科学技术大学超级计算中心用户备托管协议书(试行)》正式颁布,开始试行,规范了超算中心的管理等,促进超算平台健康发展。

“超算平台作业调度系统的分析与优化”及“超算中心监控系统开发”技术开发项目

“超算平台作业调度系统的分析与优化”项目的实施,使得超算中心作业调度系统功能更加高效,调度策略可根据资源配置、使用需求等实际运行情况自动调整,更加丰富灵活。提高了计算资源的使用率,有效保障了使用的公平性、合理性,提升了用户的使用感受。

“超算中心监控系统开发”项目的实施,可及时发现超算机房及设备存在的隐患,及时处理,保障超算系统的安全稳定运行,避免损失;同时可以减少工作人员在此方面投入的工作时间,节省下精力为用户提供更高更及时的优质服务;其它相关单位也可以直接或者移植使用此系统,减少重复开发工作。

机房监控系统开发和部署

超算中心开发部署了机房内外的视频监控、动力环境监控和报警系统,以及超算系统运行温度监控、应用运行监控、任务报警系统(测试中)等从环境到计算任务全方位的监控报警设施,具有自动化程度高,反应速度快的特点,能有效对超算机房进行监控,保障超算系统的稳定安全运行。


视频监控

监控屏幕

共济动力环境监控

东软动力环境监控

服务器温度监控

Ganglia系统运行监控

用户支持及程序开发

用户程序运行特征监控及分析系统部署

为了更好地让用户了解自己程序实际运行效率和瓶颈所在等,以便进行改进,超算中心部署了Paramon应用运行特征收集器及Paratune应用运行特征分析器。可以实时监控机群管理/登录节点、计算节点、IO节点等服务器的处理器、内存、网络和存储性能数据,提供机群系统中应用软件随时间变化的运行特征,告知用户其运行程序的实际效率及相应解决办法,帮助用户优化其程序,为用户提供更加精细的服务。


Paramon内核级作业运行效率监控

Paratune应用程序分析

用户技术支持和培训

根据合肥微尺度物质科学国家实验室(筹)和同步辐射国家实验室等用户的需求,超算中心在超算系统上部署了第一性原理软件VASP和SIESTA、量化计算软件Gaussian、材料计算Materials Studio以及流体力学计算软件OpenFOAM等几十种软件,满足了其科研需要。

为了帮助用户熟悉超算系统使用,2014年举办了7次用户培训,参与人员200多人次。主要培训内容有超算中心介绍和超算平台基本使用方法、Linux操作系统、作业调度系统LSF和程序编译运行环境等。

我校计算机学院安虹教授带领的参赛队伍在国际大学生RDMA编程竞赛(中国赛区)中夺得总分第一的好成绩,在此项比赛中,超算中心提供了最新超算系统供其使用,并提供了技术和服务支持。

“《并行计算》国家级精品课程”示范与培训课程于2014年7月举办。超算中心不仅负责“并行编程工具与环境”的主题介绍,还提供课程上机实习环境,并在学员上机过程中,给与使用帮助、疑难解答等。 

来自省内各高校、科研院所、科大讯飞公司等单位的近百名学员参加了培训活动。此次培训活动加强了各参训单位同行之间的交流与学习,获得大家的一致认可。

  

“研究生超级计算实验训练中心”成立

“研究生超级计算实验训练中心”于2015年1月份正式挂牌成立,将为我校研究生提供超级计算(高性能计算、并行计算)等方面的学习及实际训练,为教学、科研、创新人才培养服务,提高研究生培养质量,提高研究生在超级计算系统的应用、程序移植和开发,以及建设、运行维护等方面的实际能力。

用户超算设备托管

为解决校内用户在自建超算中心过程中存在的场地、配电、人员管理等诸多问题,减少重复建设成本,充分合理、高效的利用超算中心机房,超算中心于2014年8月开始,面向校内师生提供高性能计算服务器及相关设备的托管服务,并开发了托管设备管理系统,对托管信息及账目等进行信息化管理。目前已有合肥微尺度物质科学国家实验室、地球与空间科学学院、计算机科学技术学院、天文系、同步辐射国家实验室、数学科学学院、近代物理系等十多个实验室课题组的老师,将自建的超算系统200余台高性能计算服务器托管在超算中心机房,共占据9机柜。

用户超算系统运行维护

超算中心发挥自身的技术优势,为用户自建的超算系统提供运行维护服务,弥补了用户自建超算系统缺乏专业人士维护的不足。当前共支持了中国科学院近地空间科学重点实验室、近代物理系等离子体物理课题组、合肥微尺度物质科学国家实验室两个课题组、软物质科学实验室、热科学和能源工程系应用等离子体实验室、核学院和中科院火灾科学重点实验室等8个课题组的超算系统。

科研软件开发优化

超算中心为量子信息重点实验室何力新教授课题组开发量子力学计算软件ABACUS提供开发优化服务。该程序使用原子轨道作为基组,可计算多种体系的量子力学性质。超算中心针对其中计算体系电荷密度的格点积分程序进行优化,该部分程序经优化后在同等条件下计算速度可提高2到5倍。用户对超算中心的工作给予了高度肯定并将继续委托超算中心承担其它部分的优化工作。

 

用户成果及荣获奖项

用户成果发表在Nature

据不完全统计,2014年用户利用使用超算平台发表论文超过百篇,涉及项目经费超过五千万元。其中,吴恒安教授和王奉超特任副研究员与英国曼彻斯特大学Andre Geim教授课题组以及德国乌尔姆大学Ute Kaiser教授课题组合作,在受限水结构研究方面取得突破性进展,首次观察到石墨烯毛细通道中常温下的受限水以二维方形冰结构的形式存在。研究成果以“Square ice in graphene nanocapillaries”为题发表在3月26日出版的国际著名期刊Nature上(Nature, 519 (7544): 443-445, 2015),吴教授是该文共同通讯作者。在论文中特别指出了此项国际合作研究得到了我校超算中心的支持。

超级计算中心荣获“优秀教育数据中心奖”

此奖项由中国数据中心工作组颁发,是2014年中国优秀数据中心评选中唯一的“优秀教育数据中心奖”,并且本案例被收录至象征着数据中心行业标杆的白皮书——《中国数据中心技术指针》内,是对我校超算中心建设的认可。


第二期.pdf