编辑:中国科学技术大学 网络信息中心             联系人:姜玲 0551-63603400 ljiang@ustc.edu.cn
   
2015年第2期(总第2期) 2015年6月

本期导读

近期有受超级计算中心支持的用户成果发表在Nature,本期主要介绍第五大校级公共平台-超级计算平台的工作,以便您了解相关信息(底部pdf版因版面所限,有所删减)。

 

简介

超级计算平台简介

超级计算平台为学校六大公共实验平台之一,隶属于网络信息中心,以推动科学计算、促进人才培养为建设方针,承担校级超算平台建设和运维、用户自有超算设备托管、用户培训和技术支持以及科研软件开发优化等四个方面的工作。超算中心现有六套超算平台运行,共446个计算节点,6280颗CPU核心,总理论计算能力达到363万亿次/秒,其中CPU计算能力为150万亿次/秒,GPU计算能力为208万亿次/秒、MIC计算能力为5万亿次/秒:用户范围涉及全校28个院系和国家实验室的253位老师,共969个账户。2014年共完成了13.25万个作业,提供计算机时2485.68万CPU小时,比去年同期增加35.7%。各系统具体情况统计如下表:

超算系统

总CPU核数 浮点计算能力
(万亿次/秒)
开户数 完成作业数 总机时
(万 CPU小时)
平均作业
运行机时
( CPU小时)
平均作业
运行时间
(小时)
平均作业
排队时间
(小时)
实际利用率
曙光TC4600百万亿次超级计算系统 2640 105.60 30 13208 226.3159 171.35 1.42 12.00 44.65%
ChinaGrid高性能计算集群 704 14.64 102 4904 530.2660 1081.29 35.31 37.71 87.91%
刀片及胖节点集群 512 15.46 267 93138 968.6392 104.00 9.67 5.28 74.15%
联想深腾7000G GPU集群 800 7.26 163 9271 564.8986 609.32 18.43 16.16 84.06%
联想深腾1800集群 512 4.77 243 11966 195.5584 163.43 12.25 3.10 43.84%
IBM JS22刀片集群 112 1.79 82            
总计 6280 149.52 969 132487 2485.6780        

主要超算系统实际使用率在74%到88%之间,处于较高水平。“曙光TC4600百万亿次超级计算系统”为测试运行,“联想深腾1800集群”已接近停机,实际利用率较低。

超算专家组及主任换届

2015年1月15日,经学校研究决定,新一届超级计算中心专家组及主任如下:

  • 专家组组长:杨金龙
  • 专家组成员:陈华平、陈晓非、丁泽军、傅尧、陆夕云、盛六四、李京
  • 主任:李京
  • 副主任:李会民

平台建设

中科院超级计算环境合肥分中心建设

超算中心经过积极努力的申请,以答辩排名第一的身份,于2014年11月成为中科院超算环境合肥分中心(与中科院合肥物质科学研究院共建),获得院资助建设经费100万元。这是继2009年,我校超算中心成为院超算环境的GPU分中心之后,再次获批成为院超算环境级别更高的分中心平台。加入院超算环境之后,将为双方合作提供更好的环境,并能得到院超算中心的技术支持、用户培训、计算资源、建设经费等多方面的支持,为我校师生提供更加丰富优质的科研计算服务。同时,使用院超算环境的超级云计算服务应用平台软件,我校及校外用户可以共享院超算环境,将计算作业自动调度到空闲的院超算环境的系统上,不仅能快速得到结果,而且提高了资源利用。

安徽省高校科研协作高性能计算公共平台建设

在安徽省教育厅的支持下,超算中心承担了安徽省高校科研协作高性能计算公共平台建设工作,为全省加入教育网的高校提供高性能计算公共平台的建设运维服务,促进我省高校科学计算发展。当前已经有安徽大学、合肥工业大学等近十所省内高校的用户在使用此公共平台,保障了科研需求。

曙光TC4600百万亿次超级计算系统发布

以前受我校超算资源所限,不仅用户作业排队时间长,而且无法运行大规模的并行模拟计算,严重制约了我校教学科研的进行。超算中心于2014年4月23日通过公开招标,投资623万元购置了105万亿次的曙光TC4600刀片超级计算系统。此套系统共有110个计算节点,每计算节点配置2颗12核主频2.5GHz的Intel Xeon E5 2680 v3 CPU和64GB DDR4内存,共2640颗CPU核心。系统通过56Gbps InfiniBand高速互联,采用并行文件存储系统。经过前期大量的系统优化、用户计算应用测试等,此套超算系统的稳定性、各项性能达到了预期目标,于2014年12月面向计算用户正式推出。截至2014年底,已支持了5个千核以上的大规模并行计算,解决了缺少千核级别计算能力的问题,缓解了近期教学科研所需计算能力不足的紧张局面。

Intel MIC计算平台发布

为了为用户提供学习使用Intel MIC(集成众核)高性能计算技术,适应高性能计算发展潮流,2014年9月,ChinaGrid高性能计算集群新增加两台基于Intel MIC的异构高性能服务器,其配置为:两颗Intel Xeon Phi 7110P MIC加速卡(每颗61核、244线程、主频1.1GHz、双精度峰值计算能力为1.073TFLOPS,8GB内存)、两颗64位主频2.6GHz的Intel Xeon E5-2650 v2 x86_64 8核CPU(共16核)、两颗64GB内存及600GB SAS硬盘。

规章制度、规范日常业务完善

2014年8月1日,经校超级计算中心专家委员会和校公共实验中心会议批准,《中国科学技术大学超级计算中心服务管理办法(试行)》、《中国科学技术大学超级计算中心收费标准(试行)和《中国科学技术大学超级计算中心用户备托管协议书(试行)》正式颁布,开始试行,规范了超算中心的管理等,促进超算平台健康发展。

“超算平台作业调度系统的分析与优化”及“超算中心监控系统开发”技术开发项目

“超算平台作业调度系统的分析与优化”项目的实施,使得超算中心作业调度系统功能更加高效,调度策略可根据资源配置、使用需求等实际运行情况自动调整,更加丰富灵活。提高了计算资源的使用率,有效保障了使用的公平性、合理性,提升了用户的使用感受。

“超算中心监控系统开发”项目的实施,可及时发现超算机房及设备存在的隐患,及时处理,保障超算系统的安全稳定运行,避免损失;同时可以减少工作人员在此方面投入的工作时间,节省下精力为用户提供更高更及时的优质服务;其它相关单位也可以直接或者移植使用此系统,减少重复开发工作。

机房监控系统开发和部署

超算中心开发部署了机房内外的视频监控、动力环境监控和报警系统,以及超算系统运行温度监控、应用运行监控、任务报警系统(测试中)等从环境到计算任务全方位的监控报警设施,具有自动化程度高,反应速度快的特点,能有效对超算机房进行监控,保障超算系统的稳定安全运行。


视频监控

监控屏幕

共济动力环境监控

东软动力环境监控

服务器温度监控

Ganglia系统运行监控

用户支持及程序开发

用户程序运行特征监控及分析系统部署

为了更好地让用户了解自己程序实际运行效率和瓶颈所在等,以便进行改进,超算中心部署了Paramon应用运行特征收集器