超级运算中心用户会议于2006年6月16日星期五下午在网络信息中心3楼会议室举行,会议由用户委员会主任杨金龙教授主持,各重点学科用户和代表以及网络信息中心相关人员出席了会议。网络信息中心首先汇报了一年来的运行情况以及现阶段遇到的一些问题。在此期间提供一年365天不间断的计算提供了1716960个CPU小时的运算服务,用户对网络信息中心的运行维护和管理状况表示满意,认为这保障了各重点学科科研所需的计算条件,部分本身拥有计算资源的用户认为,相对于PC和PC server, 超算中心的小型机和大型服务器的运算速度有很大的优势,已经成为科研必需的平台。接着,重点学科用户就如下问题进行了讨论,并发表了自己的看法。
1. 关于985二期存储升级的问题,主要重点学科用户都认为此次对于Superdome的外存升级是紧迫的和必须的。由于初期的建设资金所限,当前存储和计算能力不匹配造成了部分资源的利用率不高,部分题目,如Guassian03等对于存储要求较大的题目,运算速度受到制约,还有部分题目由于内存空间满足不了,导致无法运行。预计此次升级能解决这些问题,能极大提高超算中心整体能提供的计算能力。
2.在“十一五”211工程中的下一步建设方向计划的讨论中, 超算中心人员和各重点用户大部分认为,基于超算中心现在的运行情况,目前全校基于MPI的应用的数量明显高于基于OpenMP的,未来的建设方向应倾向于多CPU多核心的集群架构,采用基于RDMA的Infiband的高速低延迟网络进行互联。这种架构的优势在于系统成本相对大型的共享内存系统大为便宜,而且既可以提供基于MPI的并行作业,同时也可以提供4至8路的基于OpenMP的共享内存的并行作业,可满足校内的绝大多数计算应用。部分用户提出OpenMP作业在这种架构中会受到制约,经讨论后认为,在系统单节点上可满足8个及以下CPU的OpenMP作业,大型OpenMP作业仍可在现有的Superdome上完成。对于新系统资金方面的问题,网络信息中心将以公共服务体系建设的名义向学校提出“十一五”211工程的预算要求预计为800万左右,目标是增加2T Flops的运算能力,为初期建设能力的两倍,使得超算中心的整体计算能力在3T Flops左右,可基本满足校内用户的需求。部分重点学科用户表示,仍愿意按照一期建设时采用的方式,出资共同参与超算中心的进一步建设。
3.对于985二期扩容实施后,Superdome的资源调度分配原则和方式,主要用户对此展开了讨论。存储扩容统一后,使用LSF管理作业,4台机器统一调度。部分用户表示望LSF能允许人工干预,对某些急的项目,通过超算中心人员人工调度使其尽快运行;Gaussian03一般情况下使用8个CPU运行最好,希望避免将过多的任务放到同一台机子上;希望能在各组名义下允许开多个子帐户以让各个组能了解各子帐户的运行情况,这些组下的所有子帐户作为一个整体进行排队;希望定期发送运行报表给相应老师,以让老师了解最近各个帐户的运行详细情况。
4.征求对运行管理方面的建议和意见和培训、交流等问题的讨论。部分用户提出了一些建议和问题。并行计算推广:在校内进行并行计算方面的推广,以提高并行计算的意识并促进科学研究的进行。在对科研成果的实施,进行也了有益的讨论,建立机制利于用户的交流和最新成果的共享,并实现能直接利用这些信息统计用户成果的显示度和扩大宣传的作用。部分用户表达了希望网络信息中心能提供集群托管和维护服务,用户交纳一定费用,由中心统一管理。下学期在升级结束后进行相关培训,主要包括系统使用及并行计算等方面。
|