理论模拟研究是科学研究的主要组成部分,而高性能计算集群系统是进行理论模拟研究的重要支撑平台[1-2]。近年来,国内各高校高性能集群系统蓬勃发展。据统计,2021年中国HPC TOP100的行业应用中30%的应用为科学与工程计算类应用[3]。以“东数西算”为核心的全国数据中心新布局,将理论模拟研究的平台建设推到一个更高的层次。然而,高性价比的超算中心对从事理论模拟研究的单位存在一些应用不便,例如,高性价比的超算中心大多按年租赁,通常为每个研究组配置一个账号,若多人共用同一账号,则无法保障个人数据的私密性和安全性。用户使用受限,使得超算中心平台资源使用的灵活度低于自有资源。随着“双一流”建设发展,各高校的各级科研单位和研究组在租用超算中心的同时,都纷纷构建了或公用或私有的高性能计算集群系统。但受资金、管理人员、空间等方面的限制,高校所建的集群系统规模一般在百台以内,且基本上以分批建设为主。
吉林大学原子与分子物理研究所是教育部1979年批准设立的自然科学研究机构,研究所的理论模拟实验室主要为原子、分子及能源物理研究提供高性能的数值模拟计算与分析。早在2005年,研究所就利用当时最先进的IBM p690进行教学、科研工作。随着计算机硬件技术的发展,研究所理论模拟实验室规模也在逐渐扩大,各研究组陆续采购多核心塔式、机架式服务器开展教学和科研工作。但由于各计算节点都是独立使用的,并未构建统一的管理平台,直至2015年,研究所才有课题组构建了一套拥有6台计算节点的高性能计算集群系统。
为提升理论模拟科研平台的计算性能,2019年底,依托“新型光场调控物理及应用”重大研究计划,在一流学科建设经费资助下,研究所集结所内各研究组的资源,构建了一套仅有5台计算节点的高性能计算集群系统。此后,每年各研究组及研究所陆续投入资金对共享集群系统进行升级改造,甚至有部分研究组将其原有的高性能、独立使用的计算节点迁移到此平台。目前,研究所共享集群系统共有50台计算节点(含2 600多核心)。这种分期建设的既有全体师生共享资源又有研究组私有资源的中小型集群系统如何进行配置和管理,实现集群系统的安全访问和资源的开放共享,从而提高资源利用率,得到最大的投入产出比,促进教学、科研工作高效稳定地进行,是集群系统建设单位也是高校理论模拟实验室需要进一步探讨的问题[4-6]。
1 集群系统的配置
2 集群系统的安全访问及运维管理
3 结语
近年来,高校、研究所等各级科研单位、各科研课题组建设的集群系统越来越具规模。实践证明,通过本文提出的集群配置方式可以实现集群系统的可持续运行。一方面,充分利用了科研单位不同批次建设的计算资源,确保国有资产的持续使用;另一方面,提升了集群用户安全使用水平和故障检测效率,降低了运维成本,促进了集群系统安全、高效、共享使用,为一流学科建设提供重要支撑。
参考文献
[1] 孙震宇,石京燕,姜晓巍,等.大型高能物理计算集群资源管理方法的评测[J].计算机科学,2017,44(10):85-90.
[2] 金钟,陆忠华,李会元,等.高性能计算之源起:科学计算的应用现状及发展思考[J].中国科学院院刊,2019,34(6):625-639.
[3] 袁国兴,张云泉,袁良.2021年中国高性能计算机发展现状分析[J].计算机工程与科学,2021,43(12):2091-2097.
[4] 郜广兰,徐晶晶,任刚,等.面向高校科研人员的高性能集群计算科研平台建设研究[J].河南机电高等专科学校学报,2019(3):4-7.
[5] 孟玲玲.高性能计算集群系统建设与运行管理研究[J].软件导刊,2017,27(3):138-140.
[6] 王云艳,严鹏辉,张天宇.高校高性能并行计算集群系统运行管理机制研究[J].中国宽带,2020(5):106.
[7] The CentOS Project. Centos7.2[EB/OL]. https://www.centos.org/.
[8] Slurm Team. Slurm19.05 [EB/OL]. https://slurm.schedmd.com.
[9] 林志达,张华兵,曹小明,等.基于堡垒机技术的企业信息网络安全防护模型,2022,30(18):179-183.
[10] 郑先伟.注意!新型Linux挖矿木马来袭[J].中国教育网络,2018(12):58.
[11] 冯伟,姜远飞.一种基于企业微信的中小型高性能集群监控系统:202210210018.9[P].2023-06-30.
[12] 冯伟,姜远飞.基于企业微信的高性能集群监控管理系统[J].吉林大学学报(信息科学版),2023(41):382-386.
冯伟1 姜远飞1 孙晶2 姚震3 刘爱华1
1.吉林大学原子与分子物理研究所 2.吉林大学数学学院 3.吉林大学超硬材料国家重点实验室 |