高性能计算作为当前世界竞争的高科技热点之一,对国家经济和社会发展具有深远影响,其不仅是当前国内外研究领域的重要发展方向,而且为大规模交叉科学研究、工程应用提供强大的支撑平台,是世界各国竞相争夺的战略制高点。中国在此领域经过近20年的发展,在硬件上已经达到了国际先进水平,迟学斌表示,计算机是“死”的,让机器发挥作用必须与实际应用相结合,才能实现它的经济价值、社会价值和发挥它的威力。
迟学斌,男,博士,研究员,博士生导师。主要研究方向为并行计算与软件、网格计算技术。1989年7月毕业于中国科学院计算中心,获博士学位。现任中国科学院计算机网络信息中心总工程师。在国内外重要学术刊物上发表论文100余篇;合作出版专著4部。获教学科研成果奖共8项;其中:国家级3项,省部级5项。目前承担教学科研项目共4项;其中:国家级项目1项,省部级项目3项。
2010年,所教学的“高性能并行计算”课程并评为中科院研究生院“北京集中教学园区2009-2010学年校级优秀课程”。2016年组织团队提交的“神威太湖之光超级计算机上的极端尺度晶粒粗化相场模拟”SC16论文,成功入围ACM Gordon Bell奖提名。
创新“十三五” 致力建设高性能环境
作为我国国家高性能计算环境建设与发展的带头人之一,中国科学院计算机网络信息中心总工程师迟学斌研究员,带领团队深入开展国家高性能计算环境建设与应用研究, 主持及承担了多项国家重点科研项目,他始终保持科技创新的发展脚步,不断为国家高性能计算环境的建设贡献自己的力量。
“十三五”期间,国家高性能计算环境重点开展了服务化机制和支撑体系的研发工作,在资源聚合、网络传输、核心服务、社区支持、安全运行、评价体系等层面得到了全面提升,构建了具有基础设施形态、服务化模式运行的高性能计算服务平台。在此期间,迟学斌带领团队做出了一系列创新性的科研工作,形成了环境的服务化运行机制与支撑科学计算的新形态。
首先,将核心软件升级为 SCE2.0,建设了消息总线系统,通过实现消息同步和信息汇聚功能支持了环境的双中心运行,提升了环境运行的可靠性,为未来计算能力升级后环境服务的可扩展性打下基础。迟学斌团队研发了时间优先、负载优先、成本优先等多种作业调度策略,以适应不同的用户需求和场景需求。环境优化了 Portal 页面,集成了典型应用运行时长预测功能,为用户提交作业和环境任务调度提供支持。
领域社区和业务平台是专业领域研究和生产的重要支撑工具,为有效提升环境对社区平台的支撑能力,迟学斌团队研发了多源用户认证授权技术,使来自不同计算集群、环境和社区平台的账户能够互联互通,并在此基础上建设了聚合资源运行支撑环境(AROSE),通过建立资源匹配、任务全局调度执行、业务流程编排管理等方法,实现社区平台与网格环境的松耦合式对接,形成了资源供给与使用的新模式。
为了解决环境中各结点网络运营商差异导致的数据传输性能瓶颈问题,迟学斌团队研发了 EthUDP 隧道传输技术,实现了数据的高速加密传输。基于该技术,环境建立了软件定义广域网(SDWAN),以网络条件较好的结点为骨干, 通过流量调度的方式实现了数据绕行式的高速转发,有效提升了环境的数据传输性能和安全性。
为保障能够安全稳定的提供服务,他们还建设了全局资源监控和大屏展示系统,并基于日志分析和异常检测技术形成了环境运行状态诊断系统,从而能够快速的定位和响应环境异常问题, 以及设立了闲置资源回收策略等机制,进一步提升环境运行效率和服务水平。
“十三五”期间可谓是科研成果的爆发期, 迟学斌还带领团队进行了标准和评价体系的建立工作。超算资源评价标准是一套可以量化网络服务水平和集群计算服务水平的规范,通过运行指定的评测软件得到相应评测结果,并设立环境资源准入机制以规范环境的整体资源结构。环境综合评价体系通过对环境资源水平、服务能力、人员成果质量和应用推广情况等方面进行评估,最终形成环境发展指数,以客观的衡量国家高性能计算环境的发展水平。
十三五以来,国家高性能计算环境持续提升自身的水平,催生了一大批优秀的科研成果,助力物理、化学、生物医药、天文学、环境科学、材料科学、工业设计等众多学科领域的研究工作,为我国科学技术发展做出了重要贡献。目前,《国家高性能计算环境发展报告(2015-2020年度)》已经发布,反映了国家高性能计算服务环境在“十三五”期间取得的进步,为“十四五” 工作的进一步开展提供数据支撑。
信息保障建设实践 赋能决策走向未来
2020 年新冠疫情期间,环境支持了“基于国家高性能计算环境的生物医药应用服务社区”项目团队快速响应抗新冠病毒药物科研攻关,短时间内形成基于超大规模快速虚拟筛选框架的计算平台,大大缩短了虚拟筛选时间。
在进行技术研发的同时,迟学斌和团队在科研成果推广方面也在不断努力,他们积极开展应用推广工作,扩大了环境在国内国际相关领域的影响力。他们与国家重点研发计划高性能计算专项的各个项目开展了充分交流合作,对专项总体目标起到了有效支撑:聚合了国产超级计算系统的资源,并且基于多源认证授权技术、可扩展接口技术和国家高性能计算环境运行支撑平台AROSE,支撑了专项项目建设的社区平台与环境的资源对接;同时,在环境中部署了专项项目自主研发的应用软件,助力构建国产自主研发应用软件生态。
环境还支持国产大科学装置的建设运行,中国科学院地球大数据科学工程致力于构建包含资源、环境、生物、生态等多个领域的大数据与云服务共享平台,推动地球大数据领域的技术创新与地球系统科学的重大突破和科学发现,为一带一路、数字中国、人类命运共同体和联合国可持续发展目标等国内外重大战略提供科技支撑和决策支持。平台系统软件通过与国家高性能计算环境对接实现了跨域资源汇聚与调度能力,提升了平台的可使用算力和服务能力。
迟学斌团队收集了数台超级计算系统的典型应用历史作业数据,经脱敏后形成“并行作业负载资料库”并公开发布,为研究高性能计算作业特征和调度方法提供了数据支持;环境中的数据分析工具已推广到了多个高性能计算集群的运行数据分析中,对系统的运行异常发现起到积极作用;用于环境网络传输优化的隧道技术已在多所高校和研究院所的网络业务构建中得到应用。
自诞生以来,国家高性能计算环境持续提升自身的服务水平,并且催生了一大批优秀的科研成果。“十三五”期间,环境建设团队在资源聚合、网络传输、核心服务、社区支持、安全运行、评价体系方面做出了一系列工作,形成了环境的服务化运行机制与支撑科学计算的新形态。同时环境在技术和成果推广方面也在不断努力,扩大了环境在国内国际相关领域的影响力。
在未来,国家高性能计算环境将进一步发挥国内优质超算资源的聚合优势,面向新科学研究范式打造超算互联网,形成算力互联、学科协同、产研融合的发展形态,促进交叉学科的应用融合与成果产出,朝向世界顶尖的大规模计算服务环境不断迈进。