中国国家网格软件CNGrid GOS*
摘 要:CNGrid GOS是为支撑中国国家网格环境运行而开发的一套具有自主知识产权的网格软件,是国家863计划支持的中国国家网格软件研究与开发课题的重要成果。本文介绍了组成CNGrid GOS的各部分软件结构、功能和创新点,包括系统软件、CA证书管理系统及测试环境、三个子版本业务系统(高性能计算网关、数据网格、网格工作流)、监控系统等。
关键词:中国国家网格,GOS(Grid Operating System),高性能计算网关(HPCG: High Performance Computing Gateway),数据网格(CORSAIR),网格工作流,网格监控系统(CNGridEye)。
国家863计划专项支持建设的中国国家网格环境,是聚合了高性能计算和事务处理能力的新一代信息基础设施的试验床。通过资源共享、协同工作和服务机制,有效支持科学研究、资源环境、先进制造和信息服务等应用,以技术创新推动国家信息化建设及相关产业的发展。
CNGrid GOS是为中国国家网格开发的一套具有自主知识产权的网格软件,其与中国国家网格环境的关系如图一所示。

图一 网格软件与网格环境的关系
CNGrid GOS软件主要包括系统软件、CA证书管理系统及测试环境、三个子版本业务系统(高性能计算网关、数据网格、网格工作流)、监控系统等。课题承担单位包括中国科学院计算技术研究所、江南计算技术研究所、清华大学、中国人民解放军国防科学技术大学、北京航空航天大学、中国科学院计算机网络信息中心和上海超级计算中心等。
1. CNGrid GOS系统软件
CNGrid网格系统软件VegaGOS提供全局名字管理、虚拟组织管理、用户管理、资源管理、应用运行时管理等主要功能。VegaGOS在全局名字管理、分布式资源管理、虚拟组织、网程技术、网格安全机制和支持多种行业应用方面具有重要创新。
(1)全局名字管理(Naming)。Naming是一种非集中的名字稳定的全局对象(Gnode)管理系统。提供低延迟、高成功率的基于全局唯一标识(guid)的实体对象定位,支持属性匹配式的实体对象搜索。Naming是VegaGOS中的基础性组件,用于构造系统,并作为一个可复用的组件提供一层全局的虚拟名字空间,解决物理地址不稳定、应用和资源紧耦合的问题。
(2)资源管理 (RController)。VegaGOS中资源形式多样,访问方式各异,并且各异的资源难以统一描述和管理。VegaGOS引入资源控制器(RController)机制,接入和管理多种异构资源。资源控制器提供统一的资源管理方式,包括资源的创建、销毁、访问控制、访问、读写属性等功能。
(3)虚拟组织管理(Agora)。VegaGOS的虚拟组织(Agora:社区)提供资源、用户和访问控制策略管理功能,具有单点登录及单一系统映像性质。虚拟组织作为一个共同信任的第三方超组织形式,实现了自主性与安全性统一的跨管理域访问控制机制。
(4)应用运行时管理(Grip)。应用运行时需要维护用户身份以支持访问控制实现,在VegaGOS中利用网程(Grid process)技术不仅实现了应用运行时用户身份以及上下文的保持,同时可以管理应用本身占用的资源,并进一步支持多应用的分布式协同。
利用以上创新技术在VegaGOS中实现的网格应用运行时管理结构图如图二所示。

图二 VegaGOS应用运行时管理结构图
(5)应用层工具。VegaGOS为了支持传统的高性能计算模式,并使之具有网格特征而提供了丰富的应用层工具,包括Portal/GShell/VegaSSH/GOSClient。Portal为用户提供友好的基于Web的操作界面,方便用户使用VegaGOS提供的各种功能;GShell是一个类似GNU bash的命令执行环境,支持应用以网程方式运行;VegaSSH可以单一登录任意网格节点,使用后端的高性能计算资源;GOSClient是一个独立安装的使用VegaGOS的客户端工具,其中包含GShell。
单位:中国科学院计算技术研究所
地址:(100190)北京市海淀区中关村科学院南路6号
电话:010-62600969 传真:010-62600900
联系人:查 礼 撰稿人:鲁小亿
2. CA证书管理系统及测试环境
1.CA证书管理系统
CNGrid网格CA主要为国家网格中的应用及其用户提供数字证书服务,为它们发放正式或测试数字证书,提供证书撤销和状态查询服务。
网格CA系统由各级CA中心和各RA中心组成。采用多证书体系结构,上级证书管理中心签发下级证书管理中心的相关证书。
CA系统内各个服务器主要采用“Web服务器-功能服务器-数据库服务器”的3层结构,服务器平台采用Linux操作系统,采用Windows系统和PC机作为管理终端平台。
网格CA的软件体系如图三所示。

图三 网格CA的软件体系结构图
网格CA证书管理系统基于Web方式提供了较为完备的证书申请、生成、发布、撤销、查询和管理等功能。
(1)证书申请信息解析,签名证书生成、签发、发布、撤销、作废;
(2)RA分布式审核与RS集中式审核相结合;
(3)证书库管理;
(4)系统用户管理、日志管理、安全审计和安全管理;
(5)系统数据备份与恢复;
(6)系统密钥管理;
(7)证书下载、查询、验证;
(8)标准化证书,包括用户要求的扩展项等。
2.测试环境
利用当前流行的测试理念和测试管理手段,开展CNGrid GOS软件集成与测试工作,确保向用户提交功能齐全正确、性能高效、系统稳定可靠、使用方便快捷的CNGrid GOS软件。为了实现该目标,对CNGrid GOS软件进行了全方位、多角度的测试。
(1)软件界面人工测试,关注界面操作的一致性、易用性、有效性、在线帮助和提示等;
(2)功能自动化测试,不仅按照功能需求测试软件所有功能,并且实现大部分功能测试的自动化;
(3)性能测试及其分析,按照性能需求从实战的角度测试软件的响应时间、吞吐率、并发用户数,并分析性能数据供开发人员参考以改进系统性能;
(4)稳定性测试及其分析,考核系统在大负载(≥90%)情况下持续稳定运行的时间,最终提供给用户稳定可靠的系统;
(5)兼容性测试,包括操作系统兼容、宿主环境兼容、客户端环境兼容,确保系统在指定类型的安装环境中能正确运行;
(6)易用性测试,促进CNGrid GOS软件产品具有易理解、学习、使用和吸引用户的能力。

图四 CNGrid GOS集成与测试组织示意图
单位:江南计算技术研究所
地址:(214083)无锡市33信箱031号
电话:0510-85155200 传真:0510-85155197
联系人:韦海亮 撰稿人:韦海亮
3. 高性能计算网关
高性能计算网关(HPCG)是一套基于VegaGOS开发的支持高性能科学工程计算的服务和应用软件。目前已经整合了CNGrid上10余个计算中心的计算和存储资源。HPCG旨在为非专业用户提供“专业”的计算环境。HPCG主要由多个相关系统服务和包括Web Portal、命令行和API在内的用户界面组成。系统服务包括批作业服务、文件管理服务、消息服务、用户映射服务和记账服务等。通过这些服务的不同组合,可为用户解决不同的高性能计算需求。HPCG的特点如下。
1.功能完备
(1)批作业服务。可向多个高性能计算中心透明提交作业,灵活高效的作业状态获取机制;
(2)文件管理服务。支持远程操作文件,可在线编辑小文件,提供适应防火墙设置的可靠的同步或异步文件传输功能;
(3)记账服务。遵循OGF-RUS、OGF-UR国际记账标准,支持PBS、LSF等多种批作业处理系统下的资源使用情况记录、并针对作业、用户、节点提供丰富的数据统计功能,支持网格全局记账查询。
2.集成方便
(1)开发接口。基于功能完备的开发库可以方便地定制自己的高性能计算应用;
(2)模板技术。基于HPCG独有的模板技术,用户只需编辑XML格式的模板文件,即可方便地实现高性能计算软件资源的接入与共享。
3.界面友好
对科学计算用户及资源提供者提供一致和功能完备的基于Web的网格门户和命令行操作两种界面。
HPCG可以解决企业内网用户的网格批作业使用需求,提供功能丰富、界面友好、运行稳定的科学工程计算环境。图五展示了HPCG在企业和计算中心部署示意图。

图五 HPCG在企业和计算中心部署示意图
单位:中国科学院计算技术研究所
地址:(100190)北京市海淀区中关村科学院南路6号
电话:010-62600966 传真:010-62600900
联系人:程伯群 撰稿人:程伯群
4. 数据网格
数据网格软件CORSAIR是一种针对网格环境中数据的迁入、迁出和共享等问题而提出的虚拟文件管理系统。CORSAIR虚拟文件管理系统为用户透明地提供数据存储与共享服务,由系统负责底层存储资源的组织和数据的访问控制,用户可以在CORSAIR资源管理器中方便地实现数据的迁入、迁出和共享操作。CORSAIR具有以下特点。
(1)CORSAIR提供集成本地资源和网络资源的统一文件浏览视图;
(2)提供并行文件传输、断点续传、三方传输功能;
(3)提供在统一视图内的资源管理功能,如:文件复制、粘贴和共享功能等;
(4)提供对CORSAIR存储空间的资源检索功能;
(5)提供基于WEB的社区管理功能,如:创建/解散社区、审批/删除社区成员等。
CORSAIR不仅提供了公共数据资源、还为注册用户提供了个人存储空间和针对社区应用提供了社区共享存储空间,用户可以使用CORSAIR资源管理工具像管理本地文件一样管理CORSAIR存储空间。
CORSAIR系统由存储服务、虚拟目录服务、管理门户以及图形界面管理器和命令行管理器构成,系统部署如图六所示。

图六 CORSAIR系统部署示意图
单位:清华大学
地址:(100084)北京清华大学计算机系
电话:010-62796341 传真:010-62797141
联系人:武永卫 撰稿人:黄小猛
单位:中国人民解放军国防科学技术大学
地址:(410073) 长沙国防科学技术大学计算机学院601教研室
电话:0731-4573639 传真:0731-4556089
联系人:肖 侬 撰稿人:肖 侬
5. 网格工作流
网格工作流软件为用户提供了一套基于服务的、可视化的网格工作流建模环境和使用环境,可以帮助用户对来自CNGrid各节点的服务资源以流程的形式进行组装,为用户提供一种可视化的应用开发环境以及基于浏览器的运行监控环境。网格工作流软件结构如图七所示,并具有以下特点。
(1)工作流建模能力强。同时支持WS-BPEL和XPDL两种工作流描述标准,既能描述全自动化的科学计算流程,也能描述带人工参与活动的科学计算流程和商业计算流程,从而能够使用户实时地参与到流程运行过程中,对计算结果浏览或对计算过程进行及时干预。
(2)网格服务获取方便。通过可配置的服务适配器、建模工具和网格工作流程门户可同时连接到多个网格节点上的不同社区,并为用户提供可视化的服务目录视图,供用户查看、组装或运行服务。
(3)流程服务化和重用。部署到流程服务器上的流程可以作为服务在其它流程中进行重用。
(4)可插拔、可扩展的流程管理控制台。一种插件式的、基于浏览器的流程引擎分布管理机制,可实现对不同流程引擎进行统一的监控和管理,具有流程定义分类管理、流程可视化监控、任务项管理、网格服务接入配置以及系统配置等功能。
(5)可扩展的流程建模工具和流程引擎。可以方便地在流程模型中扩展新的活动类型,并可以在流程引擎中以插件的方式扩展该活动的解释和执行组件。

图七 CNGrid网格工作流建模环境和使用环境示意图
单位:中国科学院计算技术研究所
地址:(100190)北京市海淀区中关村科学院南路6号
电话:010-62600957 传真:010-62600900
联系人:李厚福 撰稿人:李厚福
单位:北京航空航天大学
地址: (100191)北京市海淀区学院路37号7-28信箱
电话:010-82339679 传真:010-82339679
联系人:胡春明 撰稿人:胡春明
6. 中国国家网格监控系统
CNGridEye是中国国家网格(CNGrid)的监控系统,为CNGrid提供资源监控和记账服务。CNGridEye收集国家网格环境中分布、异构和动态变化的各类资源的状态信息,并将这些信息组织起来供作业调度、故障检测等上层应用使用。CNGridEye还提供了强大的记账功能,准确记录作业和用户对资源的使用情况,从而支持网格资源的优化和服务质量的提高。CNGridEye系统结构如图八所示。

图八 CNGridEye系统结构图
CNGridEye具有如下特点。
(1)采用一体化的监控体系结构来监控跨域、分布的资源;
(2)支持多种信息模型,提供了主机、集群、节点、网格4个层次的监控信息,为各监控层次提供了完整的监控度量指标;
(3)支持对硬件、软件、网络、服务等各类资源的监控,支持OpenPBS、LSF、OAR等作业管理系统;
(4)提供了强大的故障检测和报警功能;
(5)对网格操作系统GOS进行严密监控,保障其安全稳定的运行;
(6)对各个网格节点间网络质量进行监测,及时发现系统瓶颈;
(7)提供了强大的用户界面,支持用户定制图表;
(8)分布式记账方式,准确记录用户的资源消耗情况,支持灵活的计费策略。
单位:北京航空航天大学
地址:(100191)北京市海淀区学院路37号
电话:010-82315908 传真:010-82328077
联系人:栾钟治 撰稿人:栾钟治
相关文档链接
l 系统部署人员请看相关安装手册:
如果您已经安装了GOS3.1版,期望升级到3.2版,请参考patch包手册
l 系统使用及管理人员请看相关操作手册:
l 基于GOS系统的开发人员,请参见相关开发手册:
l CNGrid GOS宣传手册: