在专家组网格环境集成负责人肖侬教授的直接领导下,在网格软件开发组查礼等的协助下,在中国国家网格各节点配合下,经过中国国家网格运行管理支持中心负责人迟学斌研究员以及全体技术和工作人员的共同努力,继中国国家网格环境集成情况通报(一)之后,中国国家网格运行管理支持中心工作和网格环境集成有了新的进展,现将近期中国国家网格环境集成情况通报如下。
单位 |
IP |
Gos端口 |
是否有防火墙 |
硬件是否
连通和稳定 |
主Portal上是否可见该节点Gos服务和稳定 |
主Portal上是否可见该节点监控信息 |
主Portal上是否可见该节点应用 |
| 网络中心 |
159.226.49.108 |
8081 |
是 |
稳定 |
稳定 |
是 |
有 |
| 上海超算 |
211.144.106.12 |
8081 |
是 |
连通 |
可见,不稳定 |
|
|
| 清华 |
166.111.68.165 |
8081 |
|
连通 |
可见,不稳定 |
|
有 |
| 应用物理与计算数学所 |
210.82.113.139 |
8081 |
|
连通 |
可见,不稳定 |
|
|
| 中科大 |
202.38.64.44 |
8081 |
无 |
连通 |
可见,不稳定 |
|
|
| 香港大学 |
147.8.179.124 |
8081 |
|
连通 |
可见,稳定 |
|
|
| 国防科大 |
|
|
|
连通 |
可见,不够稳定 |
|
|
| 西安交大 |
202.117.48.160
|
8081 |
|
连通 |
可见,不够稳定; |
|
|
注:空白表示未连通和不可见。
从网络连接上,"telnet <结点ip> 8081"都已经连通,这说明物理连接上没有问题。在gos上,网络中心的gos路由器都对他们的gos路由器进行了添加。
目前从国家网格主portal上基本上能看到各个节点,但有时可见有时又不可见,这表明已经物理连通的结点还不太稳定。关于在主portal上看不见物理上已经连通的某些节点的问题,主要原因可能是各个节点的负载承受能力有限。建议用一台专门的服务器作为gos服务器,与portal服务器(如果有portal服务器)分开。
许多时候,Gos服务的不稳定性导致其服务的不可用性。
国家网格主portal建设情况
前期由清华大学开发的国家网格主portal已经移植安装到中国国家网格管理运行中心(网络中心)专门的服务器上。并已经在运行管理中心与各个节点的连通调试中发挥了作用。主portal页面请专业美工做了设计。本地及各节点的监控信息也集成进入主portal,网络监控的工作也在开展中。
经初步征得有关方面的同意,国家网格网站将采用网络中心前期申请的http://www.cngrid.org/做为新的域名,不久即可提供使用。
12月8日的讨论会上提出设计一个中国地图的页面,标出国家网格的各个节点,当点击某个节点时,即可进一步查看该节点的详细资源信息;当点击节点间的连线时,可以查看到节点间的带宽和时延等基本信息。
国家网格网站情况
前期由清华大学开发维护的“中国国家网格网站”已经移植安装到中国国家网格管理运行中心(网络中心)的服务器上。网格中心已经指派专人负责信息的添加和维护工作,具体工作正在进行之中。
已经确定“中国国家网格技术支持中心网站”将由清华大学牵头开发维护,各个节点协助完善。
国家网格监控情况
根据“中国国家网格环境集成部署细则”有关规定,中国国家网格监控系统采用国防科大前期开发的监控系统。12月26日到12月30日,经过国防科大的调试,可以监测到除清华与西安交大以外6个节点的信息,并且改进了界面显示,能够反映节点信息的最新变动。无法监测到清华的原因已知,很快就会解决。西安交大的原因是由于无法装上ganglia。如果该节点有本地的监控系统,就必须及时与国防科大做监控的田鸣华联系,以便针对该监控系统定制该节点的网格监控系统--MDP。
12月3日,网格运行中心把Portal与GOS分开装在不同机器上,切实解决了GOS不稳定的问题,但是监控出现了问题,只能收集到网络中心一个节点的信息,其他节点的信息都收集不到,原因正在调查中。12月8日的讨论会上对此进行了讨论,估计并分析了几种可能的原因,以便排查。
国家网络监控情况
根据“中国国家网格环境集成部署细则”有关规定,中国国家网格网络监控系统采用北航前期开发的监控系统。北航方面已经与网格运行中心进行了协商,并制定了工作计划,即将开展部署。
国家网格环境应用的封装、移植与运行
目前在主Portal上只能看见网络中心关于生物信息的两个应用和清华大学关于生物信息的一个应用。并且这两个节点的应用可以正常运行。其他节点的应用没有看见。
在12月8号的讨论会上,大家一致认为,选定一个有显示度和代表性的应用作为国家网格环境运行的演示应用,确保在12月27、28日的汇报中正常运行。
存在的问题
国家网格除了网络中心主节点和清华以外其他各个节点的GOS服务不稳定。估计主要原因可能是各个节点的负载承受能力有限,建议用一台专门的服务器作为gos服务器,与portal服务器(如果有portal服务器)分开。希望各个节点引起重视。
Gos本身因为采用了GT3,在运行时导致大量吃内存,因此经过一定时间就会出现内存溢出,系统重起的情况。建议中科院计算所考虑。
除清华和中科院以外节点的应用还没有移植到国家网格环境中来,请专家组督促各个节点尽快进行应用的封装与移植和运行调试。各个节点配合中科院网络中心解决。
12月3日以后,网格运行中心把Portal与GOS分开装在不同机器上,切实解决了GOS不稳定的问题,但是监控出现了问题,只能收集到网络中心一个节点的信息,其他节点的信息都收集不到,原因正在调查之中。建议国防科大开发监控系统的同学解决。
监控的图形表示不美观,与时间段和时间点等的选取等因素有关,有待于改进。建议国防科大开发监控系统的同学解决。
用户提交作业后,执行完成后的作业无法清楚分清属于哪个应用,从用户的角度来看造成不便,有待于改进。希望得到清华大学网格技术支持中心的协助解决。
北航方面着手开发CNGrid网格运行管理的一个简单平台,希望在12月底检查的时候能够完成一个CNGrid节点之间网络流量和延迟的一个简单视图页面,并和CNGrid的Portal结合起来对外提供查看功能。
Portal页面的修改和完善。网络中心负责协调解决。
CNGrid主网站,主Portal和技术支持中心网站已经有一个初步的可见版本,需要清华大学和网络中心的进一步努力工作。
CA证书的发放与认证和使用其作用如何?是否必要?
下一步工作重点
尽快完成各个节点的完全稳定连通,需要各个节点全力配合。
尽快完成国家网格运行管理中心和各个节点的网格监控和网络监控系统的安装与调试,需要各个节点全力配合。
进一步完善Portal的美工与功能。
各个节点必须尽快进行应用的移植和运行调试,需要各个节点共同努力。
需要专家组协调的工作
请专家组督促各个节点积极相互配合,保证中国国家网格环境集成工作早日完成,力争年底检查时有令人满意的可运行成果。
附注:
中国国家网格网站:http://159.226.49.98:8080/
中国国家网格Portal:http://159.226.49.98:8080/Portal/
中国国家网格技术支持中心网站:http://www.cngrid.cn:8080/
清华大学Portal网站:http://cngrid.cn:8080/Portal/
中国国家网格运行管理支持中心
2004年12月8日
|