多集群计算环境故障监控管理系统
【出 处】:
【作 者】:
张毅
[1] ;
陈良
[1] ;
庞剑
[1]
【摘 要】
随着高性能计算集群系统的数量及其节点规模的不断扩大,系统运行维护的难度和工作量也随之加大.介绍的软件系统工作在多套不同软硬件环境的Linux集群系统中,采用命令行脚本程序对各集群中重要的运行状态和指标进行自动监测,并利用socket通信的方式及时将发现的故障信息集中发送到系统管理员Windows终端,切实提高了系统运行维护工作的效率,加快了故障处理响应时间.该系统还利用数据库对故障事件数据进行记录管理,规范了故障处理的流程.
相关热词搜索: 集群 故障 监控 管理 数据库 cluster fault monitor manage database
上一篇:大规模粒子团簇识别分析
下一篇:基于集群平台的SAR成像算法多级通信延迟隐藏技术