提升大规模集群上并行计算软件系统可靠性和服务性的方法与实践
【出 处】:
【作 者】:
林彦宇
;
陈虎
;
苗军
;
韩佳龙媚
;
赖路双
【摘 要】
大规模集群上的并行计算软件需要具备处理部分节点、网络等失效的容错能力,也需要具有易于管理、维护、移植和可扩展的服务能力.针对星形计算模型,研究和开发了一套并行计算框架.利用调度节点内部的可变粒度分解器、相关队列等方法,实现了全系统容错,且具有较好的易用性、可移植性和可扩展性.系统目前可以实现300 TFlops计算能力下连续运行超过150 h,而且还具有进一步的可扩展能力.
相关热词搜索: 可靠性 可扩展性 服务性 大规模集群 并行计算软件 availability scalability serviceability large scale cluster parallel computing software
上一篇:计算生物学中的高性能计算(Ⅱ)—序列分析
下一篇:最后一页