模板操作在GPU上的实现与优化
【出 处】:《
计算机工程与科学
》
CSCD
2011年第33卷第3期 41-45页,共5页
【作 者】:
方旭东
;
唐玉华
;
王桂彬
;
唐滔
【摘 要】
随着GPU的快速发展,使用GPU来加速科学计算应用已成为必然趋势。本文抽取了SPEC2000中富含模板操作的Mgrid的两个典型子程序Rprj3和Interp,使用Brook+语言把它们移植到AMDGPU上运行。采用Brook+语言提供的线程调节机制,我们实现了不同线程粒度下的程序版本,并分析了加速比不同的原因,总结了线程粒度调节对模板程序移植的指导意义。我们使用AMD Radeon HD4870 GPU作为实验平台,对比Intel Xeon E5405 CPU上的运行结果发现,在最大规模下,Rprj3获得的相对于CPU版本的加速比为5.37×,Interp获得的相对于CPU版本的加速比为12.8×。
相关热词搜索: