面向ARMv8 64位多核处理器QTRSM的实现
【出 处】:
【作 者】:
杜琦
姜浩
李宽
彭林
杨灿群
国防科学技术大学计算机学院
湖南长沙410073
【摘 要】在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。
相关热词搜索: ARMv8 64位多核处理器 OpenBLAS 四精度 double-double数据格式 QTRSM
上一篇:基于硅通孔绑定后三维芯片测试调度优化方案
下一篇:一种高能效的结构不对称指令缓存