Linux内核参数对Spark负载性能影响的研究
【出 处】:
【作 者】:
王利
王晶
张伟功
邱柯妮
陆克中
首都师范大学北京成像技术高精尖创新中心
北京100048
首都师范大学信息工程学院
北京100048
首都师范大学高可靠嵌入式系统技术北京市工程研究中心
北京100048
深圳大学计算机与软件学院
广东深圳518060
【摘 要】关于Spark性能的研究目前正在成为热点,但调优策略多位于应用层,而不是系统层。操作系统作为硬件之上的第一层软件,对硬件性能发挥起着根本作用。Linux内核提供了丰富的参数作为优化性能的接口,但实际中,这些参数的作用并没有得到充分发挥。人们更多是采用系统默认值,而不是根据具体环境进行调整。然而本文实验发现,系统默认值并不一定是最好的选择,有时甚至是最坏的。定义了“影响比”这一概念,并基于此概念提出了一种通过分析内核函数的执行情况来认识参数对Spark应用影响的方法。针对Spark内存计算的特点,从大页、NUMA这两个与使用内存紧密相关的方面分析了相关内核参数对几种典型Spark负载的性能影响,并由此得出一些结论。希望本文的分析和结论可以为Spark平台合理设置内核参数提供一些参考。
相关热词搜索: 大数据 SPARK Linux 大页 NUMA
上一篇:面向云文件系统的隔离性度量方法研究
下一篇:核辐照损伤金属材料的大规模KMC模拟