基于运行数据分析的Spark任务参数优化
【出 处】:《
计算机工程与科学
》
CSCD
2016年第38卷第1期 11-19页,共9页
【作 者】:
陈侨安
[1] ;
李峰
[1] ;
曹越
[1] ;
龙明盛
[1,2]
【摘 要】
运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据,软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统,在运行过程中会产生大量的运行数据,包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估,若对系统了解不足,进行参数调优存在较大的困难。提出运行数据历史库的概念,历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型,并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。
相关热词搜索: 大数据 运行数据 数据分析 参数优化 SPARK big data runtime data data analysis parameters optimization Spark
上一篇:基于云环境下一种小文件传输策略研究
下一篇:基于SDN架构的高性能网络拥塞避免策略