基于运行数据分析的Spark任务参数优化

快速导航

期刊信息

1973年创刊

《计算机工程与科学》的办刊宗旨是为计算机界同行发表有创见的学术论文，介绍有特色的科研成果，探讨有新意的学术观点提供理想园地；�...查看更多>>

通知公告

您现在所在位置：首页 > 期刊导读 > 2016年 > 01 > 信息摘要

【出处】：《计算机工程与科学》 CSCD 2016年第38卷第1期 11-19页,共9页

【作者】：陈侨安 [1] ; 李峰 [1] ; 曹越 [1] ; 龙明盛 [1,2]

【摘要】运行数据是大数据系统中增长最快、最为复杂也是最有价值的数据资源之一。基于运行数据，软件开发者可以分析关于软件质量和开发模型的重要信息。Spark作为一个分布式系统，在运行过程中会产生大量的运行数据，包括日志数据、监控数据以及任务图数据。开发者可以基于运行数据对系统进行参数调优。然而该系统所涉及的参数种类繁多、影响多样且难以评估，若对系统了解不足，进行参数调优存在较大的困难。提出运行数据历史库的概念，历史库中存储的是以往运行任务的特征信息以及运行配置信息。同时提出了基于历史库搜索的参数优化模型，并实验验证了本文提出的参数优化模型对用户任务性能提升具有较好的效果。

上一篇：基于云环境下一种小文件传输策略研究
下一篇：基于SDN架构的高性能网络拥塞避免策略