基于MapReduce的Bagging决策树优化算法

快速导航

期刊信息

1973年创刊

《计算机工程与科学》的办刊宗旨是为计算机界同行发表有创见的学术论文，介绍有特色的科研成果，探讨有新意的学术观点提供理想园地；�...查看更多>>

通知公告

您现在所在位置：首页 > 期刊导读 > 2017年 > 05 > 信息摘要

【出处】：

【作者】： 张元鸣陈苗陆佳炜徐俊肖刚浙江工业大学计算机科学与技术学院浙江杭州310023

【摘要】针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题，提出了一种基于Bagging的决策树改进算法，并基于MapReduce模型对改进算法进行了并行化。首先，基于Bagging技术对C4.5算法进行了改进，通过有放回采样得到多个与初始训练集大小相等的新训练集，并在每个训练集上进行训练，得到多个分类器，再根据多数投票规则集成训练结果得到最终的分类器；然后，基于MapReduce模型对改进算法进行了并行化，能够并行化处理训练集、并行选择最佳分割属性和最佳分割点，以及并行生成子节点，实现了基于MapReduce Job工作流的并行决策树改进算法，提高了对大数据集的分析能力。实验结果表明，并行Bagging决策树改进算法具有较高的准确度与敏感度，以及较好的伸缩性和加速比。

相关热词搜索： 决策树 Bagging MAPREDUCE模型大数据分析准确性

上一篇：海量文件系统中基于特征实现文件多维度浏览
下一篇：众核处理器的共享一级指令缓存研究