基于MapReduce的Bagging决策树优化算法
【出 处】:
【作 者】:
张元鸣
陈苗
陆佳炜
徐俊
肖刚
浙江工业大学计算机科学与技术学院
浙江杭州310023
【摘 要】针对经典C4.5决策树算法存在过度拟合和伸缩性差的问题,提出了一种基于Bagging的决策树改进算法,并基于MapReduce模型对改进算法进行了并行化。首先,基于Bagging技术对C4.5算法进行了改进,通过有放回采样得到多个与初始训练集大小相等的新训练集,并在每个训练集上进行训练,得到多个分类器,再根据多数投票规则集成训练结果得到最终的分类器;然后,基于MapReduce模型对改进算法进行了并行化,能够并行化处理训练集、并行选择最佳分割属性和最佳分割点,以及并行生成子节点,实现了基于MapReduce Job工作流的并行决策树改进算法,提高了对大数据集的分析能力。实验结果表明,并行Bagging决策树改进算法具有较高的准确度与敏感度,以及较好的伸缩性和加速比。
相关热词搜索: 决策树 Bagging MAPREDUCE模型 大数据分析 准确性
上一篇:海量文件系统中基于特征实现文件多维度浏览
下一篇:众核处理器的共享一级指令缓存研究