一种基于综合不放回抽样的随机森林算法改进

快速导航

期刊信息

1973年创刊

《计算机工程与科学》的办刊宗旨是为计算机界同行发表有创见的学术论文，介绍有特色的科研成果，探讨有新意的学术观点提供理想园地；�...查看更多>>

通知公告

您现在所在位置：首页 > 期刊导读 > 2015年 > 07 > 信息摘要

【出处】：《计算机工程与科学》 CSCD 2015年第37卷第7期 1233-1238页,共6页

【作者】：李慧 ; 李正 ; 佘堃

【摘要】数据挖掘是大数据服务计算的一个重要方法，对于优化服务计算有重要意义。作为一种典型的数据挖掘方法，随机森林有着较高的正确率，因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题，进一步提升随机森林的正确率和效率，成为一项极其重要的研究。通过改变训练集的样本量和样本抽样方法，对平衡样本集和不平衡样本集进行分析，发现通过上述两个改进后，在优化区间内，平衡样本集泛化误差会减小12％～20％；单项改变抽样方法，可以使算法时间缩短，提升效率达10％～40％；对不平衡数据，也能够明显提升效率。理论和实验均证明，基于综合不放回抽样的随机森林算法改进能够提升平衡样本的正确率，使得该数据挖掘方法更适用于服务计算中的大数据分析和处理。

上一篇：基于逐分量软干扰删除的迭代线性检测算法
下一篇：一种基于改进模拟退火算法的程序性能优化参数搜索算法