一种基于综合不放回抽样的随机森林算法改进
【出 处】:《
计算机工程与科学
》
CSCD
2015年第37卷第7期 1233-1238页,共6页
【作 者】:
李慧
;
李正
;
佘堃
【摘 要】
数据挖掘是大数据服务计算的一个重要方法,对于优化服务计算有重要意义。作为一种典型的数据挖掘方法,随机森林有着较高的正确率,因而得到广泛的应用。为了更加准确高效地处理服务计算中的大数据问题,进一步提升随机森林的正确率和效率,成为一项极其重要的研究。通过改变训练集的样本量和样本抽样方法,对平衡样本集和不平衡样本集进行分析,发现通过上述两个改进后,在优化区间内,平衡样本集泛化误差会减小12%~20%;单项改变抽样方法,可以使算法时间缩短,提升效率达10%~40%;对不平衡数据,也能够明显提升效率。理论和实验均证明,基于综合不放回抽样的随机森林算法改进能够提升平衡样本的正确率,使得该数据挖掘方法更适用于服务计算中的大数据分析和处理。
相关热词搜索: 随机森林 平衡数据 不平衡数据 不重复抽样 random forest balanced data unbalanced data sampling without replacement