一种改进的基于大数据集的混合聚类算法
【出 处】:《
计算机工程与科学
》
CSCD
2015年第37卷第9期 1621-1626页,共6页
【作 者】:
张晓
[1] ;
王红
[2]
【摘 要】
针对k-means算法过度依赖初始聚类中心、收敛速度慢等局限性及其在处理海量数据时存在的内存不足问题,提出一种新的针对大数据集的混合聚类算法super-k-means,将改进的基于超网络的高维数据聚类算法与k-means相结合,并经过MapReduce并行化后部署在Hadoop集群上运行。实验表明,该算法不仅在收敛性以及聚类精度两方面得到优化,其加速比和扩展性也有了大幅度的改善。
相关热词搜索: