基于Spark的BIRCH算法并行化的设计与实现
【出 处】:
【作 者】:
李帅
吴斌
杜修明
陈玉峰
北京邮电大学智能通信软件与多媒体北京重点实验室
北京100876
北京邮电大学计算机学院
北京100876
国网山东省电力公司电力科学研究院
山东济南250000
【摘 要】在分布式计算和内存为王的时代,Spark作为基于内存计算的分布式框架技术得到了前所未有的关注与应用。着重研究BIRCH算法在Spark上并行化的设计和实现,经过理论性能分析得到并行化过程中时间消耗较多的Spark转化操作,同时根据并行化BIRCH算法的有向无环图DAG,减少shuffle和磁盘读写频率,以期达到性能优化。最后,将并行化后的BIRcH算法分别与单机的BIRCH算法和MLlib中的K—Means聚类算法做了性能对比实验。实验结果表明,通过Spark对BIRCH算法并行化,其聚类质量没有明显的损失,并且获得了比较理想的运行时间和加速比。