一种基于Spark框架的并行FP-Growth挖掘算法

快速导航

期刊信息

1973年创刊

《计算机工程与科学》的办刊宗旨是为计算机界同行发表有创见的学术论文，介绍有特色的科研成果，探讨有新意的学术观点提供理想园地；�...查看更多>>

通知公告

您现在所在位置：首页 > 期刊导读 > 2017年 > 08 > 信息摘要

【出处】：

【作者】：张稳罗可

【摘要】Apriori和FP-Growth算法是频繁模式挖掘中的经典算法,由于Apriori存在更多缺陷,因此FP-Growth是单机计算环境下比较高效的算法.然而,对于非并行计算在大数据时代遇到的瓶颈,提出一种基于事务中项间联通权重矩阵的负载平衡并行频繁模式增长算法CWBPFP.算法在Spark框架上实现并行计算,数据分组时利用负载均衡策略,存入分组的数据是相应频繁项的编码.每个工作节点将分组数据中每一个事物中项的联通信息存入一个下三角联通权重矩阵中,使用被约束子树来加快每个工作节点挖掘频繁模式时创建条件FP-tree的速度,再用联通权重矩阵避免每次挖掘分组中频繁模式时对条件模式基的第一次扫描.由于联通权重矩阵和被约束子树的结合应用于每一个工作节点的FP-tree挖掘过程,因此提升了并行挖掘FP-tree性能.通过实验表明,所提出的并行算法对大的数据有较高性能和可扩展性.

上一篇： 云环境下基于秘密共享的海洋遥感影像认证方案
下一篇： 一种基于贝叶斯网络的随机测试方法在Cache一致性验证中的设计与实现