基于Hadoop平台的TFIDF算法并行化研究
【出 处】:《
计算机工程与科学
》
CSCD
2014年第36卷第6期 1018-1022页,共5页
【作 者】:
王静宇
[1,2] ;
赵伟燕
[2]
【摘 要】
针对大数据集下文本分类算法在单机上训练和测试过程效率低下的问题,提出了基于Hadoop分布式平台的TFIDF文本分类算法,并给出了算法实现的具体流程.通过MapReduce编程模型实现了考虑到词在文档中位置的并行化TFIDF文本分类算法,并与传统串行算法进行了对比,同时在单机和集群模式下进行了实验.实验表明,使用并行化的TFIDF文本分类算法可实现对海量数据的高速有效分类,并使算法性能得到优化.
相关热词搜索: