基于Hadoop的可视化DeepWeb采集平台设计
【出 处】:《
计算机工程与科学
》
CSCD
2016年第38卷第2期 217-223页,共7页
【作 者】:
刘彤
[1] ;
张阳
[2] ;
孙琦
[2] ;
袁翀
[2]
【摘 要】
随着信息技术的发展,互联网信息资源变得越来越丰富,大数据技术的发展使得我们能够从互联网复杂的信息数据中获得相应的知识。这其中最基本的技术就是大数据采集技术,它使我们能够将互联网数据快速采集下来并结构化存储。设计的基于Hadoop的可视化Deepweb采集平台是一种简单易操作的高效深度采集平台,运用Webkit技术作为核心引擎实现可视化配置和深度采集功能,同时通过优化采集算法,调整Hadoop任务分配策略提升效率。实验结果表明,设计的数据采集平台获得了较好的效果。