基于Hadoop的广域网分布式主题爬虫系统框架
【出 处】:
【作 者】:
王淑芬
[1] ;
高军礼
[1] ;
邹普
[1] ;
宋海涛
[2]
【摘 要】
广域网分布式爬虫与局域网爬虫相比有诸多的优势,而现有基于Hadoop分布式爬虫的设计主要是面向局域网环境的。为解决Hadoop分布式计算平台不适合部署于广域网的问题,设计了一个基于Hadoop的广域网分布式爬虫系统框架。爬虫系统利用消息中间件实现分布式可靠通信,数据存储采用可伸缩的Hadoop分布式文件系统HDFS,网页解析利用MapReduce并行处理,并基于模板匹配实现框架可定制。系统的性能仿真显示该框架具有支撑大规模爬虫并发工作的能力。
相关热词搜索: 分布式爬虫 Hadoop 爬虫框架 模板匹配 主题爬虫 WAN based distributed crawler Hadoop crawling system framework templates matching topic crawler