面向Web论坛的网络信息获取技术及系统实现
【出 处】:《
计算机工程与科学
》
CSCD
2011年第33卷第1期 157-160页,共4页
【作 者】:
彭冬
;
蔡皖东
【摘 要】
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,提出了基于遍历策略的信息搜索技术;根据正文信息分布及论坛自身特点,提出了基于DOM与分块算法相结合的正文提取技术。实验结果表明,遍历策略比传统的网络爬虫遍历策略具有更高的效率,能够采集到更多主题相关度高的网页;经过噪声清洗处理后,有效提取网页正文,提高了信息采集精度。
相关热词搜索:
上一篇:基于查询扩展词条加权的文本检索研究
下一篇:网络社区中的意见领袖特征分析