面向分层结构的网页分类与抓取
【出 处】:《
计算机工程与科学
》
CSCD
2012年第34卷第11期 1-6页,共6页
【作 者】:
王振宇
[1] ;
唐远华
[1] ;
郭力
[2]
【摘 要】
传统网络爬虫为基于关键字检索的通用搜索引擎服务,无法抓取网页类别信息,给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取,通过构建虚拟站点层次分类树并抽取真实站点分层结构,设计并实现了面向分层结构的网页抓取;对于无分类信息的站点,给出了基于标题的网页分类技术,包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明,该方法具有良好的分类效果。
相关热词搜索:
上一篇:无线传感器网络QoS仿真与研究
下一篇:最后一页