面向分层结构的网页分类与抓取

快速导航

期刊信息

1973年创刊

《计算机工程与科学》的办刊宗旨是为计算机界同行发表有创见的学术论文，介绍有特色的科研成果，探讨有新意的学术观点提供理想园地；�...查看更多>>

通知公告

您现在所在位置：首页 > 期刊导读 > 2012年 > 11 > 信息摘要

【出处】：《计算机工程与科学》 CSCD 2012年第34卷第11期 1-6页,共6页

【作者】：王振宇 [1] ; 唐远华 [1] ; 郭力 [2]

【摘要】传统网络爬虫为基于关键字检索的通用搜索引擎服务，无法抓取网页类别信息，给文本聚类和话题检测带来计算效率和准确度问题。本文提出基于站点分层结构的网页分类与抽取，通过构建虚拟站点层次分类树并抽取真实站点分层结构，设计并实现了面向分层结构的网页抓取；对于无分类信息的站点，给出了基于标题的网页分类技术，包括领域知识库构建和基于《知网》的词语语义相似度计算。实验结果表明，该方法具有良好的分类效果。

相关热词搜索：

上一篇：无线传感器网络QoS仿真与研究
下一篇：最后一页