基于多属性的海量Web数据关联存储及检索系统
【出 处】:《
计算机工程与科学
》
CSCD
2014年第36卷第3期 404-410页,共7页
【作 者】:
罗芳
[1] ;
李春花
[1] ;
周可
[1] ;
黄永峰
[2] ;
廖正霜
[1]
【摘 要】
传统的Web数据检索一般采用全文检索方法,该方法具有很好的灵活性,但舆情分析往往需要获得相关的网页属性及统计信息.针对传统的Web检索方法无法满足上述需求,基于Hadoop平台设计并实现了一种基于多属性的海量Web数据的关联存储及检索系统,为舆情分析提供基础检索与统计服务.主要实现HDFS上基于属性的网页数据的分类和聚类存储,解决小文件存储同时提高数据访问吞吐量;建立原始网页数据与属性数据之间的关联映射;基于HBase的已有索引机制,结合分布式本地索引机制解决基于HBase的动态属性多条件选择查询的辅助索引问题.
相关热词搜索: