MS-DOC文件文本提取研究
【出 处】:《
计算机工程与科学
》
CSCD
2014年第36卷第8期 1505-1511页,共7页
【作 者】:
黄步根
[1] ;
伏娟
[2]
【摘 要】
关键词搜索广泛应用于情报分析、搜索引擎和计算机取证,对MS-DOC文件进行关键词搜索可能漏判,明明存在的关键词却找不到.微软复合文档结构由一系列流组成,流以扇区为单位存储,通过目录结构和扇区分配表对流及其存储空间进行管理.MS-DOC文件中的文本存储在WordDocument流中,文本存储不一定连续,通过Table流记录分块情况.关键词可能跨越不相邻扇区,即使在相邻扇区,一个关键词可能一部分是压缩存储,另一部分是非压缩存储,这些都是关键词搜索漏判的原因.根据Table流中的分块信息提取WordDocument流中的文本,并统一编码格式,进而进行关键词搜索,就可以避免漏判.
相关热词搜索: