基于类别特征改进的KNN短文本分类算法
【出 处】:
【作 者】:
黄贤英
熊李媛
刘英涛
李沁东
【摘 要】KNN短文本分类算法通过扩充短文本内容提高短文本分类准确率,却导致短文本分类效率降低.鉴于此,通过卡方统计方法提取训练空间中各类别的类别特征,根据训练空间中各类别样本与该类别特征的相似情况,对已有的训练空间进行拆分细化,将训练空间中的每个类别细化为多个包含部分样本的训练子集;然后针对测试文本,从细化后的训练空间中提取与测试文本相似度较高的类别特征所对应的训练子集的样本来重构该测试文本的训练集合,减少KNN短文本分类算法比较文本对数,从而提高KNN短文本分类算法的效率.实验表明,与基于知网语义的KNN短文本分类算法相比,本算法提高KNN短文本分类算法效率近50%,分类的准确性也有一定的提升.
相关热词搜索: 短文本分类 KNN分类 类别特征 hownet 效率
上一篇: 基于改进K-means算法的微博舆情分析研究
下一篇: 协同进化混合蛙跳算法