基于中心向量的多级分类KNN算法研究
【出 处】:
【作 者】:
刘述昌
张忠林
【摘 要】针对KNN算法在中文文本分类时的两个不足:训练样本分布不均,分类时计算开销大的问题,在已有改进算法的基础上进行了更深入的研究,提出多级分类KNN算法.算法首先引入基于密度的思想对训练样本进行调整,通过样本裁减技术使样本分布更趋于理想的均匀状态,同时计算各类别的类中心向量.在保证类中心向量准确性的前提条件下,使分类阶段的复杂计算提前到分类器的训练过程中.最后一级选用合适的m值(预选类别个数),根据最近邻思想对待分类文本进行所属类别判定.实验结果表明,该算法在不损失分类精度的情况下,不仅降低了计算复杂度,而且显著提高了分类速度.
相关热词搜索: 文本分类 多级分类器 类中心向量 K最近邻
上一篇: 基于ε-修正的直觉模糊信息集成方法及其在决策中的应用
下一篇: 基于改进极限学习机算法的行为识别