主题模型在短文本上的应用研究
【出 处】:
【作 者】:韩肖赟 侯再恩 孙绵
【摘 要】针对短文本上以LDA为主的传统主题模型易受特征稀疏、噪声以及冗余影响的问题,首先梳理了文本特征表示法的变化以及短文本上主题模型的发展现状,并系统地总结了LDA模型和狄利克雷多项混合模型(DMM)各自的生成过程和相应的吉布斯采样参数推导。关于主题模型最优主题数,选取常见的4种优化指标进行了详细的对比说明。最后分析了近2年主题模型的扩展研究和其在网络舆情上的简单应用,并以此指明了未来主题模型的研究方向和侧重点。
相关热词搜索:潜在狄利克雷分配模型; 狄利克雷多项混合模型; 短文本; 主题模型; 网络舆情; 吉布斯采样;