文档介绍:
基于 BM25 算法的主题模型优化算法
李宇坤,陈光**
(北京邮电大学模式识别实验室)
5
10
15
20
25
30
35
40
摘要:本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可
读性和独立性。不同于传统热点话题发现算法,本文提出的 LDA-BM25 算法是针对 LDA 主
题模型的修正和改进。算法将 LDA 模型所发现的潜主题转化为可读性很强的多个话题关键
词。实验以中文 Twitter 数据为语料,对比了 LDA 模型与 LDA-BM25 算法所发现的话题,
本文提出的算法具有更强的可读性、合适的话题粒度和语义上更加独立。
关键词:自然语言处理;主题模型;BM25 算法;话题发现;可读性
中图分类号:
Topic Model Refinement Based on Modified BM25
Algorithm
LI Yukun, CHEN Guang
(Beijing University of Posts and munications)
Abstract: This paper introduces a novel approach to detect and present more readable hot topics from
short texts like Twitter. Traditional clustering methods and topic model have ings. To
e the disadvantages of those methods, we proposed a method called Topic Term
Refinement-BM25 method (TTR-BM25) to modify and represent the latent topics of topic model. We
convert the latent topics to real topics which can be easily understood by human
experiments on Chinese Twitter corpus, pare the performance of our method with that of LDA
topic model. We show topics detected by our method, and demonstrate the difference between LDA
topics and our refined topics. The topics detected by our TTR-BM25 Method have a better readability,
suitable granularity and are independent in semantics. And we further discuss why topic model has
poor performance on the readability of topics.
Key words: Natural Language Processing; Topic Model; BM25; Topic Detection; Readability
0 引言
近些年来,随着互联网的发展,微博这种短文本信息得到了十分迅速的发展,逐渐成为
一种影响大众的网络媒体平台,Twitter 自上线以来,其用户数已经突破 5 亿大关。这么大
的用户量产生了海量的短文本数据,以至于用户很难有效的从中获取信息。另一方面,微博
作为娱乐平台,其内容比较随意,数据本身有很多复杂的噪声,给基于微博数据的研究带来
困难[1]。所以需要探究一种能够从海量数据中发现有意义的话题信息的方法。
人工检查和传统的统计方法很难准确的从海量数据中抽取有用的信息,热点话题发现作
为作为微博文本挖掘中最重要的方向,已经逐渐成为全球学术界最重要的问题之一[2]。
本文提出了一种基于改进的 BM25 算法的话题发现方法,该方法可以有效地融合 BM25
算法和主题模型,该创新的算法可以充分利用 LDA(Latent Dirichlet Allocation)主题模型[3]
话题独立性强的特性,通过本文提出的改进的 BM25 算法可以大大提升话题的可读性。首先
利用 LDA 模型可以得出每个潜主题下所有词的概率分布,之后通过本文提出的话题词
-BM25 相似度算法对每个潜主题下的词再次聚类。算法的创新点借鉴了 BM25 算法