1 / 11
文档名称:

基于BM25算法的主题模型优化算法.doc

格式:doc   页数:11
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于BM25算法的主题模型优化算法.doc

上传人:2028423509 2014/3/19 文件大小:0 KB

下载得到文件列表

基于BM25算法的主题模型优化算法.doc

文档介绍

文档介绍:
基于 BM25 算法的主题模型优化算法
李宇坤,陈光**
(北京邮电大学模式识别实验室)
5
10
15
20
25
30
35
40
摘要:本文介绍了一种表示和检测微博热点话题的新方法,该方法发现的话题具有更好的可
读性和独立性。不同于传统热点话题发现算法,本文提出的 LDA-BM25 算法是针对 LDA 主
题模型的修正和改进。算法将 LDA 模型所发现的潜主题转化为可读性很强的多个话题关键
词。实验以中文 Twitter 数据为语料,对比了 LDA 模型与 LDA-BM25 算法所发现的话题,
本文提出的算法具有更强的可读性、合适的话题粒度和语义上更加独立。
关键词:自然语言处理;主题模型;BM25 算法;话题发现;可读性
中图分类号:
Topic Model Refinement Based on Modified BM25
Algorithm
LI Yukun, CHEN Guang
(Beijing University of Posts and munications)
Abstract: This paper introduces a novel approach to detect and present more readable hot topics from
short texts like Twitter. Traditional clustering methods and topic model have ings. To
e the disadvantages of those methods, we proposed a method called Topic Term
Refinement-BM25 method (TTR-BM25) to modify and represent the latent topics of topic model. We
convert the latent topics to real topics which can be easily understood by human
experiments on Chinese Twitter corpus, pare the performance of our method with that of LDA
topic model. We show topics detected by our method, and demonstrate the difference between LDA
topics and our refined topics. The topics detected by our TTR-BM25 Method have a better readability,
suitable granularity and are independent in semantics. And we further discuss why topic model has
poor performance on the readability of topics.
Key words: Natural Language Processing; Topic Model; BM25; Topic Detection; Readability
0 引言
近些年来,随着互联网的发展,微博这种短文本信息得到了十分迅速的发展,逐渐成为
一种影响大众的网络媒体平台,Twitter 自上线以来,其用户数已经突破 5 亿大关。这么大
的用户量产生了海量的短文本数据,以至于用户很难有效的从中获取信息。另一方面,微博
作为娱乐平台,其内容比较随意,数据本身有很多复杂的噪声,给基于微博数据的研究带来
困难[1]。所以需要探究一种能够从海量数据中发现有意义的话题信息的方法。
人工检查和传统的统计方法很难准确的从海量数据中抽取有用的信息,热点话题发现作
为作为微博文本挖掘中最重要的方向,已经逐渐成为全球学术界最重要的问题之一[2]。
本文提出了一种基于改进的 BM25 算法的话题发现方法,该方法可以有效地融合 BM25
算法和主题模型,该创新的算法可以充分利用 LDA(Latent Dirichlet Allocation)主题模型[3]
话题独立性强的特性,通过本文提出的改进的 BM25 算法可以大大提升话题的可读性。首先
利用 LDA 模型可以得出每个潜主题下所有词的概率分布,之后通过本文提出的话题词
-BM25 相似度算法对每个潜主题下的词再次聚类。算法的创新点借鉴了 BM25 算法

最近更新

2026年唐山职业技术学院单招职业适应性测试题.. 44页

2026年国开电大外国文学专题形考题库附答案【.. 41页

小学数学新人教版二年级下册2.4 连续两问的.. 16页

2026年自考专业(营销)考试题库2000道附完整答.. 82页

2026年上饶职业技术学院单招职业技能考试题库.. 45页

基于言语可懂度的特大空间声学设计初探 31页

2025广东南粤银行东莞分行招聘考试题库附答案.. 44页

2025福建福州市鼓楼区城投集团招聘5人考试参考.. 45页

2026上半年黑龙江齐齐哈尔医学院及直属单位长.. 49页

2026年c语言专科期末测试题完整答案 13页

2026年c语言竞赛测试题及答案(夺冠系列) 13页

2024年七台河市特岗教师招聘考试真题汇编附答.. 33页

2024年千阳县幼儿园教师招教考试备考题库汇编.. 34页

2026年云南旅游职业学院单招综合素质考试模拟.. 46页

2024年林西县辅警招聘考试真题附答案 67页

2026年党政廉政考试题库(b卷) 14页

2026年南阳职业学院单招职业适应性测试题库附.. 43页

2026年各工种岗位作业安全考核试题附完整答案.. 40页

2026年四川托普信息技术职业学院单招职业适应.. 44页

2026年国开电大城市管理学形考题库100道及完整.. 38页

2026年安徽城市管理职业学院单招职业适应性考.. 37页

2025年湖南省建设工程工程量清单计价办法(新).. 51页

2025年江西信息应用职业技术学院单招职业适应.. 127页

2025年江西信息应用职业技术学院单招职业倾向.. 73页

喝酒给老婆的检讨书 6页

vae乳液低温发泡工艺 29页

《口蹄疫》ppt课件 42页

自然条件对城市的影响 48页

DL T 5783-2019《水电水利地下工程地质超前预.. 36页

德国科隆柯伦巴艺术博物馆_建筑空间解析 14页