1 / 9
文档名称:

基于主题聚簇评价论坛热点话题挖掘.doc

格式:doc   大小:65KB   页数:9页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于主题聚簇评价论坛热点话题挖掘.doc

上传人:sssmppp 2021/3/8 文件大小:65 KB

下载得到文件列表

基于主题聚簇评价论坛热点话题挖掘.doc

相关文档

文档介绍

文档介绍:基于主题聚簇评价论坛热点话题挖掘
摘要:
热点话题挖掘是舆情监控的重要技术基础。针对现有的 论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热 度评价方式单一的问题,提出一种基于主题聚簇评价的热点 话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本 数据建模,对映射到主题空间的文档集去除主题噪声后用优 化聚类中心选择的Kmeans++算法进行聚类,最后从主题突发 度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通 过实验分析得出主题噪声阈值设置为0. 75,聚类中心数设置 为50时,可以使聚类质量与聚类速度达到最优。真实数据 集上的测试结果表明该方法可以有效地将聚簇按出现热点 话题的可能性排序。最后设计了热点话题的展示方法。
关键词:
潜在狄里克雷分配;主题模型;Kmeans++聚类;聚簇评 价;热点话题
0引言
作为Web ,网络论坛使人们能 更多地参与到日常话题的互动中,因此论坛成为了重要舆情 的发源地与传播地。及时地发现舆情有利于政府部门的治国
理政,也为企业的发展决策、危机公关处理等提供了舆论向 导,因此热点话题挖掘成为了舆情监测领域的一个重要研究 方向。
对于热点话题挖掘的问题,相关研究人员进行了大量的 研究。丁伟莉等[1]对博客用向量空间模型建模后使用 SinglePass算法进行聚类来发现其中的话题;邱立坤等[2] 在对网络论坛中文本数据用向量空间建模并聚类后利用点 击数与评论数对结果排序来发现热点话题;王伟等[3]对用 传统向量空间模型表示的网页信息用OPTICS (Ordering Points To Identify the Clustering Structure) 聚类算 法进行两次聚类来发现热点舆情。以上研究中都用到了向量 空间模型表示文本,它并没有融入语义信息,这会使得语义 不相关的信息出现在同一聚簇中,从而造成了主题信息的丢 失,影响了聚类的效果。席耀一等[4]与刘嵩等[5]在对论坛 话题追踪时利用知网语义库为词汇加入了语义信息,并用它 作为文档表示模型来计算文档的语义相似度[6],这种方法 在很大程度上缓解了主题丢失的问题,但论坛信息的快速更 新使得这种融入了监督成分的方法仍然不能达到理想的效 果,而且维护知网语义信息也是个难题。刘霄等[7]通过利 用概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)主题模型为***数据建模来发现突发 的热点话题,PLSA成功地利用概率统计的方法来为文本建
模,但它并没有在文档与主题的层面上给出一个合适的概率 模型,PLSA中文档的主题分布与主题中词的分布是模型的参 数,它们会随着文档增多而增加,这样它只能生成给定文档 集合上的模型,在新的文本加入时还要重新训练,另外当训 练集有限的情况PLSA还可能会出现过度拟合的现象[8] o
本文热点话题挖掘的研究对象是网络论坛数据集,它不 同于新闻网页中经过专业编辑处理过的文本,它有着自己的 特点:1) 口语化,帖子发布者来自不同的地方,也有不同 的经历与背景,在表达同一观点时措辞会有很大不同,经常 会有错别字或网络新词汇产生,这就使得词汇噪声较多;2) 篇幅差距较大,有些帖子的论述比较多,另一类只通过帖子 的标题来传达