文档名称：

基于主题聚簇评价论坛热点话题挖掘.doc

格式：doc 大小：65KB 页数：9页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于主题聚簇评价论坛热点话题挖掘.doc

上传人:sssmppp 2021/3/8 文件大小：65 KB

下载得到文件列表

基于主题聚簇评价论坛热点话题挖掘.doc

相关文档

文档介绍

文档介绍：基于主题聚簇评价论坛热点话题挖掘
摘要：
热点话题挖掘是舆情监控的重要技术基础。针对现有的论坛热点话题挖掘方法没有解决数据中词汇噪声较多且热度评价方式单一的问题，提出一种基于主题聚簇评价的热点话题挖掘方法。采用潜在狄里克雷分配主题模型对论坛文本数据建模，对映射到主题空间的文档集去除主题噪声后用优化聚类中心选择的Kmeans++算法进行聚类，最后从主题突发度、主题纯净度和聚簇关注度三个方面对聚簇进行评价。通过实验分析得出主题噪声阈值设置为0. 75,聚类中心数设置为50时，可以使聚类质量与聚类速度达到最优。真实数据集上的测试结果表明该方法可以有效地将聚簇按出现热点话题的可能性排序。最后设计了热点话题的展示方法。
关键词：
潜在狄里克雷分配；主题模型；Kmeans++聚类；聚簇评价；热点话题
0引言
作为Web ，网络论坛使人们能更多地参与到日常话题的互动中，因此论坛成为了重要舆情的发源地与传播地。及时地发现舆情有利于政府部门的治国
理政，也为企业的发展决策、危机公关处理等提供了舆论向导，因此热点话题挖掘成为了舆情监测领域的一个重要研究方向。
对于热点话题挖掘的问题，相关研究人员进行了大量的研究。丁伟莉等［1］对博客用向量空间模型建模后使用 SinglePass算法进行聚类来发现其中的话题；邱立坤等［2］在对网络论坛中文本数据用向量空间建模并聚类后利用点击数与评论数对结果排序来发现热点话题；王伟等［3］对用传统向量空间模型表示的网页信息用OPTICS (Ordering Points To Identify the Clustering Structure) 聚类算法进行两次聚类来发现热点舆情。以上研究中都用到了向量空间模型表示文本，它并没有融入语义信息，这会使得语义不相关的信息出现在同一聚簇中，从而造成了主题信息的丢失，影响了聚类的效果。席耀一等［4］与刘嵩等［5］在对论坛话题追踪时利用知网语义库为词汇加入了语义信息，并用它作为文档表示模型来计算文档的语义相似度［6］,这种方法在很大程度上缓解了主题丢失的问题，但论坛信息的快速更新使得这种融入了监督成分的方法仍然不能达到理想的效果，而且维护知网语义信息也是个难题。刘霄等［7］通过利用概率潜在语义分析(Probabilistic Latent Semantic Analysis, PLSA)主题模型为***数据建模来发现突发的热点话题，PLSA成功地利用概率统计的方法来为文本建
模，但它并没有在文档与主题的层面上给出一个合适的概率模型，PLSA中文档的主题分布与主题中词的分布是模型的参数，它们会随着文档增多而增加，这样它只能生成给定文档集合上的模型，在新的文本加入时还要重新训练，另外当训练集有限的情况PLSA还可能会出现过度拟合的现象[8] o
本文热点话题挖掘的研究对象是网络论坛数据集，它不同于新闻网页中经过专业编辑处理过的文本，它有着自己的特点：1) 口语化，帖子发布者来自不同的地方，也有不同的经历与背景，在表达同一观点时措辞会有很大不同，经常会有错别字或网络新词汇产生，这就使得词汇噪声较多；2) 篇幅差距较大，有些帖子的论述比较多，另一类只通过帖子的标题来传达