文档介绍:浙江大学研究生学位论文独创性声明学位论文版权使用授权书表或撰写过的研究成果,也不包含为获得逝鎏盘堂或其他教育机构的学位或本学位论文作者完全了解盘姿态堂有权保留并向国家有关部门或机构送交本论文的复印件和磁盘,允许论文被查阅和借阅。本人授权澎鎏盘堂可以将学位论文的全部或部分内容编入有关数据库进行检索和传播,可以采用影本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:签字日期:年月日印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:
厂———◆嬲摘要现频率并不重要,针对这一特性,本文提出了关键词短文本数据集中的单词相似关键词:主题模型、、单词相似度、单词权威值、主题纯度随着互联网产业的快速发展,主题模型作为近些年来在文本挖掘中现的一种概率模型逐渐成为了国内外的研究热点,其应用几乎覆盖了文本挖掘和信息处理的所有领域。短文本可分为一般短文和以论文标题、新闻标题为代表的关键词短文两种形式,在一篇关键词短文中,每个单词都具有相同的权重,故而单词在文本中的出度计算方法,并将单词相似度与主题模型相结合,进而提出了主题模型,简称媚P鸵肓肆较羁梢韵灾岣建模质量和性能的措施:首先基于单词相似度提出崽獯慷日庖桓拍睿靡衡量建模结果中每个主题特征明显的程度,并依据主题纯度对原始主题集合进行筛选,从而得到高质量的建模结果;引入单词权威值用以衡量一个单词能够代表一个主题的能力,并据此对概率矩阵进行初始化,从而使得初始化后的每个主题即具备一定主题特征,并且主题之间不会出现特征交叉,同时还可以使用更少的迭代次数使得迭代计算进入稳定状态。同时为了对主题建模结果进行更好的展示,本文还提出了主题特征单词、主题特征文档、主题代表作者的选取方式以及主题热度演变的计算方法,并通过一个主题展示平台网站对这些主题特征信息进行更加形象化的展示。在论文标题数据集上的实验结果表明,魈饽P偷慕PЧS庞主题模型。浙江人学硕上学位论文
皃⒁籺瑃皊;琍琖琭,瑃,.琣,瑃琣—¨瑃琣.:,‘。’
课题背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.研究动机和本文的主要工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯:⋯⋯⋯。本文的组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第鹿谕庋芯肯肿础经典主题模型介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。基于主题模型的扩展研究和应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。在网络突发热点事件检测中的应用⋯⋯⋯⋯⋯。⋯⋯⋯⋯⋯..渌赑魈饽P偷睦┱寡芯俊本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第禄诘ゴ氏嗨贫鹊腜魈饨7椒ā璴问题定义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯预备知识⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.┱⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.魈馍秆的优点和缺陷⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第轮魈獾男蜗蠡故尽主题特征的提取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.魈馓卣鞯ゴ实难∪录.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...:;⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯
建模效果展示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第伦芙嵊胝雇工作总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯下一步工作和展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.作者简介⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯门录
图目录算法生成式模型示意图⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..图主题С窒蛄炕图卣蟊浠皇疽馔肌生成