文档介绍::.
日期:户『/年孪叭学位论文作者:架脚膨学位论文作者:朵鹏鹏日期:夕,/年裸萑原创性声明学位论文使用授权声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的科研成果。对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律责任本人承担。本人在导师指导下完成的论文及相关的职务作品,知识产权归属郑州大学。根据郑州大学有关保留、使用学位论文的规定,同意学校保留或向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅;本人授权郑州大学可以将本学位论文的全部或部分编入有关数据库进行检索,可以采用影印、缩印或者其他复制手段保存论文和汇编本学位论文。本人离校后发表、使用学位论文或与该学位论文直接相关的学术论文或成果时,第一署名单位仍然为郑州大学。保密论文在解密后应遵守此规定。.
摘要随着互联网技术的快速发展,网络上以文本形式存在的信息迅速增加,如何有效地组织和管理这些文本信息是当前信息科学领域面临的一个重要挑战。文本分类可以解决大量文本信息的归类问题,是组织和管理海量文本信息的有效手段。同时,由于主题模型可以捕获到文档集合的语义结构信息,将主题模型应用于文本分类是提高分类器性能的有效途径之一。目前,基于募喽街魈饽P蛃约按车奈谋痉掷嗨惴ḿ偕栉牡之间相互独立。然而,在实际情况中,文档之间可以存在关联关系,比如,从科技文献数据库.,等谐槿〕龅奈牡悼梢愿菸南字涞囊关系形成文档网络;网页可以根据超链接进行关联。当关联关系对文档属性的判断有重要影响并且文档包含的文本信息较少时,监督主题模型以及传统的文本分类方法、朴素贝叶斯等男阅芑嵊兴陆怠ü啾淞柯矶煞蛩婊〗N牡低缃峁梗牡导涞墓联关系及文本信息进行统一建模,并且梢源砑扔腥ㄖ赜钟蟹较的文本信息网络。本文中,我们基于岢隽艘桓鲂掠钡母怕手魈饽型,将文档间的关联关系、文档的文本信息、文档的标号进行统一建模。首先用古典线性回归模型对文档标号进行建模,给出的联合概率分布,通过算法最大化联合概率分布的对数似然对的参数进行估计,然后给出对训练数据以外文档的标号进行预测的方法。最后我们用广义线性模型对文档标号进行建模,对进行扩展,使可以处理多种类型的文档标号。研究论文分类数据集和电影评论数据集上的实验表明,在文档网络中,的预测结果要优于现有的监督主题模型。⒁阎5奈牡倒槭粲诟鞲鲋魈獾母怕逝卸主题代表的类信息,根据待分类文档归属于各个主题的概率及文本信息对文档进行分类。在研究论文分类数据集和数据集上的实验结果表明,当文档间的关联关系对类信息有较大影响时,.男阅苡庞诖车奈谋痉掷方法。关键词:主题模型文档网络预测线性回归文本分类摘要
,甮.,琋琫.,瓾琣甌,琣⑽鲆瞣瑀,甮.,.Ⅵ/,,猯瓼,Ⅱ
簍琩琾,
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯目录⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.Ⅱ绪亍谋痉掷喔攀觥.⋯....⋯.⋯⋯.⋯......⋯.⋯..⋯...⋯⋯......⋯........⋯.⋯.⋯.⋯⋯.⋯..⋯.......研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本分类及主题模型研究进展⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。论文研究工作概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.文本分类的一般过程⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本表示⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..布尔模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯向量空间模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.臣朴镅阅P汀特征降维⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.卣餮≡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..虻ハ蛄烤嗬胨惴ā谒惴⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...渌掷嗨惴ā分类器评价⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯准确率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。Ⅳ.
概率主题模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。.昶骄臀⑵骄本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯相关概念⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.P凸菇ā参数估计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯