文档介绍:歪塑仝数丝.,重庆邮电大学硕士学位论文盥旦生玺月鲨旦短文本分类中高品质特征模式抽取及扩展策略研究胡红歌—樊兴华教授论文题目英文题目硕士研究生指导教师论文提交日期论文答辩日期论文评阅人答辩委员会主席一一分类号密级年公开月日
翩繇唆卿学位论文作者虢拭多学位论文作者躲镧红孕;训年石月/。日独创性声明学位论文版权使用授权书:如‘月『签字日期:月加日重麽由缣重庞由&电太堂重迭邮电太堂本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特;以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ签
摘要随着互联网和通讯产业的快速发展,各种形式的信息扑面而来。而短文本ǔN谋境ざ刃∮趌字符魑J只绦畔ⅰ⒃谙呒词绷奶旒锹肌论坛用户评论等信息的主要表现形式,已经成为网络中大众信息传播的重要渠道。短文本分类技术,它是基于内容分析将短文本分派到预先定义的类别中,在信息安全和商业信息获取等领域具有重要的应用前景。由于短文本具有长度短、所描述概念信号弱的固有缺陷,使当前主流文本分类技术用于短文本时,分类器性能变坏。解决上述问题的一种可行性途径是利用额外信息来辅助短文本分类。鉴于此,本文的解决方案是利用关联分析理论,从训练语料集中挖掘出具有关联关系的特征词语组合,构成特征扩展模式,用于对短文本进行特征扩展,以弥补其概念信号弱的固有缺陷,通过对先对文本信息对象进行特征扩展处理,进而将其分类成属于某个种类还是不属于某个种类。本文的核心和贡献在于:岢鲆恢止乖旄咂分侍卣骼┱鼓J娇獾姆椒āQ≡窆亓7治隼砺圩为挖掘工具,用来发现隐藏在训练数据集中的具有关联关系的特征组合并形成短文本的特征扩展模式,进而构造出一个高品质的特征扩展模式库。针对简单特征扩展模式不适用于短文本分类的问题,本文引入了新的特征扩展模式度量指标,即:类别趋同性、关联强度美刺岣咛卣髂J狡分剩佣Vち擞美锤ㄖ涛本分类的额外信息的准确性。岢鲆恢掷酶咂分侍卣骼┱鼓J降闹形亩涛谋痉掷喾椒ā8梅椒是在分类阶段,先对短文本进行特征扩展,即将文本信息对象中的非精简特征作为扩展源,基于高品质特征扩展模式所表示的词语间的关联关系,通过为短文本的特征空间增加新特征词语或者改变原特征词语权重的方式来提高短文本的概念描述能力,而后分类扩展后的短文本。通过实验验证了该分类方法的有效性。岢鲆恢挚悸翘卣骼┱沟闹形亩涛谋痉掷嗄P汀Mü媚P涂山ǘ文本的不同特征扩展方式和其扩展程度融合在一起,为短文本的分类提出一种较为合理的特征扩展策略。并通过实验验证该分类模型的合理性。关键词:短文本,文本分类,高品质特征扩展模式,特征扩展策略重庆邮电人学硕士论文
琽甌琭,.瑆,甋.,甦猼,瑃,,畉瑆,。.琽,,:,瓵瑆琲..,.·,,瑃
重庆邮电大学硕士论文—.琲琣,猚,,,.琲瑆,甌篊,·,.猼,
第三章面向短文本分类的高品质特征扩展模式抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯分析问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯解决问题⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯...眯哦鹊娜妨ⅰ.魍缘娜妨ⅰ.亓G慷鹊娜妨ⅰ高品质特征扩展模式抽取系统⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯引。言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯特征扩展思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯基于特征扩展的文本分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯目录
.谔卣骼┱┱顾惴枋觥相关实验及分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第五章考虑特征扩展的短文本分类模型研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯研究思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯考虑特征扩展的短文本分