文档介绍:重庆邮电大学硕士学位论文面向短文本分类的角色关系抽取研究危定邦樊兴华教授何中市教授沽兰分类号论文题目硕士研究生指导教师论文提交日期年月论文答辩日期年月论文评阅人答辩委员会主席畉日
镤装哗学僦文储虢脚┳智莆晟隆海务鼢签字日期:山年二月学位论文版权使用授权书年‘月独创性声明\签字日期:。他人已经发表或撰写过的研究成果,也不包含为获得重废邮电态堂或其他教重废邮虫太堂重麽蜜缣本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ学位论文作者签名:导师签名:
摘要随着信息技术的飞速发展,越来越丰富的信息传播方式出现并影响着人们的生活。短文本是指长度较短ǔI儆个字奈谋荆ǔR允只绦拧⑽博、网页评论等形式广泛存在于现实生活中。短文本具有长度短、所描述概念信号弱等固有缺陷,传统的文本分类方法并不适用于短文本,因此研究对短文本进行有效分类的方法是一项必须解决且具有挑战性的问题。短文本分类的一条可行途径是利用外部资源的额外信息来扩展短文本所描述的信息量。角色关系是指某个事件与其固有的相关角色之间的语义关系,利用这种关系扩展短文本的特征向量,能够在一定程度上增加短文本的有用信息,弥补其描述能力较弱的缺陷。本文围绕如何获取短文本中存在的特定角色关系,和如何将这些关系有效的应用于短文本分类这两个核心问题展开研究,主要工作如下:提出了一种自动获取短文本中存在的施事、受事角色关系的方法。由于一个事件涉及的角色类别较多,不同的角色对事件的重要性有差异,获取方法也不同,因此本文的研究重点主要是针对施事、受事这两类最主要的角色关系。在获取施事、受事关系方面,一种常规的方法是直接利用语义词典《知网》描述语言的特点确定短文本中词对间的关系,但是这种方法抽取的关系词对数量和覆盖度有限。针对这个问题,本文提出了一种新的角色关系词对抽取方法,该方法利用《知网》的特征文件中的义原共性和义原树层次结构确定真实文本中存在的施事、受事关系,并通过义原层次树中的义原距离计算关系强度。实验表明:通过该方法抽取出的关系词对数量和覆盖度较高,在一定程度上弥补了常规方法覆盖度不足的缺结合角色关系和短文本分类的特点,设计了一种利用角色关系的短文本分类框架。该框架首先将常规方法和本文提出的关系抽取方法组合,然后利用组合方法获取训练集中存在的施事、受事角色关系,再利用关系词对集合扩展测试集的特征向量,进而将扩展的测试集进行文本分类。实验表明:引入角色关系有助于短文本分类性能的提升,本文采用的组合策略和特征扩展方法具有可行性。关键词:短文本分类,关系获取,角色关系,施事,受事陷。
甌甌,甌畇”.....琲,.,琧..瓵,.,:甌“痶瑃‘保瑃瑃甋畉,猼,.
.重庆邮电人学硕士论文甅..篠,,,琍
目录摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.第一章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯选题背景和意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯短文本分类的研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文主要工作内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯论文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第二章短文本分类和语义关系获取相关技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.≡⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.畔⒊槿〖》⊙⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第三章一种面向短文本的施事、受事角色关系抽取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯。引言⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。面向短文本抽取施事、受事角色关系的框架⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.一种常规的获取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.一种利用义原共性和上下位结构的获取方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.关系强度计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯