文档介绍:分类号:G250 学校单位代码:10446
硕士学位论文
论文题目: 基于特征选择的中文语义角色标注研究
研究生姓名: 路青
学科、专业: 图书馆学
研究方向: 信息检索与数据挖掘
导师姓名、职称: 崔新春副教授
论文完成时间: 2012 年 3 月
曲阜师范大学研究生学位论文原创性说明
(根据学位论文类型相应地在“□”划“√”)
本人郑重声明:此处所提交的博士□/硕士□论文《基于特征选择的中文
语义角色标注研究》,是本人在导师指导下,在曲阜师范大学攻读博士□/硕
士□学位期间独立进行研究工作所取得的成果。论文中除注明部分外不包含
他人已经发表或撰写的研究成果。对本文的研究工作做出重要贡献的个人和
集体,均已在文中已明确的方式注明。本声明的法律结果将完全由本人承担。
作者签名: 日期:
曲阜师范大学研究生学位论文使用授权书
(根据学位论文类型相应地在“□”划“√”)
《基于特征选择的中文语义角色标注研究》系本人在曲阜师范大学攻读
博士□/硕士□学位期间,在导师指导下完成的博士□/硕士□学位论文。本
论文的研究成果归曲阜师范大学所有,本论文的研究内容不得以其他单位的
名义发表。本人完全了解曲阜师范大学关于保存、使用学位论文的规定,同
意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和
借阅。本人授权曲阜师范大学,可以采用影印或其他复制手段保存论文,可
以公开发表论文的全部或部分内容。
作者签名: 日期:
导师签名: 日期:
摘要
近年来,随着自然语言处理中词法分析、句法分析的成熟,语义分析成为推动自然语
言处理进一步发展的必然选择。语义分析已经成为自然语言处理研究的一个重要方向。语
义角色标注是实现自然语言浅层语义分析的主要方式。语义角色标注的基本单元可以是句
法成分、短语、词或者依存关系等,目前有关语义角色标注的研究主要集中在短语结构句
法或者是依存关系标注单元上。由于基于短语结构句法分析的语义角色标注容易产生语料
稀疏问题,所以基于依存句法分析的语义角色标注引起了研究者的广泛关注。因此,本文
采用依存关系做为标注单元,开展基于特征选择的中文语义角色标注的研究。
首先,对有关语义角色标注研究的国内外现状进行了调研。其中,运用文献计量方法
对国内语义角色标注研究进行了详细的探讨与分析,主要包括理论研究与应用研究的总
结、研究热点与趋势的分析等。
其次,探讨了语义角色标注技术在信息检索模型中的应用。针对目前自然语言处理在
语义检索模型中面临的问题,分析了语义角色标注技术对于信息检索模型性能的改善。
最后,针对基于特征选择的中文语义角色标注进行了研究。本文在依存关系特征的基
础上,分析了中文 SRL 特征研究中存在的问题,并从语法和语义两个方面对中文依存关系
特征进行了优化。接下来在小规模语料库的基础上对基于依存句法分析的中文语义角色标
注进行了训练实验,为提高中文语义角色标注性能选择了有效特征。
关键词:自然语言处理;语义角色标注;依存分析;条件随机场模型
I
ABSTRACT
In recent years, with the mature of the lexical analysis and ayntactic analysis in the natural
language processing, it is the inevitable choice that semantic analysis promotes the further of the
natual language processing. Semantic analysis has e an important research direction in
natual language processing. Semantic role labeling is a kind of shallow semantic analysis of
natural language. The basic unit of semantic role labeling can be syntactic elements, phrases,
words or dependencies. Now the research of semantic role labeling focuses on a pharse structure
syntax or dependencies. Because semantic role labe