文档介绍:分类号 密级 (公开)
U D C
学 位 论 文
题目:基于自训练的决策式依存句法分析
技术的研究
研 究 生 姓 名 :夏大伟
学 科 专 业 名 称 :计算机技术
研 究 方 向 :知识管理与智能人机交互
论 文 类 型 :应用研究
申 请 学 位 :工学硕士
指 导 教 师 姓 名 :张桂平
指 导 教 师 职 称 :教授
指 导 教 师 单 位 :沈阳航空航天大学
论 文 提 交 日 期 :2014 年 03 月 02 日
论 文 答 辩 日 期 :2015 年 03 月 13 日
沈阳航空航天大学
2015 年 3 月
SHENYANG AEROSPACE UNIVERSITY
THESIS FOR MASTER’S DEGREE
TRANSITION-BASED DEPENDENCY
PARSER COMBINING WITH
SELF-TRAINING
Candidate: Dawei Xia
Supervisor: Prof. Guiping Zhang
Specialty : Computer Technology
Date : March, 2015
沈阳航空航天大学硕士学位论文
摘 要
决策式依存句法分析技术是一种数据驱动的句法分析技术,它采用的是标准的有监
督机器学****方法,因此决策式依存句法分析器对有标注数据存在依赖性,也就是当有标
注数据充足并且与待标注数据领域匹配时,分析器性能最佳,否则分析器的性能将会下
降。针对这一问题,本课题结合自训练这种半监督机器学****方法,提出了一种基于自训
练的决策式依存句法分析方法。该方法在决策自信度的基础上利用句型的互异关系选择
出少量用原始模型标注出的未标注数据,由此可在有标注数据不充足或者与待测试数据
领域不匹配的情况下提升分析器的性能。
经典决策式依存句法分析器存在贪婪性,这导致分析结果中的一些错误具有一些共
性。本课题根据这些共性定义了两种根偏置子树,并提出了基于根偏置子树的依存句法
分析方法对句子中的根偏置子树进行预分析,之后再分析预分析后的句子。实验结果表
明,基于根偏置子树的依存句法分析方法可以保证句子整体分析错误不增加的情况下提
升根偏置子树的分析正确率,以此提升分析器的性能。
其次本课题在经典决策式依存句法分析器的基础上提出了基于自训练的决策式依
存句法分析方法,该方法首先使用原始有标注数据对无标注数据进行标注,然后利用本
文提出的基于自信度的数据选择策略和在此基础上提出的基于句型互异程度的数据选
择策略选择出高质量并且句子结构相对多样的数据加入原始有标注数据,之后重新训练
模型,最后用新模型对待标注数据进行标注。实验结果表明在有标注数据缺乏或者与测
试数据领域不匹配时,基于自训练的决策式依存句法分析器比原始分析器具有更好的性
能和领域适应能力,并且本文提出的两种数据选择策略均比随机选择拥有更好的效果。
最后,本课题设计并实现了基于自训练的决策式依存句法分析器。该系统支持使用
标准的有监督机器学****方法训练依存句法分析模型,同样支持自训练方式的依存句法分
析模型训练,还支持决策式依存句法分析。
关键词:自训练;决策式依存句法分析;自信度;依存句法分析;半监督机器学****br/> I
沈阳航空航天大学硕士学位论文
Abstract
Transition-based dependency parsing is a kind of data-driven dependency parsing technology
that ta