1 / 61
文档名称:

依存句法分析的置信度地研究.pdf

格式:pdf   页数:61页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

依存句法分析的置信度地研究.pdf

上传人:511709291 2016/2/13 文件大小:0 KB

下载得到文件列表

依存句法分析的置信度地研究.pdf

相关文档

文档介绍

文档介绍:国内图书分类号:::10213密级:公开工工工学学学硕硕硕士士士学学学位位位论论论文文文依存句法分析的置信度研究硕士研究生:郭江导师:车万翔副教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2012年6月授予学位单位:哈尔滨工业大学Classified Index: : for the Master Degree in EngineeringRESEARCH ONCONFIDENCEMEASURE IN DEPENDENCY PARSINGCandidate:Guo JiangSupervisor:Associate Prof. Che WanxiangAcademic Degree Applied for:Master of puter Science and TechnologyA?liation:School puter Science and TechnologyDate of Defence:June, 2012Degree-Conferring-Institution:Harbin Institute of Technology哈尔滨工业大学工学硕士学位论文摘要句法分析是自然语言处理的核心问题,对信息抽取、信息检索、机器翻译等应用有重要的支撑作用。依存句法以其形式简洁、易于标注、便于应用等优点为人所重视。虽然目前依存句法分析算法研究取得了一定的进展,但是其准确率仍然不能满足实际应用的需要。针对这一问题,本课题并没有将全部研究重点放在提高依存句法分析的准确率上,而是提出了对依存句法分析结果进行置信度分析这一新问题,通过对依存句法树中每条依存弧的置信度进行计算,将置信度高的依存搭配用于特定应用系统,从而提高这些系统的准确率。目前主要有两种主流的依存分析机制,一种是基于转移的依存分析,另一种是基于图的依存分析。针对这两种依存分析方法的不同,本文提出了相应的计算置信度的方法。基于转移的依存分析通过构造优化的转移序列来对句子进行解码,从而生成一棵依存句法树。其学****方式有局部学****Local Learning)和全局学****Global Learning)两种方式。针对局部学****的转移模型,本文提出基于似然概率以及基于重采样的置信度计算方法;针对全局学****的转移模型,本文提出基于K-Best结果投票的置信度计算方法。基于图的依存分析通过寻找最大生成树的方法获取一个句子的依存分析结果。其学****过程一般使用在线学****Online Learning)算法。依存分析的图模型一般为线性模型,因此与基于转移的依存模型不同,其无法直接得到一条依存弧的似然概率。针对这一问题,本文首先利用图模型的输出近似估计依存弧的边缘概率,并以此作为该依存弧的置信度。同时,本文提出一种有指导的基于Logistic回归的置信度估计方法,该方法能够充分地利用更丰富的特征,并且通过有效的学****方式对特征进行赋权。另外,本文还提出了若干种置信度估计的评价方法,一方面可用以评价置信度计算结果的优劣,另一方面也为置信度计算提供了优化目标。最后,本文将含有置信度的依存句法分析结果应用于篇章级情感分析以及半指导依存句法分析,以观察其有效性。实验结果证明,对置信度信息的合理应用能够在一定程度上提高上层应用及依存句法分析自身的性能。关键词:依存句法分析;转移模型;图模型;置信度- I -哈尔滨工业大学工学硕士学位论文AbstractThe syntactic parsing is the core issue of natural language processing. It can supportlot of applications, such as information extraction, information retrieval, and ranslations. The dependency parsing, with its simple grammatical form, easy-tagging,and facilitate applications, have recently gained a wide interest. Although the dependen-cy parsing has made some progress recently, its accuracy is still unable to meet the needsof practical application. In this thesis, we do not pay more attention to improve the a