1 / 74
文档名称:

基于主动学习的汉语依存树库构建-计算机科学与技术专业毕业论文.docx

格式:docx   大小:800KB   页数:74页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于主动学习的汉语依存树库构建-计算机科学与技术专业毕业论文.docx

上传人:wz_198613 2019/2/28 文件大小:800 KB

下载得到文件列表

基于主动学习的汉语依存树库构建-计算机科学与技术专业毕业论文.docx

文档介绍

文档介绍:ClassifiedIndex:::ChenXinSupervisor::puterScienceandTechnologyAffiliation:puterScienceandTechnologyDateofDefence:June,2011Degree-Conferring-Institution:HarbinInstituteofTechnology摘 要句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。目前句法分析仍主要采用有指导的机器学****方法,因此需要大规模高质量的树库作为训练语料,而现阶段汉语依存树库资源相对较少,树库标注又是一件费时费力的工作。本文首先介绍HIT-CIR-CDT(全称为“哈工大社会计算与信息检索研究中心汉语依存树库”)的详细标注过程,然后基于该树库介绍如何将主动学****应用到汉语依存树库的构建以达到减少标注成本的目的。主要采用了以下两大类方法:(1)聚类方法:采用聚类直接剔除冗余实例的标注,以期达到使用相同数目的训练实例能使句法分析达到更高性能;(2)置信度判别法:优先选择当前句法模型预测不准(即置信度较低)的实例交由人工标注,以期使句法分析达到相同性能只需更少的训练实例。在置信度判别法中,本文提出并比较了多种衡量依存句法模型预测可信度的准则,包括基于不确定性度量和委员会投票两大类。实验结果表明,置信度判别法比基于聚类的方法更简单有效。一方面,它使依存句法分析在达到相同性能时只需标注更少量实例,人工标注量最多可减少30%;另一方面,与随机选择标注实例相比,当使用相同数目的训练实例时,它总能使汉语依存句法分析性能有所提高,%。这种方法也可用到句法分析的领域移植上,以减少获取新标注语料时的压力。由于主动学****对句法分析器效率要求较高,同时考虑到目前句法分析效率较低,主要在学术界研究较多,而在实际项目中应用较少,为了克服这些问题,本文最后设计并实现了并行化基于图的依存句法分析系统。,,大大增加了句法分析在工程中的实用性。关键词:依存句法分析;依存树库;主动学****置信度;委员会投票-I-’,ontheonehand,thecorrectnessandeffectivenessofthedependencyphilosophycouldbechecked,ontheotherhand,itwillofferhelptoup-layerapplicationssuchlikeInformationExtraction,Question&,it’,::