1 / 22
文档名称:

基于依存语法构建多视图汉语树库ppt.ppt

格式:ppt   大小:1,879KB   页数:22页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于依存语法构建多视图汉语树库ppt.ppt

上传人:2112770869 2017/3/6 文件大小:1.83 MB

下载得到文件列表

基于依存语法构建多视图汉语树库ppt.ppt

文档介绍

文档介绍:基于依存语法构建多视图汉语树库邱立坤、金澎、王厚峰 1. 鲁东大学文学院 2. 北京大学计算语言学研究所 3. 乐山师范学院智能信息处理实验室 E-mail: {qiulikun, jandp, wanghf}***@pku. 关于树库?树库( Treebank )属于深加工语料库,是语料库语言学与自然语言处理技术发展到相对成熟阶段的产物。?在树库建设上,中国与美国差距甚大。?美国宾州大学从 1989 年到 1996 年,历时八年,建成约 700 万词的带词性标记语料库和 300 万词的句法结构标注语料库(树库), 200 万词的谓词词-论元结构标注语料库(英语)。?中文方面,同样是宾州大学于 2010 年建成 119 万词的中文树库。宾州大学正计划将该树库规模再扩大一倍。?中国国内最大规模的中文树库为一百万词。 2017-3-6 2基于依存语法构建多视图树库树库的类型 1:短语结构树?可以显示的信息?层次?中心语, ?短语整体功能?语法结构关系 2017-3-6 3基于依存语法构建多视图树库树库的类型 2:依存树?可以显示的信息?中心语?语法结构关系(语法角色) ?语义结构关系(语义角色) 2017-3-6 4基于依存语法构建多视图树库树库的类型 3:组合范畴语法树及其它?可以显示的信息: ?整体功能(组合范畴) ?中心语?谓词论元关系(G 区别于传统上下文无关文法的一个显著特性) 2017-3-6 5基于依存语法构建多视图树库各类型树库间的转换?从短语结构语法到依存语法的转换? Yamada 等 2003 ; Nivre 开发的 Penn2Malt 工具;党政法、周强, 2005 ;李正华等 2008 ?从依存语法到短语结构语法的转换? Xia 等(2009) ?从短语结构语法到组合范畴语法? Hockenmaier 和 Steedman , 2007 ; ? Tse 和 Curran , 2010 ;宋彦等, 2012 2017-3-6 6基于依存语法构建多视图树库树库转换中的问题?树库转换中面临着各种歧义问题?从短语结构语法到依存语法?从整体功能信息生成语法角色信息?从依存语法到短语结构语法?从中心语和语法角色生成整体功能和层次信息?从短语结构语法到组合范畴语法?如何生成谓词论元关系 2017-3-6 7基于依存语法构建多视图树库多视图树库的提出?本文提出多视图( Multi-view )树库的概念?对同一个句子,基于同一个数据源,提供多种视图, 如依存视图、短语结构视图、组合范畴语法视图等。我们称这种树为多视图树。一般意义上的依存树、短语结构树或组合范畴语法树可以视为单视图树。?多视图树的“多”首先体现在构建阶段?在构建多视图树时,可以选一个视图作为中心视图, 其它视图与中心视图共享数据、彼此之间可以相互转换。?多视图树的“多”还体现在使用阶段?在使用阶段,多视图树不仅仅为同一个句子提供多种体系的句法分析结果,更重要的是这些不同体系的句法分析结果具有一个相同的来源,不同的视图只是这同一个数据来源的不同表现形式而已。 2017-3-6 基于依存语法构建多视图树库 8基于依存语法的多视图树库框架?在本文中,我们主要讨论含有短语结构语法和依存语法两个视图的多视图树?以依存视图为核心?在句法层面上仅仅标注中心语和语法角色两类信息,自动转换出相应的短语结构树?需要解决的关键问题是短语整体功能的推导和层次信息的推导。 2017-3-6 9基于依存语法构建多视图树库短语整体功能的可推导性?朱德熙先生( 1982 : 21 )提出: “内部构造相同的结构,功能一般相同;功能相同的结构,内部构造不一定相同。”?陈保亚先生( 1999 )则将之总结为结构功能原则?“如果两个言语片断的直接成分功能相同,结构关系相同,它们的功能也相同。”?“这个规律叫做结构功能原则。根据这一原则, 只要知道了直接成分的功能和结构关系,结构功能就知道了”。 2017-3-6 基于依存语法构建多视图树库 10