1 / 22
文档名称:

基于依存语法构建多视图汉语树库.ppt

格式:ppt   大小:1,879KB   页数:22页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于依存语法构建多视图汉语树库.ppt

上传人:1557281760 2019/2/11 文件大小:1.83 MB

下载得到文件列表

基于依存语法构建多视图汉语树库.ppt

相关文档

文档介绍

文档介绍:基于依存语法构建 多视图汉语树库邱立坤、金澎、-mail:{qiulikun,jandp,wanghf}***@(Treebank)属于深加工语料库,是语料库语言学与自然语言处理技术发展到相对成熟阶段的产物。在树库建设上,中国与美国差距甚大。美国宾州大学从1989年到1996年,历时八年,建成约700万词的带词性标记语料库和300万词的句法结构标注语料库(树库),200万词的谓词词-论元结构标注语料库(英语)。中文方面,同样是宾州大学于2010年建成119万词的中文树库。宾州大学正计划将该树库规模再扩大一倍。中国国内最大规模的中文树库为一百万词。**基于依存语法构建多视图树库树库的类型1:短语结构树可以显示的信息层次中心语,短语整体功能语法结构关系**基于依存语法构建多视图树库树库的类型2:依存树可以显示的信息中心语语法结构关系(语法角色)语义结构关系(语义角色)**基于依存语法构建多视图树库树库的类型3:组合范畴语法树及其它可以显示的信息:整体功能(组合范畴)中心语谓词论元关系(G区别于传统上下文无关文法的一个显著特性)**基于依存语法构建多视图树库各类型树库间的转换从短语结构语法到依存语法的转换Yamada等2003;Nivre开发的Penn2Malt工具;党政法、周强,2005;李正华等2008从依存语法到短语结构语法的转换Xia等(2009)从短语结构语法到组合范畴语法Hockenmaier和Steedman,2007;Tse和Curran,2010;宋彦等,2012**基于依存语法构建多视图树库树库转换中的问题树库转换中面临着各种歧义问题从短语结构语法到依存语法从整体功能信息生成语法角色信息从依存语法到短语结构语法从中心语和语法角色生成整体功能和层次信息从短语结构语法到组合范畴语法如何生成谓词论元关系**基于依存语法构建多视图树库多视图树库的提出本文提出多视图(Multi-view)树库的概念对同一个句子,基于同一个数据源,提供多种视图,如依存视图、短语结构视图、组合范畴语法视图等。我们称这种树为多视图树。一般意义上的依存树、短语结构树或组合范畴语法树可以视为单视图树。多视图树的“多”首先体现在构建阶段在构建多视图树时,可以选一个视图作为中心视图,其它视图与中心视图共享数据、彼此之间可以相互转换。多视图树的“多”还体现在使用阶段在使用阶段,多视图树不仅仅为同一个句子提供多种体系的句法分析结果,更重要的是这些不同体系的句法分析结果具有一个相同的来源,不同的视图只是这同一个数据来源的不同表现形式而已。*基于依存语法构建多视图树库*基于依存语法的多视图树库框架在本文中,我们主要讨论含有短语结构语法和依存语法两个视图的多视图树以依存视图为核心在句法层面上仅仅标注中心语和语法角色两类信息,自动转换出相应的短语结构树需要解决的关键问题是短语整体功能的推导和层次信息的推导。**基于依存语法构建多视图树库短语整体功能的可推导性朱德熙先生(1982:21)提出:“内部构造相同的结构,功能一般相同;功能相同的结构,内部构造不一定相同。”陈保亚先生(1999)则将之总结为结构功能原则“如果两个言语片断的直接成分功能相同,结构关系相同,它们的功能也相同。”“这个规律叫做结构功能原则。根据这一原则,只要知道了直接成分的功能和结构关系,结构功能就知道了”。*基于依存语法构建多视图树库*