1 / 80
文档名称:

中国台湾中研院.ppt

格式:ppt   大小:2,030KB   页数:80页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

中国台湾中研院.ppt

上传人:63229029 2017/6/9 文件大小:1.98 MB

下载得到文件列表

中国台湾中研院.ppt

文档介绍

文档介绍:中国台湾中研院语料库中国台湾中研院( Academia Sinica ) 曾于 20 世纪 90 年代初期开始建立了汉语平衡语料库( Sinica Corpus ) 汉语树库( Sinica Treebank ) 汉语平衡语料库( Sinica Corpus ) ?一?前言?二?平衡语料库的分类标准与选取结果?三?分词标准?四?词类标记?五?检索说明一、前言? 建立平衡语料库的动机? 中研院平衡语料库的源起? 中研院平衡语料库的设计理念? 中研院平衡语料库的构建过程一、前言?「中央研究院平衡语料库」简称「中研院平衡语料库」( Sinica Corpus ),是世界上第一个有完整词类标记的汉语平衡语料库。由于加词类标记的汉语语料库是史无前例的尝试,第一步先以较小规模(但仍大于较早英语语料库的一百万词规模),于 1994 年公开提供给国内外学术研究使用;以期在使用过程中得到回馈,在完成目标规模前可以做必要的修正。 1997 年开放的研究院语料库 版已达到五百万目词的预计规模。搜集的文章为 1981 年到 2007 年之间的文章,完成 版本,约一千万目词。 建立平衡语料库的动机语料库为本( corpus-based )的研究是近年來语言学及计算语言研究的一个重要发展,其影响更远及文学及社会学的计算研究。语料库构建的第一个大问题是如何在有限的语料中代表复杂的当代语言全貌。平衡语料库中最重要的讯息,也是关键性的特色, 便是每个词上的词类标记。当然,每个词上有意义的标记( tag ),并不一定是词类,也可以是语义、语音、笔划等。可是只有词类可以算是(所有语言)的基本架构单位,是语言学家公认建构语法的基础,也是不论对语言从事何种研究都可能用得到的讯息。 中研院平衡语料库的源起中央研究院词知识库小组,自 1990 年前后便开始致力于中文语料库收集,截至 1994 年止已收集有近二千万字之现代汉语语料及超过五百万字之古代汉语语料。平衡语料抽取以自中央研究院词库小组现有之语料中取得为优先,但也同时透过不同管道取得不同文体、内容之语料。以下依來源之不同种類大致列举: ?(一) 交换取得之语料:此项包括经由合作计划交换取得的, 如中国时报。?(二) 直接向版权所有单位取得:慷慨提供我们版权语料做学术研究用的有:杂志社以及许多中研院内的单位等。另多位教授提供他们转写( transcribe )的口语资料。?(三) 由公共区域取得的公共资料:大部份由电子布告栏( BBS )或蕃薯藤等万维网中取得。 中研院平衡语料库的设计理念研究院语料库因为中文的特性,也因为我们观察语料的经验及研究语料库语言学的结果,有以下几个重要的设计理念: ( 一)遵循计算语言学学会的分词标准分词(或称断词)是中文自然语言处理的先决条件,但因中文词的分界在实际书写上不标明,在理論上亦有争议;故一直很难标准化。目前国内有中华民国计算语言学学会受中央标准局委办研拟「中文信息处理分词规范」,并已完成国家标准草案。依此标准分词不但可以有助于资源共享,对语料库分词结果之回馈也可成为尔后修定国家标准草案的依据。 ( 二) 裁文是以文章( text )的自然段落为准,而非以文章长度为准避免选取过短或过长的文章, 便随其自然段落截取。我们认为我们的设计理念可以取得更完整不偏颇的语言讯息内容。 中研院平衡语料库的设计理念 ( 三) 语料库多重分类原则分类把所有语料都给了五个不同特征的值: (1) 文类(2) 文体(3) 语式(4) 主题(5) 媒体。目前初步虽然仍以主题为主轴來进行语料库的平衡。理想上是希望有了更多研究的结果之后,可以同时利用一个以上的轴來定义更完善的平衡语料库。具有五个轴的多重分類,另一个立即的好处是研究上的活用性( versatility )增加了许多。研究者可任选其中特征的组合,定义自己的次语料库( sub-corpora );也可以在次语料库间作比较研究。多重分類原则也有利于以后平衡语料库的更新。因此在有监看语料库( monitor corpus )的前提下,我们可以随时抽换平衡语料库中某个符合一组特征条件的次语料库,以保平衡语料库仍忠实代表当代语言的真实现况。 中研院平衡语料库的构建过程要建构一个平衡带词类标记的语料库,第一个起步工作是收集语料。接下來是语料整理的工作,包括语料清洁、为语料分类、加词类标记等等[陈克健 1994 ]。以下就构建一个中文的带词类标记的平衡语料库需要考虑的三个中心问题分三章依次说明: 第二章谈平衡语料的分类与选取,如何为语料做分类,分类的标准以及各类的比例。第三章是中文的断词问题