文档介绍:汉语中介语语料库简介
陈晨
*
目录
一 背景
二 语料库和语料库语言学
三 汉语语料库和汉语中介语语料库建设
北大语料库(现汉、古汉、英语)
四 常用中介语语料库
(一)北语HSK动态作文语料库
中介语口语语料库
(二)中山大学中介语语料库
(三)暨南大学中介语语料库
五 意义和局限
六 参考文献
*
一 背景
自20世纪60年代计算机问世,计算机技术就迅速应用到了以语料库为
基础的语言学研究中,随着计算机技术的迅速发展,世界各国在语料库的
建设上成绩显著。不同语言、不同类型、不同规模的语料库越来越多。自
第一代大型电子语料库BROWN建立至今,语料库语言学的研究已经有50多
年的历史。而国内的语料库研究也有30多年的历史,并在上世纪90年代得
到飞速发展。
汉语中介语料库的建设始于20世纪90年代。进入21世纪,汉语中介语语
料库引起了更多重视,语料库建设增多,建设速度加快。但是,目前对外
公开的语料库数量却很有限,主要有北京语言大学的HSK动态作文语料库
(简称“北语HSK作文语料库”)、中山大学的汉字偏误连续性中介语语料
库(简称“中大中介语语料库”)和台湾师范大学的汉语学习者汉字偏误数据资料库(简称“台师大汉字偏误库”)等。
*
二 语料库和语料库语言学
语料库和语料库语言学的定义 
语料库(corpus 或corpuses)是指按照一定的语言学原则,运用随
机抽样方,收集自然出现的连续语言运用文本或话语片段而建成的具有
一定容量的大型电子文本库。  语料库语言学:在文本语料的基础上进行语言研究的一门学科。语
料库语言学通过语言现象出现的概率对语言材料进行研究。这里的语言
材料是真实的、可观存在的,因此,通过概率统计手段在语料库语言学
研究中得到的语言使用情况是真实客观的,排除掉了语言学家的主观
性,研究结果更加真实可靠。    语料库在语言学研究中主要的应用领域有:  词典编纂;语言统计;语言监控,包括新词、新用法的发现;语言 教学;语言信息处理;语法、语义、词汇、语音等各种语言问题的研究;方言研究等等。
*
三 汉语语料库和汉语中介语语料库建设
汉语语料库  我国汉语语料库的建设开始于20世纪八九十年代,取得了不少成果。
这里简单介绍北京大学CCL语料库极其特点,该语料库包含三个子语料
库:现代汉语语料库、古代汉语语料库和汉英双语语料库。 其中现代汉语语料库和古代汉语语料库主要是面向汉语研究和教学使
用的大规模语料库及其在线检索系统。
字语料,现代汉语和古代汉语大体上各占一半。现代汉语语料库主要收
录1696部作品,9711字的查询。古代汉语语料库,涉及从周代到民国
时期,22580字的查询。该语料库主要特色包括:
可以查询不连续的词语,可以指定词语之间的距离(比如“帮…
忙”);可以查询汉语特有的重叠模式;支持对标点符号的查询等等。  汉英双语语料库目前规模已经超过100万句对。汉英双语语料库对
于汉英语言对比研究有直接的帮助。
北大语料库
:8080/ccl_corpus/?dir=gudai
*
*
三 汉语语料库和汉语中介语语料库建设
中介语的理论在 20世纪 80年代被引入到我国( 鲁健骥 1993) 之后,
就有了汉语的中介语语料库建设 。第一个问世的汉语中介语语料库是由、
北京语言学院开发研制的 “汉语中介语语料库系统”, 它是一个利用第一
语言为非汉语的学生的汉语书面语料,全面、细致地记录他们汉语学习过
程中的语言表现和研究他们汉语习得过程的计算机软件。该语料库对语
料进行了分词和词性标注。
相继出现的汉语中介语语料库有 “留学生汉语中介语语料库 ”( 暨南大
学 )“外国学生汉语中介语偏误信息语料库”( 南京师范大学 ) 、“汉语中介
语语料库 ”( 中山大学 )等 , 不过 ,很多语料库并不面向全社会开放使用 ,
许多人想用却没法用 ,导致语料库的使用率并不高。
中介语语料库的建立 ,是为了更好地进行汉语中介语研究 、第二语
言习得研究、对外汉语教学理论研究、对外汉语教材研究、汉语水平考
试研究以及与对外汉语教学相关的汉语本体研究等等 。这对于提高汉语
教学 、汉语测试 、汉语本体研究等方面的水平都具有重要的意义 ,接
下来对常用的对全社会公开的语料库进行介绍。
*