文档介绍:兰开斯特汉语语料库介绍
北京外国语大学许家金
前言
兰开斯特汉语语料库(The Lancaster Corpus of Mandarin Chinese,简称LCMC)是在Tony McEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOB Corpus of British English(即FLOB)模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英汉)双语的对比研究。
LCMC语料库概况
LCMC是一个100万词次()的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目Contrasting Tense and Aspect in English and Chinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料库存在(Yang 2003),但却没有一个完全免费对公众开放的平衡的汉语语料库确切地说,台湾中央研究院Sinica Corpus也是一个免费对公众开放的平衡的汉语语料库。但是它只能代表台湾地区的汉语,而无法反映中国大陆的汉语的情况。详情可以访问Sinica Corpus官方网站/ftms-bin/。
。
取样模式与文本收集
考虑到该语料库将来主要是要作对比研究之用,于是一开始就必须确定将来对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。
LCMC的筹建基本上是严格按照FLOB的取样模式来操作的,只是在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC中。
表1:LCMC取样范畴表
代码
取样类型
代码
取样类型
A
新闻报道
J
学术、科技
B
社论
K
一般小说
C
新闻评论
L
侦探小说
D
宗教
M
科幻小说
E
技术、商贸
N
武侠小说
F
通俗社会生活
P
爱情小说
G
传记和杂文
R
幽默
H
其他:报告和公文等
第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。
为了保证取样内容的同质性,LCM