1 / 7
文档名称:

兰开斯特汉语语料库介绍.doc

格式:doc   大小:54KB   页数:7
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

兰开斯特汉语语料库介绍.doc

上传人:文库旗舰店 2019/11/17 文件大小:54 KB

下载得到文件列表

兰开斯特汉语语料库介绍.doc

文档介绍

文档介绍:兰开斯特汉语语料库介绍北京外国语大学 (TheLancasterCorpusofMandarinChinese,简称LCMC)是在TonyMcEnery教授指导下,由他的学生肖忠华博士历时半年多于2003年6月初步建设完成的现代汉语平衡语料库。该语料库项目是由兰开斯特大学语言学系承担,由英国经社研究委员会资助设立的。LCMC语料库是严格按照Freiburg-LOBCorpusofBritishEnglish(即FLOB)模式编制的汉语书面语语料库,它的建成有助于我们从事基于语料库的汉语单语或汉英(英汉)双语的对比研究。()的现代汉语书面语平衡语料库。起先建立时它是作为英国经社研究委员会资助项目ContrastingTenseandAspectinEnglishandChinese的一部分。最初的设想便是要将其建成同FLOB和FROWN对等的现代汉语语料库。筹建这样的一个语料库的最初动因主要是:尽管已经有很多汉语语料库存在(Yang2003),但却没有一个完全免费对公众开放的平衡的汉语语料库。,于是一开始就必须确定将来对比的对象。一方面,在短期内想要建成像BNC那样的逾亿词次的语料库并不现实。另一方面,要建立同LOB和Brown平行的语料库的问题在于很难找到1961年前后材料的电子文本。于是,最后对比目标被锁定在语料出版年份主要是1991、1992年的100万词次的FLOB上。鉴于同时还有与FLOB对应的美国英语语料库Frown的存在,LCMC建成以后也可以与美国英语进行比较。最后,确定下来的方案是按FLOB的构建模式,从15个文体类型中选取500篇2,000词左右的样本。样本的出版日期基本是1991年。LCMC的筹建基本上是严格按照FLOB的取样模式来操作的,只是在两个方面做了微调。第一、FLOB的取样范畴中,肖忠华将FLOB中第N类样本的“西部和历险小说”改成“武侠小说”。一方面由于中国没有所谓的“西部小说”;另一方面,“武侠小说”和“西部和历险小说”从内容性质上同属一类,且在中国影响甚巨。有充足的理由将其收入LCMC中。表1:LCMC取样范畴表代码取样类型代码取样类型A新闻报道J学术、科技B社论K一般小说C新闻评论L侦探小说D宗教M科幻小说E技术、商贸N武侠小说F通俗社会生活P爱情小说G传记和杂文R幽默H其他:报告和公文等      第二、由于受到文本来源的制约,肖忠华将样本的出版年代扩大至1991年前后各两年(即1989到1993年)的跨度范围。他认为前后两年的幅度并不会影响整个语料的同质性。为了保证取样内容的同质性,LCMC中选取的都是中国大陆的出版物。该语料库是书面语语料库,选取文本时碰到图表一般使用<gap>来代替。为了保证所选文字是原汁原味的汉语,如果在选文中遇到较长的译文或不是1989到1992年期间的引文,也采用<gap>来替代,以避免翻译腔和时间跨度上的不一致。LCMC中的电子文本除了部分取自互联网,其他大部分语料取自超星图书馆()。肖忠华将超星图书馆提供的PDG格式的电子文本经过OCR识别后转换成文本文件,由此产生的1-3%的识别错误率再经过人工校