文档介绍：基于语料库的语言分析方法
(之五:语料库资源介绍)
邢红兵
汉语国际教育学部
汉语进修学院,北京 100083
******@blcu.
关于语料库的几点体会
了解语言属性的重要来源依据;
对语言研究导向性变化:更加注重数据,由定性研究转向定量研究,有结构研究转向功能;
语言习得与教学研究的导向;
语言的地位提升,国家战略,对社会的贡献等。
定义
建立在计算机中的语言资料库简称语料库(corpus ),它是大规模真实文本(text)的有序集合,是利用计算机对语言进行各种分类、统计、检索、综合、比较等研究的基础(参见GB120001-90《汉语信息处理词汇 01部分:基本术语》中国标准出版社1991)。
语料库就是存放语言材料的仓库(俞士汶,2003)
(1)真实的语言材料;
(2)计算机电子化存储;
(3)经过一定的加工、处理等。

语料库加工
总体设计和规划;
收集语料;
编码和标注;
语料库的加工;
检索工具
国外语料库情况简介
20世纪70-80年代:Brown语料库;LOB语料库;LLC语料库等;
20世纪80-90年代:COBUILD语料库;Longman语料库
20世纪90年代以后:ACL/DCI语料库、Upenn宾州大学,CHILDES(Child Language Data Exchange System)
2010年以后,大数据时代。语言资源为核心。
语料库的类型
口语语料库和书面语
静态的语料库和动态的语料库
通用语料库和专门语料库
抽样语料库和平衡语料库
生语料库和熟语料库
中介语语料库
汉语通用语料库概况
(一) 我国语料库研究的先河
在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版陈鹤琴做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得不同汉字4261个;
陈鹤琴用的语料分如下六类:
1. 儿童用书:127,293字;
2. 报刊(以通俗报刊为主):153,344字;
3. 妇女杂志:90,142字;
4. 小学生课外作品:51,807字;
5. 古今小说:71,267字;
6. 杂类:60,625字。
从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979年),527万字,武汉大学。
现代汉语语料库(1983年),2000万字,北京航天航空大学。
中学语文教材语料库(1983年),106万8千字,北京师范大学。
现代汉语词频统计语料库(1983年),182万字,北京语言学院。
1979年,北京语言学院(现在改名为“北京语言大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。
这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。语料:
1. 报刊政论:44万字,%。
2. 科技和科普文章:29万字,%。
3. 口语材料:20万字,%。
4. 文学作品:89万字,%。
整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。
(二)早期的机器可读语料库
1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:
《人民日报》光盘数据库
北京大学计算语言学研究所
北京语言大学
清华大学
山西大学
上海师范大学
北京邮电大学
香港城市理工大学
东北大学
哈尔滨工业大学
中国科学院软件研究所
中国科学院自动化所
北京外国语大学日本学研究中心
台湾中央研究院语言研究所
(三)国家级语料库的建设

1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:
时间的限制