1 / 24
文档名称:

基于语料库的语言分析方法(汉语语料库资源介绍).ppt

格式:ppt   大小:2,124KB   页数:24
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于语料库的语言分析方法(汉语语料库资源介绍).ppt

上传人:86979448 2018/1/13 文件大小:2.07 MB

下载得到文件列表

基于语料库的语言分析方法(汉语语料库资源介绍).ppt

文档介绍

文档介绍:基于语料库的语言分析方法
(之五:语料库资源介绍)
邢红兵
汉语国际教育学部
汉语进修学院,北京 100083
******@blcu.
关于语料库的几点体会
了解语言属性的重要来源依据;
对语言研究导向性变化:更加注重数据,由定性研究转向定量研究,有结构研究转向功能;
语言习得与教学研究的导向;
语言的地位提升,国家战略,对社会的贡献等。
定义
建立在计算机中的语言资料库简称语料库(corpus ),它是大规模真实文本(text)的有序集合,是利用计算机对语言进行各种分类、统计、检索、综合、比较等研究的基础(参见GB120001-90《汉语信息处理词汇 01部分:基本术语》中国标准出版社1991)。
语料库就是存放语言材料的仓库(俞士汶,2003)
(1)真实的语言材料;
(2)计算机电子化存储;
(3)经过一定的加工、处理等。

语料库加工
总体设计和规划;
收集语料;
编码和标注;
语料库的加工;
检索工具
国外语料库情况简介
20世纪70-80年代:Brown语料库;LOB语料库;LLC语料库等;
20世纪80-90年代:COBUILD语料库;Longman语料库
20世纪90年代以后:ACL/DCI语料库、Upenn宾州大学,CHILDES(Child Language Data Exchange System)
2010年以后,大数据时代。语言资源为核心。
语料库的类型
口语语料库和书面语
静态的语料库和动态的语料库
通用语料库和专门语料库
抽样语料库和平衡语料库
生语料库和熟语料库
中介语语料库
汉语通用语料库概况
(一) 我国语料库研究的先河
在我国,从20世纪20年代开始,就有学者建立文本的语料库,采用统计的方法来研究汉字的频率。著名教育学家陈鹤琴为了教学的目的,在对语料统计的基础上,编写了《语体文应用字汇》,于1925年完成,于1928年由商务印书馆出版陈鹤琴做过两次统计,第一次统计使用了六种材料,包含554,478个汉字的语料,得不同汉字4261个;
陈鹤琴用的语料分如下六类:
1. 儿童用书:127,293字;
2. 报刊(以通俗报刊为主):153,344字;
3. 妇女杂志:90,142字;
4. 小学生课外作品:51,807字;
5. 古今小说:71,267字;
6. 杂类:60,625字。
从1979年以来,中国就开始进行机器可读语料库的建设,早期在中国建立的主要的机器可读语料库有:
汉语现代文学作品语料库(1979年),527万字,武汉大学。
现代汉语语料库(1983年),2000万字,北京航天航空大学。
中学语文教材语料库(1983年),106万8千字,北京师范大学。
现代汉语词频统计语料库(1983年),182万字,北京语言学院。
1979年,北京语言学院(现在改名为“北京语言大学”)针对对外汉语教学的特点,把“现代汉语词汇统计研究”作为重点科研课题,开始进行规模较大的汉语单词的频率统计研究。
这项研究工作,采用人工与计算机相结合的方式,对179篇样文、182万字的语料进行了词语切分、词频统计和数据分析的工作,统计的总词汇量为1,315,752词次,含不同单词31,159个,其中包括十年制语文课本(52万字,374,654词次)的字频和词频的定量分析,统计结果编成《现代汉语频率词典》出版。语料:
1. 报刊政论:44万字,%。
2. 科技和科普文章:29万字,%。
3. 口语材料:20万字,%。
4. 文学作品:89万字,%。
整个语料共182万字。这样容量的语料,在当时已经是比较大的语料库了。
(二)早期的机器可读语料库
1992年以来,大量的语料库在中国研究中文信息处理的单位建立起来,语料库成为了研究中文信息处理的基本语言资源。没有语料库的支持,中文信息处理的研究将会寸步难行。建设大规模真实文本语料库的单位有:
《人民日报》光盘数据库
北京大学计算语言学研究所
北京语言大学
清华大学
山西大学
上海师范大学
北京邮电大学
香港城市理工大学
东北大学
哈尔滨工业大学
中国科学院软件研究所
中国科学院自动化所
北京外国语大学日本学研究中心
台湾中央研究院语言研究所
(三)国家级语料库的建设

1991年,国家语言文字工作委员会开始建立国家级的大型汉语语料库,以推进汉语的词法、句法、语义和语用的研究,同时也为中文信息处理的研究提供语言资源,计划其规模将达7000万汉字,当时宣称,这将成为世界上最大的汉语语料库。这个语料库是均衡语料库。其语料要经过精心的选材,语料的选材应受到如下限制:
时间的限制

最近更新

2025河南商丘宁陵县消防救援大队招聘政府专职.. 40页

2025湖南衡阳珠晖区人民法院招聘聘用制司法辅.. 36页

2025银川市第三十一中学公益性岗位招聘5人考试.. 57页

2026年广东科贸职业学院单招职业倾向性测试模.. 44页

2026内蒙古自治区到中山大学定向选调(选聘).. 35页

2026年保安岗前培训考试试题往年题考 15页

2026年时事政治测试题库(黄金题型) (2) 13页

2026年南平市医疗类储备人才引进考试备考题库.. 50页

2026年消毒技术题库【典型题】 39页

2026年国开形成性考核《劳动关系与社会保障实.. 41页

2026年自考专业(国贸)考试题库200道附答案 84页

2026年起重机司机考试题库200道附参考答案(研.. 75页

2026湖南华菱线缆股份有限公司招聘18人考试备.. 52页

2026年心血管中医试题库附答案 38页

c语言编程练习题及答案一套 13页

新安全生产法知识竞赛试题库【巩固】 44页

2026年江西党史测试题库附答案(巩固) 41页

项目审评建议书 5页

2026年注册税务师考试题库附参考答案(研优卷.. 48页

集镇拥堵缓解策略建议书 4页

降低成本节约建议书 5页

阅读拓展意见建议书 5页

长者医疗援助建议书 5页

铁道部技术创新建议书 5页

采购顾问营养师建议书 5页

部门自媒体规范化建议书 6页

通信企业培训改进建议书 6页

2026年省级党校考试题库及参考答案 41页

2026年社区矫正工作考试题库附答案 42页

超市网上采购方案建议书 6页