文档介绍:国际儿童口语语料库录写系统的赋码原则初探*
王立非1 ,刘斌2
(, 江苏南京 210093; ,江苏南京 210039)
摘要:国际儿童口语语料库是目前世界上最完整的口语语料库之一,对开展口语语料库研究和语言习得研究具有重要价值,本文探讨该语料库的录写系统的赋码原则与具体操作问题,对促进我国英语口语语料库的建立和研究具有借鉴作用和启示意义。
关键词:国际儿童口语语料库;英语口语语料;语料库语言学
中图分类号: 文献标识码: 文章编号:
The CHILDES Corpus: Coding and Operation of the CHAT Tool
WANG Lifei1, LIU Bin2
(1. Nanjing University Nanjing, Jiangsu Prov., 210093; 2. PLA International Studies University, Nanjing, Jiangsu Prov., 210039, China)
Abstract: This paper describes the basic coding and operating principles of CHAT for the CHILDES talk-bank, a very valuable corpus for studies on spoken English and language acquisition. It aims to promote the development and use of the CHILDES as a reference for constructing the EFL spoken corpus in China.
Key words: CHILDES;English spoken corpus;corpus linguistics
新世纪的语言学研究已进入计算机时代,基于语料库的研究成果不断涌现,国际儿童口语语料库CHILDES(Child Language Data Exchange System)就是众多语料库中的一员,已有一千项基于这个语料库的研究成果发表。该语料库由美国麦克阿瑟基金会资助,于1984年开始筹建,经过近20年的建设,已成为目前世界上最大的儿童口语语料库。到目前为止,该语料库已收集了包括英语、汉语在内的25种语言。用户可直接从网上免费登录、使用或下载()语料。CHILDES语料库由三部分组成,第一部分是儿童英语口语语料库(DATA-BASE),第二部分为文本赋码系统(CHAT),第三部分为语料分析程序(CLAN),均可在网上免费下载。本文探讨该语料库的录写系统的文本赋码原则和操作,目的是对我国建设英语口语语料库提供借鉴与启示。
研究口语必须将视频和音频语料转换为文本语料进行分析和研究,录写费时费力,(温志军、胡瑰玲,2001)而CHAT录写系统提供了一整套赋码符号系统,经过赋码的口语语料运用计算机可以自动处理和分析。
CHAT (codes for the human analysis of tran