文档介绍:数据资源开发的回顾与展望
研讨会与会者:Martha Palmer, Stephanie Strassel, Randee Tangi
报告提供者:Martha Palmer, Randee Tangi, Stephanie Strassel, Christiane Fellbaum,
Eduard Hovy
本报告是基于MINDS研讨会的五份报告中的其中一份,该研讨会由Donna
Harman(NIST)领导并由国家情报总监办公室科学技术办公室下属的突破性技术
办公室(ODNI/ADDNI/S&T/DTO)的Heather McCallum-Bayliss发起。如查询其他
报告以及总体概述,请访问以下网址:/.
绪论
由美国国家突破性技术办公室(DTO)主办的研讨会中的第二次会议名为
“MINDS 会议:人类语言技术的展望”,于 2007 年 2 月 25、26 日在加利福尼亚的
Marina del 海湾举行。“MINDS”是机器翻译(MT)、信息检索(IR)、自然语言处理
(NLP)、数据资源(Data)、和语音理解(ASR)这五个领域的首字母缩写,在本
次研讨会上,研究人员对每一个领域都进行了阐述。与会工作组的目标是确定和讨
论那些有发展前景的可引起重大范式转换且资金不足的未来研究方向。作为上一个
研讨会的延续,此次研讨会的每个工作组(除了数据资源组)首先回顾了过去在各
自领域取得的主要进展和成功因素,然后对上次会议作出了回顾,并对上次会议所
提到的未来发展趋势提出了建议。MINDS 中每两个领域的研究人员一起讨论可能的
领域交叉与协作。每个领域的研究者负责提供包括 5 至 6 项“重大挑战”的报告。
1. 数据资源开发历史上的重大发展
电子文档的普及和最近出现的语言学标注使 ASR,MT,IR 和 NLP 等领域发生
了彻底的改革。
转录语音 TI46 1系统“使用通用语音语料进行训练、开发和评价,对于创建高性
能系统来说非常重要。语音信号是一种频繁变换的信号,其特征是参数多,使得在
大规模语料库上的自动建模不容易实现。多年来,这些语料库已经被建立并标注,
并由美国国家标准技术协会(NIST)、语言学数据协会(LDC)等向全世界发布。
所记录的语音逐步从有限的、受限的语料过渡到更贴合实际的、自发的“Found语音”。
[MINDS07 Speech Understanding Report]
TI46 是德州仪器(TI)在 1980 年设计并开发的由独立口语词组成的语料库,
有男女共 16 名讲话者,每人录入 46 个词,然后是TIMIT语料库,即DARPA TIMIT
Acoustic-ic Continuous Speech Corpus。“TIMIT包括 6300 个句子,有 630 名来
自美国 8 个不同方言的地区的讲话者,每人录入 10 个句子”2。同样有影响的语料库
包括华尔街日报语料库、会话语音Switchboard语料库、和Hub4 广播新闻语料库。
“许多研究机构和学者都受益于一些通用的研究工具,如 HTK、Sphinx、CM