文档介绍:中国科学院自动化研究所
博士学位论文
电话语音识别鲁棒性研究
姓名:张化云
申请学位级别:博士
专业:模式识别与智能系统
指导教师:徐波
20030101
关于论文使用授权的说明独创性声明本人完全了解中国科学院自动化研究所有关保留、使用学位论文的规定,本人声明所提交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中爿他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确地说明并表示了谢意。即:中国科学院自动化研究所有权保留送交论文的复印件,允许论文被查阅和借阅:可以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保存论文。C艿穆畚脑诮饷芎笥ψ袷卮斯娑签名师签名电话语音识别鲁棒性研究签名:日期:笫
摘要现出色的语音识别系统在实际电话网络应用中都变十分脆弱。提高电话语音识别鲁棒性是实现其商用化的关键问题。本文针对汉语电话语音识别应用中的技与清/浊音统计判决相结合的基频跟踪方法,使清/浊音误判率航档皆凶韵关方法的%。准确可靠的基频特征使电话语音孤立词的误识率相对下降%。试通道不一致时,必须对语音特征进行补偿。由于电话通道内存在众多不确定因素,通常的倒谱均值估计和倒谱滤波方法都不能取得理想效果。我们提出准线性通道分析模型,利用语音统计模型和最大似然估计方法估算通道偏置。在汉语大词汇量连续电话语音识别测试中使字误识率相对降低%。为解决快速变换自适应方法的基础上,我们提出一种新的全矩阵线性变换参数化简形式。新方法在保持全矩阵变换精度优势的同时能有效减少重估参数的数目,提高估关键词:基频提取、电话通道补偿、级联线性变换自适应、集外词拒识电话足最普及的话音通信工具,是各种先进语音技术最大的潜在应用领域。语音识别是基于电话平台的语音应用的一项核心技术。目前在实验室条件下表术难点,在以下几个方面做了深入研究和有效改进。汉语是一种典型的声调语言,声调信息对汉语语音识别有重要作用。然而由于电话通道的调制作用,通常的基频提取算法在电话通道上有较大误差,直接影响语音的识别率。我们采用改进的无偏自相关分析方法,提出自相关强度鲁棒的前端特征是高性能语音识别的前提。由于目前对语言的发音和感知机理缺乏深入认识,还没有与噪声/通道无关的语音特征表示。系统的训练和测补偿中出现的数据稀疏问题,引入音素相关的通道先验知识,利用最大后验估计方法估算通道偏置,使相对误识率迸一步下降ァS肫渌钩シ椒ú煌两种新算法不但对固定电话通道有效,对非线性的无线压缩电话通道也有作用。针刘特定应用的声学自适应是语音识别应用系统的重要组成。在级联线性值的鲁棒性。这使我们可以在更小的回归类上进行变换估计,提高了自适应精度。新方法在不同数据规模的自适应测试中都优于原有基于变换的自适应方法。最后讨论在自然连续语流识别中对背景噪声和集外词的拒识机制及在电话语音识别平台中的实现。实现了基于噪声模型和汉语音节补白模型的并行搜索拒识方法,并利用这种方法有效地进行连续语流中的关键词检测。电话语音识别鲁棒性研究帮
.虢簆曲—痷/%%血產,畉甶.●..甦甀..,甌猚,.—....,,,第海一
第一章引言上个世纪最具革命性的信息技术之一是公用电话网络的出现,它极大地改变了人们的信息交流方式。而战后计算机以及互联网络的出现又从根本上改变了我们获取信息和从事商业活动的模式。从兰湍┛J挤⒄钩尚偷男乱淮息网络融合了话音功能和数据功能,实现了数话业务合一。从技术上,人们已经可以在全球的任何时间、任何地点通过个人信息终端设备访问任何网络信息服务。进入新世纪以后,随着社会的信息化,人们对网络信息的依赖程度日益增加。然而随着网络规模的不断扩大,各种网络信息浩如烟海,如何能便捷有效地访问网络信息资源目益成为人们关心的问题。因此各国政府和企业界都开始加快各种先进信息处理技术的发展和实用化步伐,希望能够充分利用目前已经广泛普及网络架构来为终端用户提供更廉价、高效、智能化的增值服务。无论从技术的角度还是从服务的角度,这都是一场革命性的变革。变革的实质并非来自于更先进的、运算功能更强大的终端设备。由于在电信网络的投资比例中,用户端设备和线路投资占据整个网络投资的百分之七十以上,所以目前情况下,为保护发展过程中在用户端积累的巨大投入,不需要在短期内对用户终端设备进行大规模升级换代。如何充分利用现有的用户终端潭ㄗ电话、个人移动电话、个人电脑终端等S没峁└咝约郾鹊姆瘢攀电信服务商目前所关心的核心问题:利用网络中丰富的计算资源和强大的传送功能,将最先进的信息技术服务送达终端用户,提供更加人性化的信息服务。语言是在人类社会发展演变过程中逐步形成的一利,信息交流方式,