文档名称：

识别语音的几种依据.doc

格式：doc 大小：26KB 页数：5页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

识别语音的几种依据.doc

上传人:n22x33 2019/10/18 文件大小：26 KB

下载得到文件列表

识别语音的几种依据.doc

相关文档

文档介绍

文档介绍：清华大学刘加2006/07/31 语音识别技术就是通过机器识别和理解过程把语音信号转变为相应的文本或命令;说话人识别技术就是让机器通过你的声音纹路确定你的身份;语种识别技术就是让机器识别你所说的语言的种类,如是英语还是汉语等。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。专家预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。由于朗读方式的连续语音和通常自然口语化语音(Spontaneous)发音方式有很大的不同,电话语音通常包含更多的环境噪声、信道噪声和语音失真,因此如何有效提高自然口语化语音电话语音和广播语音识别性能是目前重要挑战。目前语音识别技术研究开始重点向电话语音和广播语音识别研究方向发展。利用目前已经比较成熟的技术,开发针对各种应用的语音识别产品,包括语音专用芯片、嵌入式语音识别系统、口语对话系统、声纹识别系统等,也是目前语音技术领域的热点之一。语音识别整体模型大词汇量连续语音识别系统的研究主要集中在声学模型和语言模型两个方面。语音信号本身的特点造成了语音识别的困难。这些特点包括多变性、动态性、瞬时性和连续性等。语音识别和理解是一项非常困难的任务,必须建立在从声学、语音学到语言学的知识为基础的语音处理机制上,才有可能获得高性能的自动语音识别系统。目前主流的语音识别的理论是基于统计模式识别原理。语音识别系统通常假设语音信号是由一系列编码组成。输入的语音波形首先被转换为一组离散的参数矢量。通常用O=o1,o2,∧,or表示语音发声一组待识别的特征参数矢量(观察矢量),其中每个矢量时间间隔典型取值为10ms~20ms。识别器的作用是把输入的语音特征矢量映射为潜在的文字序列。语音识别的整体模型就是要把可利用的语音学和语言学信息用一个统一的模型来进行描述,以得到尽可能正确的句子识别。假设一句语音可以由字串W=w1,w2,∧,wr组成,识别系统要完成的任务是在给定观察矢量情况下,寻找最大可能(概率最大)的字串W。汉语和西方语言识别系统不同的地方在于汉语中的同音字和同音词比较多,汉语语音识别系统必须包含音字转换的过程。建立语音识别模型的任务就是要把检测到的声学层语音信息通过适当的数学公式将识别结果W与O的关系表示出来。目前被认为最有效的语音识别模型就是基于统计的隐含马尔可夫模型。根据统计模式识别理论,在已知特征O的条件下,选择可以利用各种信息使后验概率最大。具有最大后验概率的结果为系统最可能的识别结果。语音识别整体模型反映了实际中语音识别系统要解决的四个具有挑战的问题。首先,一个稳健的特征参数提取算法是必须的,并且该参数能很好地适用于语音的声学层模型。第二,必须根据不同语言的发音特点,建立具有很好鉴别力的声学层模型。模型参数必须能够从并不充分的语音数据中训练出来,并表现出稳健性。第三,必须建立一个语言模型,根据前面的历史语言模型能够指导向前搜索的过程。完善的语言模型还必须包含处理新词的能力,并且尽可能做到和文本的内容无关。第四,由于词汇数量是巨大的,一个实用系统必须有适合声学模型和语言模型的剪枝算法。语音识别特征选取语音的识别特征参数是语音识别系统中非常重要的一个方面。选取的特征应该对发音模板有较大的区分度和抗噪声性能。语音信号可以看成是准平稳的随机过程。在10~25ms的时间范围内语