1 / 17
文档名称:

语音信号处理语音识别.课件.ppt

格式:ppt   大小:340KB   页数:17页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

语音信号处理语音识别.课件.ppt

上传人:wwlgqnh 2022/7/31 文件大小:340 KB

下载得到文件列表

语音信号处理语音识别.课件.ppt

相关文档

文档介绍

文档介绍:概述
语音识别(Speech Recognition)主要指让机器听懂人说的话,即在各种情况下,准确地识别出语音的内容,从而根据其信息,执行人的各种意图。它是一门涉及面很广的交叉学科,与计算机、通信、语音语言学、数理统计、信号处理进行规整处理来控制语音数据幅度的变化。
第6页,共17页。
抗噪声:环境噪声不可能完全消除。对于手自由的语音识别(Hand-Free),话筒与嘴有一定距离的时候,以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。对于平稳噪声,传统的谱相减(SS)降噪声技术是有效的,对于非平稳噪声也有通过两个话筒分别输入语音和噪声相互抵消加以消除的方法。
语音区间的端点检测:端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小,而且能排除无声段的噪声干扰,从而使识别系统具有良好的识别性能。传统的端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好,将会发生漏检或虚检的情况。为了克服传统端点检测算法的缺点,已有很多改进方法被提出来。例如,可以考虑采用基于相关性的语音端点检测算法。
第7页,共17页。
语音参数分析:经过预处理后的语音信号,就要对其进行特征参数分析,其目的是抽取语音特征,以使在语音识别时类内距离尽量小,类间距离尽量大。识别参数可以选择下面的某一种或几种的组合:平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、PARCOR系数(偏自相关系数)、声道形状的尺寸函数,以及音长、音高、声调等超声短信息函数。
现在,经过FFT变换或者LPC得到功率谱以后再经过对数变换和傅立叶反变换得到的倒谱参数是常用的语音识别特征参数。
第8页,共17页。
语音识别
语音识别是语音识别系统的核心部分。除包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法,还包括增添新词的功能、数据库管理和友好的人机交互界面等等。
语音模型:语音模型一般指的是用于参数匹配的声学模型。语音声学模型的好坏对语音识别的性能影响很大,现在公认的较好的概率统计模型是HMM模型。因为HMM可以吸收环境和话者引起的特征参数的变动,实现非特定人的语音识别。
识别模型的基元单位的选择对于识别性能也有很大的影响。对于日语和英语,以半音节、环境依存音素为模型的研究例子较多。对于汉语,则可用“声母---韵母”,也可用音节字、词等识别基元。
第9页,共17页。
连续语音的自动分段:连续语音的自动分段,是指从语音信号流中自动地分割出识别基元的问题。把连续的语音信号分成对应于各音的区间叫做分割(Segmentation),分割的结果产生的区间叫做分割区间(Segment),给分割区间付与表示音种的符号叫做符号化。汉语自动分段是指根据汉语特点及其参数的统计规律,设置某些参数的阈值,用计算机程序自动的进行分段。通常可用的参数有:帧平均能量、帧平均过零数、线性预测的第一个反射系数或其残差序列、音调值等。从简单、快速的要求而言,最好采用前两种时域参数即帧平均能量FN和帧平均过零数ZN。
第10页,共17页。
语音识别方法:当今语音识别技术的主流算法,主要有基于参数模型的隐马尔可夫模型(HMM)的方法和基于非参数模型的矢量量化(VQ)的方法。另外,基于人工神经网络(ANN)的语音识别方法,也得到了很好的应用。
传统的基于动态时间伸缩的算法(DTW),在连续语音识别中仍然是主流方法。同时,在小词汇量、孤立字(词)识别系统中,也已有许多改进的DTW算法被提出。
用于语音识别的距离测度有多种,如欧氏距离及其变形的欧氏距离测度、似然比测度、加权的识别测度等。选择什么样的距离测度与识别系统采用什么语音特征参数和什么样的识别模型有关,
第11页,共17页。
计算量和存储量的削减:对于在有限的硬件和软件资源下动作的语音识别系统,降低识别处理的计算量和存储量非常重要。当用HMM作为识别模型时,特征矢量的输出概率计算以及输入语音和语音模型的匹配搜索将占用很大的时间和空间。为了减少计算量和存储量,可以进行语音或者标准模式的矢量量化和聚类运算分析,利用代表语音特征的中心值进行匹配。在HMM语音识别系统中,识别运算时输出概率计算所消耗的计算量较大,所以可以在输出概率计算上采用快速算法。另外为了提高搜索效率,可以采用线搜索方法以及向前向后的组合搜索法等。
第12页,共17页。
拒识别处理:由于用户发音的错误,可能出现系统词汇表以外的单词或者句子,同时,在噪声环境下由噪音引起的语音区间检测错误也可能产生许多误识别的结果。所以在实际语音识别系统中,对信赖度低的识别结果的Re