1 / 4
文档名称:

语音识别打印.pdf

格式:pdf   大小:535KB   页数:4页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

语音识别打印.pdf

上传人:1781111**** 2024/5/11 文件大小:535 KB

下载得到文件列表

语音识别打印.pdf

相关文档

文档介绍

文档介绍:该【语音识别打印 】是由【1781111****】上传分享,文档一共【4】页,该文档可以免费在线阅读,需要了解更多关于【语音识别打印 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。预处理主要是对一段语音信号进行预加重、分帧加窗的处理。特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。预加重:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。矢量量化是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。将某一范围内的矢量归为某一类,即所的矢量量化谓失真度的定义:将输入信号矢量用码书的重构矢量来表征时的误差或所付出的代价的大小。语音合成就是让计算机象人那样讲话。共振峰在图1所示的某一语音的频率响应图中,标有处为频率响应的极点,此时,声道的传输频率响应有极大值****惯上,把声道传输频率响应上的极点称之为共振峰语音识别的定义语音识别是研究如何采用数字信号处理技术自动提取以及决定语音信号中最基本、最有意义的信息的一门新兴的边缘学科。语音识别的基本原理训练(Training):预先分析出语音特征参数,制作语音模板(Template)并存放在语音参数库中。识别(Recognition):待识语音经过与训练时相同的分析,得到语音参数,将它与库中的参考模板一一比较,并采用判决的方法找出最接近语音特征的模板,得出识别结果。失真测度(DistortionMeasures):在进行比较时要有个标准,这就是计量语音特征参数矢量之间的“失真测度”。主要识别框架:基于模式匹配的动态时间规整法(DTW:DynamicTimeWarping)和基于统计模型的隐马尔柯夫模型法(HMM:HiddenMarkovModel)。()语音识别原理框图一个典型语音识别系统的实现过程如图所示。预处理主要是对一段语音信号进行预加重、分帧加窗的处理。预加重的目的是提升高频部分,似信号变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱,,这是为了使帧与帧之间平滑过渡,保持其连续性。分帧是用可移动的有限长度窗口进行加权的方法来实现的。特征提取是对语音信号进行分析处理,去除对语音识别无关紧要的冗余信息,获得影响语音识别的重要信息。特征提取一般要解决两个问题,一个是从语音信号中提取(或测量)有代表性的合适的特征参数(即选取有用的信号表示)另一个是进行适当的数据压缩。语音识别的分类?按识别器的类型:孤立单词识别(IsolatedWordRecognition)识别的单元为字、词或短语,它们组成识别的词汇表(Vocabulary),对它们中的每一个通过训练建立标准模板或模型。连续语音识别(ContinuousSpeechRecognition)连续单词识别(ConnectedWordRecognition):以比较少的词汇为对象,能够识别每个词。识别的词汇表和标准样板或模型也是字、词或短语,但识别时可以是它们中间几个的连续。连续言语识别与理解(ConversationalSpeechRecognition):以多数词汇为对象,待识语音是一些完整的句子。虽不能完全准确识别每个单词,但能够理解其意义,连续言语识别也称会话语音识别。理解是在语音识别之后,根据语言学知识来推断语音的含义内容的。按识别器对使用者的适应情况:特定人语音识别(Speaker-Dependent)语音识别的标准模板或模型只适应于某个人,实际上,该模板或模型就是该人通过输入词汇表中的每个字、词或短语的语音建立起来的。其他人使用时,需同样建立自己的标准模板或模型。非特定人语音识别(Speaker-Independent)语音识别的标准模板或模型适应于指定的某一范畴的说话人(如说标准普通话),标准模板或模型由该范畴的多个人通过训练而产生。识别时可供参加训练的发音人(圈内人)使用,也可供未参加训练的同一范畴的发音人(圈外人)使用。?按语音词汇表的大小:有限词汇识别按词汇表中字、词或短句个数的多少,大致分为:100以下为小词汇;100-1000为中词汇;1000以上为大词汇。?无限词汇识别(全音节识别)当识别基元为汉语普通话中对应所有汉字的可读音节时,则称其为全音节语音识别(音节字表:Lexicon)。全音节语音识别是实现无限词汇或中文文本输入的基础。掩蔽效应:一种声音的听觉感受受到同时听到的一种声音的另影响。分:同时掩蔽和短时掩蔽同时掩蔽:同时存在的一个弱信号和一个强信号频率接近时,强信号会提高弱信号的听阈,当弱信号的听阈升高到一定程度会导致弱信号不可闻。短时掩蔽:当A声和B声不同时出现时。后向掩蔽:掩蔽声B消失后,其作用仍持续一段时间:~2s前向掩蔽:被掩蔽音A出现后,~,也会对A起作用。语音信号的数学模型语音信号的产生模型图1、激励模型(1)发浊音时。此时气流通过绷紧的声带,冲激声带产生振动,使声门处形成准周期性的脉冲串,并用它去激励声道。声带绷紧的程度不同,振动频率也不同。该频率就是音调频率,其倒数为音调周期。(2)发清音时。此时声带松弛而不振动,气流通过声门直接进入声道。表示为均值为0、方差为1,并在时间或在幅度上为白色分布的序列。2、声道模型(一)声管模型把声道视作截面积变化的管子,研究声音沿管道是怎样传播的。(二)共振峰模型声道被视为谐振腔,共振峰是腔体的谐振频率3、辐射模型声道的终端为口和唇。从声道输出的是速度波,而语音信号是声压波,二者之倒比称为辐射阻抗ZL。它表征口和唇的辐射效应,也包括圆形的头部的绕射效应等。4、完整的模型完整的语音信号数字模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。其转移函数为:H(z)=U(z)V(z)R(z)这里,U(z)是激励信号——声门脉冲即斜三角波的形式;V(z)是声道传递函数,既可以用声管模型,也可以用共为辐射模型。语谱图语音处理的根本方法短时分析技术语音信号具有时变特性,而在一个短时间范围内其特性基本保持不变即相对稳定,因而可以将其看作是一个准稳态过程。语音的重要特性是它具有短时性”,所以对语音的分析和处理必须建立在“短时”的基础上,即进行“短时分析”,预加重:原因:语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频端大约在800Hz以上按6dB/倍频程跌落。目的:提升高频部分,使信号的频谱变得平坦,以便于进行频谱分析或声道参数分析。位置:可在反混叠滤波之前进行,这样不仅能进行预加重,而够且可以压缩信号的动态范围,有效地提高信噪比。也可在A/D变换之后进行,用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现,它一般是一阶的。加窗分帧:语音信号是一种典型的非平稳信号,其特性是随时间而变化的,但是语音的形成过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来说要缓慢得多,因此语音信号常常可假定为短时平稳的,即在10~30ms的时间段内,其频谱特性和物理特征参量可近似地看作是不变的,这样,就可以采用平稳过程的分析处理方法来处理了。由这个假定导出了各种“短时”处理方法,以后讨论的各种语音信号都是分隔为一些短段(帧)再加以处理。这些短段就好像是来自一个具有固定特性的持续语音片段一样。端点检测:端点检测是指从包含语音的一段信号中确定出语音的开始和终止点。语音信号的倒谱分析倒谱分析:运用对数运算和二次FFT/IFFT变换,将基音谐波和声道的频谱包络分离出来,用低时窗从语音信号倒谱中截取出低倒谱域部分,可以更精确的反映声道的响应,得到共振峰。2、对原语音信号分析出一组预测系数,得到语音产生模型的频率响应。矢量量化的定义:矢量量化(VectorQuantization)是将若干个取样信号分成一组,即构成一个矢量,然后对此矢量一次进行量化。将某一范围内的矢量归为某一类,即所谓的矢量量化矢量量化的应用:进入80年代以后,矢量量化技术引入语音处理领域,使之又有长足的进步。目前这项技术已经用于语音波形编码,线性预测编码、语音识别与合成、图像压缩等。矢量量化系统的组成框图失真的定义:将输入信号矢量用码书的重构矢量来表征时的误差或所付出的代价。失真测度必须具备的特性:①必须在主观评价上有意义,即小的失真应该对应于好的主观语音质量。②必须是易于处理的,即在数学上易于实现,这样可以用于实际的矢量量化器的设计。③平均失真存在并且可以计算。失真测度的方法均方误差(即欧氏距离)、加权的均方误差、Itakura—Saito(板仓-斋藤)距离,似然比失真测度等。语音合成就是让计算机象人那样讲话。语音合成可以分为下面三种类型::它把人发音的语音波形直接存储或者进行波形编码后存储,根据需要编辑组合输出。这种系统中语音号、报站及报警等。:也称为分析合成法,是一种比较复杂的方法。为了节约存储容量,必须先对语音信号进行分析,提取出语音的参数,以压缩存储量。缺点:存在逼近误差,合成语音质量(清晰度等)也就比波形合成法要差;这种方法采用声码器技术,以高效的编码来减少存储空间,但这是以牺牲音质为代价的,使合成语音的音质欠佳。这种语音合成又称为终端模拟合成”,因为它只是在谱特性的基础上来模拟声道的输出语音,而不考虑内部发音器官是如何运动的。:通过语音学规则产生语音,合成的词汇表不事先确定,系统中存储的是最小的语音单位(如音素或音节)的声学参数,以及由音素组成音节、由音节组成词、由词组成句子以及控制音调、轻重等韵律的各种规则。给出待合成的字母或文字后,合成系统利用规则自动地将它们转换成连续的语音声波。特点:可以合成无限词汇的语句,存储量比参数合成法更小,但音质也更难得到保证。共振峰在图1所示的某一语音的频率响应图中,标有Fp1,Fp2,Fp3,……处为频率响应的极点,此时,声道的传输频率响应有极大值****惯上,把声道传输频率响应上的极点称之为共振峰识别方法四种(1)基于声道模型和语音知识的方法(2)模式匹配方法(3)统计型模型方法(4)人工神经网络方法基于声道模型和语音知识的方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段模式匹配常用的技术有动态时间规整(DTW)和矢量量化(VQ);统计型模型方法常见的是隐马尔可夫模型;语音识别常用的神经网络有反向传播(BP)网络,径向基函数网络(RBF)及新兴的小波网络。关于神经网络在语音信号处理中的应用研究十分活跃,其中以在语音识别方面的应用最令人瞩目。目前,主要是从听觉神经模型中得到启发,以便构成一些具有类似能力的人工系统,使它们在解决语音信号处理(特别是识别)问题时能得到较好的性能。研究神经网络以探索人的听觉神经机理,改进现有语音语音识别系统的性能,是当前语音识别研究的一个重要方向。在模式识别的应用中,多采用Bp网和RBF网等前向神经网络来实现。RBF网络拓扑结构在RBF网络中可以调整的参数有:隐节点激励函数,隐节点中心和半径,隐层节点个数和隐层至输出的连接权值。K均值聚类算法步骤①初始化:采用某种适当的方法选一个包含N个码字的初始码本矢量。②分类:按最近邻(NearestNeighbor)准则,以码字为中心,将训练矢量集中的所有矢量分到各个胞腔中,形成N个区域。③产生新码本:重新计算每个区域新的中心,并以此作为该区域的新码字。计算所有训练矢量的总失真度。④结束判断:判断这一次的总失真测度比上次总失真测度下降至是否达到预先设定的某一阈值,如果达到阈值则停止,否则转步骤2。