文档介绍:第二章 语音信号处理基础知识
语音信号处理?
语音信号处理是研究用数字信号处理技术对语音信号进行处理的一门学科。
语音信号处理的目的?
1)如何有效地,精确地表示、存储、传递语音信号及其特征信息;2)如何用机器来模仿人类,通过处理某。-它构成一个音节的主干,长度和能量看,元音在音节中都占主要部分。
辅音:呼出的声流,由于通路的某一部分封闭起来或者受到阻碍,气流被阻不能畅通,而克服这些发音器官的这种阻碍产生的音素。-通常只出现在音节的前端、后端或前后两端。
发辅音时由声带是否振动引起浊音和清音的区别:-声带振动的是浊音;-声带不振动的是清音。
8、基音频率
发浊音时,气流通过声门时使声带发生振动,产生准周期激励脉冲串,这个脉冲串的周期称为基音周期,其倒数为基音频率。
所以浊音声带振动的基本频率称为基音频率,一般用F0表示。无论一个音节或是一段连续语音,各个音节的元音段的F0都是随时间变化的,该变化产生了声调,其变化轨迹为声调轨迹。
基音频率与个人声带的长短、厚薄、韧性和发音****惯等有关,在很大程度上反映了个人的特征。一般来说,男性说话者的基音频率大致分布在50-200Hz,女性和小孩的基音频率在200-450Hz之间。
9、共振峰
共振峰是一组谐振频率:声道可以看成一根具有非均匀截面的声管,在发音时起到共鸣器的作用,当元音激励进入声道时会引起共振特性,产生一组共振频率,称为共振峰频率(简称共振峰)。元音的一个重要的声学特性就是共振峰(Formant)。共振峰参数是区别不同元音的重要参数,一般包括共振峰频率(Formant Frequency)的位置和频带宽度(Formant Bandwidth)。
元音的共振峰与发音机制(舌位高低、前后,舌尖的状态等)有关。
不同元音对应于一组不同的共振峰参数,为精确描述语音,应尽可能使用多个共振峰,但实际应用时,只用前3个就够了,分别称为F1,F2,F3。
表给出了前3个共振峰成年男子和成年女子的分布范围。
所以虽然一般地说,虽然就语音的基音频率而言是女声和童声高于男声,但是实验表明:区分语音是男声还是女声、是***声音还是儿童声音,更重要的因素是共振峰频率的高低。
下面我们再看一下语音的时域波形和频谱特性:
10、语音信号的时域波形和频谱特性
时间域中,语音信号可以直接用时间波形表示出来,通过观察时间波形可以看出语音信号的一些重要特性。
观察语音信号时间波形的特性,可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。
下图为汉语拼音“sou ke”的时间波形。表示这段语音波形时采用的采样频率为8kHz,量化精度为16bit。图上标明了时间及各个音节的起始位置。由于在时域波形里各个单音节间不好明显地分界,因此,图上标出的某个音的起点只是粗略的。
从上图可以看出,清辅音[s][k]和元音[ou] [e]这两类音的时间波形有很大区别。例如,从A点开始的音节[s],以及从C点开始的[k]都是清辅音,它们的波形类似于白噪声,振幅很小,没有明显的周期性;而从B点开始的元音[ou]以及从D点开始的[e]都具有明显的周期性,且振幅较大。它们的周期对应的就是声带振动的频率,即基音频率,它是声门脉冲的间隔。如果考察其中一小段元音语音波形,从它的频谱特性大致可以看出它们的共振峰特性。
语音信号具有很强的时变特性,有些波形具有很强的周期性,有些波形具有很强的噪声特性,且周期性和噪声性语音的特征也在不断变换中。但在较短的时间内,语音信号的特征可以认为基本不变,所以,语音信号属于短时平稳信号,一般认为在10~30ms内语音信号特性基本上是不变的,或者变化很缓慢。-因此可以截取一段进行傅里叶变换(具体的频谱分析方法将在第三章中介绍),求其短时谱。
于是,从中截取一小段进行频谱分析。下图给出“sou”中音素“ou”的傅里叶变换:时间大约为时间波形180ms处开始,取时间波形宽度为256个样本,因采样频率为8kHz,故语音段持续时间为32ms(256/8)。
幅度/dB
频率/kHz
从该频谱图上可以直接看出浊音的基音频率及谐波频率。在0~,因此,基音频率为301Hz()。观察时间波形“ou”波形周期之间的距离也可证明,其中在225~,因此可以估计周期为300Hz()。在频谱图中可以看出明显的具有几个凸起点,它们出现的频率就是共振峰频率,从而表明元音具有明显的共振峰特性。
清辅音“k”的傅里叶变换如下图所示:
可以看出,频谱峰点之间间隔是随机的,表明该清辅音没有周期分量。
11、语音信号的语谱图
语音的时域分析和频域分析是语音分析的两种重要方法。显然这