1 / 88
文档名称:

第02章基础知识.ppt

格式:ppt   大小:7,263KB   页数:88页
下载后只包含 1 个 PPT 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

第02章基础知识.ppt

上传人:卓小妹 2022/8/12 文件大小:7.09 MB

下载得到文件列表

第02章基础知识.ppt

相关文档

文档介绍

文档介绍:第02章基础知识
*
第1页,共88页,2022年,5月20日,2点35分,星期六
1. 人类的语言器官
人类能以语言沟通,进而累积知识,形成文化,其中一个主要的原因,就是人类具有较其它生物优越的发音器官。
人类少要考虑三个共振峰,而在语音合成技术中考虑五个共振峰是最为现实的。
声波的共振也称为共鸣。声道截面积随纵向位置而改变的函数,称为声道截面积函数,它决定共振峰的特性。
*
第12页,共88页,2022年,5月20日,2点35分,星期六
频率范围/Hz
成年男子
成年女子
带宽
F1
200~800
250~1 000
40~70
F2
600~2 800
700~3 300
50~90
F3
1 300~3 400
1 500~4 000
60~180
前三个共振峰的频率范围
2、语音信号产生过程
*
第13页,共88页,2022年,5月20日,2点35分,星期六
2. 语音产生过程
理想状态下共振峰的计算:假设声道截面是均匀的(此
时可把声道看作一个粗细均匀的圆筒),从喉到唇的距
离L=17 cm,音速c=340 m/s,则共振峰将发生在:
谐振频率发生在500Hz的奇数倍
2、语音信号产生过程
*
第14页,共88页,2022年,5月20日,2点35分,星期六
3. 语音信号产生的数字模型
在研究了发声器官和语音的产生过程以后,便可以建立
一个离散时域的语音信号产生的数字模型,它将是我们
将数字信号处理技术应用于语音信号的基础。下图是一
个完整的语音信号产生的数字模型:
3、语音信号产生的数字模型
*
第15页,共88页,2022年,5月20日,2点35分,星期六
语音产生模型(Speech Production/Generation Model)
4、语音信号的特性
*
第16页,共88页,2022年,5月20日,2点35分,星期六
语音信号(Speech Signal)
4、语音信号的特性
*
第17页,共88页,2022年,5月20日,2点35分,星期六
数字语音信号表示(Representations of Speech Signals)
4、语音信号的特性
*
第18页,共88页,2022年,5月20日,2点35分,星期六
(1)激励模型
由此模型框图,我们可将语音信号看成准周期序列或随机噪声序列作为激励的线性非移变系统的输出,此模型可分为三个部分:激励模型、声道模型、辐射模型
激励模型 根据发浊音和发清音的机理
又分为:(a)浊音激励 (b)清音激励
3、语音信号产生的数字模型
*
第19页,共88页,2022年,5月20日,2点35分,星期六
(a)浊音激励
由前面所讲发音过程可知,发浊音时声带不断地张开和闭合将产生间歇的准周期性脉冲波,其周期为基音周期,单个脉冲的波形类似于斜三角波,故数字模型中可用周期为T0单位取样序列串作为声门脉冲模型g(n)的输入,其输出就是浊音激励。
由于人类语音的频率范围主要集中在300Hz~3400Hz,数字模型中的信号取样率一般为8KHz。
3、语音信号产生的数字模型
(1)激励模型
*
第20页,共88页,2022年,5月20日,2点35分,星期六
由图可见,它是一个低通滤波器。频率分析表明,其幅度谱按12 dB/倍频程的速率衰减。如果将其表示为Z变换的全极模型的形式,有
G(z)=1/ (1-g1z-1)(1-g2z-1)
如果g1和g2的值都接近于1,则由此形成的激励信号频谱很接近于声门脉冲的频谱。显然,上式表明斜三角波可描述为一个二阶极点的模型。需要指出,不同人、不同语音,其声门脉冲的形状不一定相同,但在语音合成中对其形状要求不很苛刻,只要其傅里叶变换有近似的特性就可以了。
*
第21页,共88页,2022年,5月20日,2点35分,星期六
周期性的斜三角波脉冲可看做加权的单位脉冲串激励上述单个斜三角脉冲的结果。而周期冲激序列及幅值因子可表示成下面的Z变换形式
E(z)=AV/(1-z-1) (2-5)
所以整个激励模型可表示为
U(z)=G(z)E(z)=AV/(1-z-1) · 1/ (1-g1z-1)(1-g2z-1) (2-6)
3、语音信号产生的数字模型
(1)激励模型
*
第22页,共88页,2022年,5月20日,2点35分,星期六
(b)清音激励
发清音时声道被阻碍形成湍流,所以可把
清音激励模拟成随机白噪声。此处用均值
为0方