文档介绍:第三章语音信号的特征分析
语音信号的数字化
语音信号的短时分析与短时处理的概念
语音信号的时域特征分析
语音信号的频率特征分析
语音信号的同态解卷与倒谱分析
端点检测、语音分割与基频估计
语音信号的数字化
通过电脑或者其它数字录音设备采集的语音信号都已经经过数字化了,一般不需要用户再进行数字化处理。尽管如此,有必要简单了解一下语音信号的数字化过程与原理。
声音信号的数字化
模拟语音信号在时间与幅度上的二重连续性
时间上离散化:每秒钟需要采集多少个声音样本,
也就是采样频率(fs)是多少,
幅度上离散化:每个声音样本的位数(bit per sample,bps)
应该是多少,也就是量化精度。
语音信号的采样频率
奈奎斯特采样定理:fs> 2 fmax
窄带语音信号: fs =8000Hz
电话语音(固网电话通信频带为300-3400Hz)
可以基本保持语义,不影响人对语音的感知
质量不是很好,有时候会有变音
宽带语音信号:fs =16000Hz
一般对语音质量要求较高的场合
再提高采样频率也不会对语音质量有太多贡献
量化精度
量化所用比特越大,声音质量越好
声音质量也跟量化算法有关,比如同样用8bit量化,非均匀量化(µ-律或A-律)就比均匀量化好很多
固网电话语音量化就是用的非均匀量化
质量
采样频率
(kHz)
样本精度
(bit/s)
单道声/
立体声
数据率(kB/s)
(未压缩)
频率范围
电话
8
8
单道声
8
300~3400 Hz
AM
8
单道声
20~5000 Hz
FM
16
立体声
50~7000 Hz
CD
16
立体声
20~20000 Hz
DAT
48
16
立体声
20~20000 Hz
声音的质量与数据率(采样频率和量化精度)的关系
语音分析是语音信号处理的前提和基础;
分析的目的是提取需要的信息,获取特征表示参数;
短时分析
语音是一个时变信号
语音的短时平稳特性,在10~30ms时间段内相对平稳
语音信号的短时分析
预滤波
预滤波的目的
防止混叠干扰
抑制50Hz的电源干扰
预滤波实际上是一个带通滤波器,其上下截止频率分别为fH和fL 。
对于电话语音编码器而言,要求fH=3400Hz, fL=60~100Hz, fs=8KHz.
对于语音识别系统而言,用于电话用户时要求技术指标与语音编码器相同,如果对于更高的要求场合,则fH=4500Hz或8000Hz, fL=60Hz, fs=10KHz或20KHz
帧和加窗的概念
短时分析将语音流分为一段一段来处理,每一段称为一“帧”;
帧长:10~30;帧移:0~1倍帧长,帧与帧之间的平滑过渡;
语音识别中常用的帧长为20~30ms,帧移为10ms
为了减小语音帧的截断效应,需要加窗处理;
矩形窗
哈明窗(Hamming)
汉宁窗(Hanning)
几种常见的窗函数的波形
Matlab中,可以通过help window命令来查看怎么产生不同的窗