文档介绍:梅尔频率倒谱系数
主要内容
倒谱
人的听觉感知过程及听觉特性
梅尔频率及梅尔滤波器组
梅尔频率倒谱系数
求解方法
基于MATLAB的MFCC
倒谱---同态信号处理
同态信号处理:将非线性问题转化为线性问题的处理方法。
同态(或FFT)窗宽, 为采样频率,而 为B的逆函数:
梅尔滤波器组的中心频率
当m值小时,相邻f(m)之间的间隔也小,随着m的增加 , f(m)的间隔逐渐变大,这些中心频率在线性频域是非线性划分的,但是转换到Mel频谱域则是均匀划分的。
Mel频率滤波器组即为在语音的频谱范围内设置的若干个带通滤波器
M为滤波器的个数。每个滤波器具有三角滤波特性,其中心频率为f(m), 每个带通滤波器的传递函数为:
梅尔滤波器组的传递函数
梅尔频率倒谱系数
人的听觉系统是一个特殊的非线性系统,它响应不同频率信号的灵敏度是不同的。在语音特征的提取上,人类听觉系统做得非常好,它不仅能提取出语义信息, 而且能提取出说话人的个人特征,这些都是现有的语音识别系统所望尘莫及的。如果在语音识别系统中能模拟人类听觉感知处理特点, 就有可能提高语音的识别率。
梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient, MFCC) 考虑到了人类的听觉特征,先将线性频谱映射到基于听觉感知的Mel非线性频谱中,然后转换到倒谱上。
MFCC参数具有良好的识别性能和抗噪能力。
MFCC 的定义
使用的最广泛的特征之一
考虑了人耳的听觉生理特征
在语音识别中,相比于LPC系数、PARCOR系数,MFCC有更强的鲁棒性和可靠性
MFCC的应用
MFCC的计算方法
FFT
LPC变换法
求MFCC流程
输入语音
预加重、分帧和加窗
FFT (Fast Fourier transform)
取绝对值或平方值
Mel滤波
取对数
DCT (Discrete cosine transform)
输出特征向量
√
√
√
√
动态特征(Delta MFCC)
√
原始语音信号经过预加重、分帧和加窗处理后,需要将时域信号变换到频域。
常用的变换方法为 “傅立叶变换(DFT)”或者其快速算法“快速傅里叶变换(FFT)”
在实际应用中,常常通过FFT(蝶形算法)进行时域到频域的变换
求MFCC--FFT
将上述线性频谱利用前面提到的Mel滤波器组进行Mel滤波
Mel滤波器组
则有线性频谱到对数频谱的中传递函数为:
Mel滤波
求MFCC
取对数
同态变换(同态滤波) :实现将卷积关系和乘积关系变换为求和关系的分离处理,将非线性信号处理变为线性信号处理的过程。
语音信号x(n)可视为声门激励信息u(n)及声道脉冲响应h(n)的卷积:x(n)=u(n)*h(n)。某些信道(录音设备)也可视为与语音信号作卷积运算。有必要将语音信号的声门激励信息、声道响应信息、信道信息由卷积关系变为线性关系,从而利用其它方法提取出基音周期、声道特性和信道特性。
对卷积信号
作如下变换:
取对数
求MFCC
取对数:对三角窗滤波器组的输出求取对数,可以得到近似于同态变换的结果。
倒谱(cepstrum):一种信号的傅里叶变换经对数运算后再进行傅里叶反变换得到的谱。
倒谱的计算过程:
DFT
ln|·|
逆DFT
时域信号
信号频谱
对数谱
倒谱
取对数
求MFCC
由于各个滤波器组输出的幅度或能量之间具有很强的相关性,因此有必要去除各维信号之间的相关性,并将信号映射到低维空间。(如HMM中,假设各维特征独立,以使用对角协方差矩阵,从而减小计算量)
在MFCC中,对滤波器组的输出使用了离散余弦变换(DCT)来去除相关性并获得倒谱系数c(n):
当n=0时,c(0)为第0阶MFCC,反应频谱能量
DCT (Discrete cosine transform)
求MFCC
LPC转换法
参数转换公式
求MFCC
Generally, a cepstral representation with Q>p coefficients is used, where Q=(3/2)p
MFCC weighting
The sensitivity of the low-order cepstral coefficients to overall spectral slope
The sensitivity of the high-order cepstral coefficients to noise (and other forms of noiselike variability)