文档介绍:基于STFT的语音信号时频分析
摘要:视频分析是近年来信号处理的新热点。本文首先介绍了语音信号STFT的相关知识,随后利用MATLAB将采集到的语音信号进行处理,并进行了信号时域和频域的相关分析。
关键词:语音信号 STFT 时频分析
语音信号的短时傅里叶变换
傅里叶变换是一种信号的整体变换,要么完全在时域,要么完全在频域进行分析处理,无法给出信号的频谱如何随时间变化的规律。而有些信号,例如语音信号,它具有很强的时变性,在一段时间内呈现出周期性信号的特点,而在另一段时间内呈现出随机信号的特点,或者呈现出两个混合的特性。对于频谱随时间变化的确定性信号以及非平稳随机信号,利用傅里叶变换分析方法有很大的局限性,或者说是不合适的。傅里叶变换无法针对性的分析相应时间区域内信号的频率特征。可以用一个窗函数与时间信号相乘积,当该窗函数的时宽足够窄,使取出的信号可以被看成是平稳信号时,就可以对乘积信号进行傅里叶变换,从而反映该时宽中的信号频谱变化规律。
早在1946年,Gabor就提出了短时傅立叶变换(Short Time Fourier Transform,STFT)的概念,用以测量声音信号的频率定位[64]。
给定一信号,其STFT定义为
式中
及,
并且窗函数应取对称函数。STFT的含义可解释如下:
在时域用窗函数去截(注:将,的时间变量换成),对截下来的局部信号作傅立叶变换,即得在时刻得该段信号得傅立叶变换。不断地移动
,也即不断地移动窗函数的中心位置,即可得到不同时刻的傅立叶变换。这些傅立叶变换的集合,即是,如图1所示。显然,是变量的二维函数。
设语音波形分帧处理后得到的第n帧语音信号为 Xn(m),则Xn(m)满足下式:
其中,n=0,1T,2T,…,并且N为帧长,T为帧移长度。某一帧的短时傅里叶变换的定义如下:
式中w(n-m)是窗函数。不同的窗函数,可得到不同的傅里叶变换的结果。可以看出短时傅里叶变换有两个变量,即离散时间n及连续频率w。若令,则可得到离散的短时傅里叶变换如下:
它实际上就是频率抽样。将上述某一帧语音信号的傅里叶变换写为
可以看出时变傅里叶变换是时间标号n的函数,当n变化时,窗函数w(n-m)沿着x(m)滑动。
图1 窗函数w(n-m)沿着x(m)滑动
可以得出结论:短时傅里叶变换实际就是窗选语音信号的标准傅里叶变换。这里,窗w(n-m)是一个“滑动的”窗口,它随n的变化而沿着序列X(n)滑动。由于窗口是有限长度的,满足绝对可和条件,所以这个变换是存在的。当然窗口函数不同,博里叶变换的结果也将不同。
对于w(n-m)窗来说,它除了具有选出x(m)序列中被分析部分作用外,其形状对时变傅里叶变换的特性也具有重要作用,从标准傅里叶变换可以方便的解释这种作用。如果被看成是w(n-m)x(m)序列的标准傅里叶变换,同时假设x(m)及w(m)的标准傅里叶变换存在,即:
当n固定时,序列w(n-m)的傅里叶变换为
根据卷积定理,有:
因为上式右边两个卷积项均为关于角频率w的以2π为周期的连续函数,所以也可将其写成以下的卷积积分形式:
假设x(m)的DTFT是,且的DTFT是,那么是
和的周期卷积。
根据信号的时宽带宽的积为一常数这一基本性质,可知主瓣宽度与窗口宽度成反比,N越大,的主瓣越窄。为了使忠实再现的特性,相对于来说必须是—个冲激函数。所以为了使,需;但是N值太大时,信号的分帧又失去了意义。尤其是N大于语音的音素长度时,已不能反映该语音音素的频谱了。因此,应折衷选择窗的宽度N。另外,窗的形状也对短时博氏频谱有影响,如矩形窗,虽然频率分辨率很高(即主辩狭窄尖锐),但由于第一旁瓣的衰减很小,有较大的上下冲,采用矩形窗时求得的与的偏差较大,这就是Gibbs效应,所以不适合用于频谱成分很宽的语音分析中。而汉明窗在频率范围中的分辨率较高,而且旁瓣的衰减大,具有频谱泄漏少的优点。所以在求短时频谱时一船采用具有较小上下冲的汉明窗。
短时傅里叶变换有下列性质:
(1) 时移性
设则
(2) 频移性
设,则
短时傅里叶变换具有频移不变性,,它在某一调制范围内即相差一相位因子的范围内保持时移不变性.
(3) 若综合窗函数满足“完全重构条件”:
则可由逆变换完全重构,即
语音信号的时域分析
语音信号的时域分析就是分析和提取语音信号的时域参数。进行语音分析时,最先接触到并且也是最直观的是它的时域波形。语音信号本身就是时域信号,因而时域分析是最早使用,也是应用最广泛的一种分析方法,这种方法直接利用语音信号的时域波形。时域分析通常用于最基本的参数分析及应