文档介绍：病态嗓音特征的小波变换提取及识别研究
于燕平胡维平,
摘要:通过分析嗓音的发音机理、病态嗓音与正常嗓音在频域的表现差异,利用小波变换对信号进行分解,突出病态嗓音的特点,本文提出了基于多尺度分析的小波降噪、分解的熵系数(Entropy Coefficient based on De-noise ,position of Multi-scale Analysis, ECDDMA)作为识别的特征矢量集。并对比分析了语音识别中经典特征参数Mel倒谱系数(),分别运用这两种特征参数对242例正常嗓音和234例病态嗓音运用高斯混合模型(GMM)进行了识别。结果显示:及其动态特征能更准确的表征正常与病态嗓音之间的差异,有利于同时提高病态和正常嗓音的识别率。
关键词: 高斯混合模型(GMM);病态嗓音; Mel倒谱系数();小波变换
1引言
声带的各种病理性改变导致其振动和闭合异常,使得喉声源声学性质发生改变,出现不同程度的声音嘶哑[1]。目前国内较为常用的喉功能检查方法是利用计算机技术,采用 ,同时和电声图结合能进一步地对基频(F0)、频率微扰(Jitter)、振幅微扰(Shimmer)、规范化噪声能量(NNE)等各种声学参数进行检测,但它们在有效检测病态嗓音方面都存在一定局限[2][3]。而计算机病态嗓音识别方法对临床实现无痛无损伤化嗓音检查具有重要的意义[4]。
语音信号是一种非线性、非平稳的信号,以往求取特征的方法都是通过加窗傅立叶变换,这种变换最大的缺点就是不能同时提高时间与频率的分辨率,而小波变换则可以很好的克服这个缺点,它可以灵活的调整时-频窗,同时对时频分辨率作出贡献。在传统计算机语音识别方法中, 能比较充分利用人耳特殊感知特性而获得了广泛的应用[5],但有分析认为人耳在最初识别声音时使用的是小波变换[6],结合病态嗓音在不同频率范围表现的差异[7],本文提出了基于多尺度分析的小波降噪、分解的熵系数(Entropy Coefficient based on De-noise, position of Multi-scale Analysis, ECDDMA),并用实验证明了ECDDMA在病态嗓音识别中与传统特征相比的优越性。近年来,HMM广泛的用于语音识别,神经网络也被用于病态嗓音评估[8],作为状态数为1的连续型 HMM的高斯混合模型(GMM)也同样得到了广泛的应用。由于在一个状态中可以包含多个高斯密度函数, 不存在状态转移概率,因此在计算量上GMM 就比HMM 要小得多。使用GMM对病态嗓音和正常嗓音尝试识别率。特征使用目前
参数及提出的ECDDMA参数,并比较其识别效果。
2 数据来源
本文实验数据来源于临床病例,采集数据时的环境要求在安静的室内进行;采样频率为16kHz,;受试声样为汉语元音‘a’,分别对正常人和患有各类喉科疾病的对象进行语音采样。正常对照组242例,年龄18—40周岁,平均年龄25周岁,经询问近期无喉部疾病者;病态嗓音组234例,年龄15—50周岁,平均年龄27周岁,为前来医院就诊临床病例。采集后用cooledit软件进行语音分割,得到实验用语音库。
3 高斯混合模型(GMM)
GMM作为高斯概率密度函数的一个线性组合,只