1 / 63
文档名称:

基于小波变换和GMM的病态嗓音特征提取及识别研究.pdf

格式:pdf   页数:63
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于小波变换和GMM的病态嗓音特征提取及识别研究.pdf

上传人:minzo 2014/5/2 文件大小:0 KB

下载得到文件列表

基于小波变换和GMM的病态嗓音特征提取及识别研究.pdf

文档介绍

文档介绍:广西师范大学
硕士学位论文
基于小波变换和GMM的病态嗓音特征提取及识别研究
姓名:于燕平
申请学位级别:硕士
专业:电路与系统
指导教师:胡维平
20080401
摘要
基于小波变换和 GMM 的病态嗓音特征提取及识别研究
研究生姓名:于燕平导师姓名:胡维平
学科专业:电路与系统研究方向:语音信号处理年级:2005
摘要
病态嗓音识别是计算机技术在医学领域的渗透与发展,这将为临床实现无痛、无损伤
化检查和客观的诊断作出重要的贡献。由于嗓音的复杂性,基于声学参数的病态嗓音检查
不能仅凭一个或几个参数作出诊断,最终也无法摆脱医生的经验进行主观判断。为了真正
实现客观的检测,许多研究者已经作了大量的工作,在病态嗓音的智能识别和客观评价方
向上作出了重大的贡献,但目前的结果离真正的进入临床应用还存在一定的距离。
本文在前人工作的基础上,研究了基于小波变换和高斯混合模型(GMM)的病态嗓音
识别系统。从嗓音的发音机理、病态嗓音与正常嗓音在频域的表现差异,利用小波变换对
信号进行分解,突出病态嗓音的特点,本文提出了基于多尺度分析的小波降噪、分解的熵
系数(Entropy Coefficient Based on De-noise ,position of Multi-scale Analysis,
ECDDMA)作为模型识别的特征矢量集,运用 GMM 模型实现了正常与病态嗓音识别。
本文数据库 242 例正常嗓音和 234 例病态嗓音,其中病态嗓音样本全部来自临床,随
机各选取 80 例作为训练集,剩余的作为测试集。详细介绍了小波变换和小波降噪的基本
理论,并得到了 ECDDMA 系数的提取过程及算法。实验结果表明:ECDDMA 系数较传统的模
拟人耳听觉非线性特性的 及其动态特征更有利于正常与病态嗓音的识别,并得到了
好的识别结果。并通过实验分析了特征提取过程中去噪的必要性、模型混合数的选取对识
别性能的影响、小波分解层数选取对识别性能的影响等问题。
由于 ECDDMA 系数的提取是对语音的整个频域进行分析的,因此存在部分特征对识别率
的提高没有作用,反而会使识别性能下降,使运算复杂,因此有必要进行特征选择,选出
有效的特征来构建模型,提高识别性能。本文对传统穷举法与基于神经网络特征选择法进
行了比较,实验表明基于穷举法的特征选择对于维数较多的特征矢量是不实用的,也证明
了基于神经网络特征选择的优越性,本文最后使用神经网络方法从(ECDDMA 系数+能量特
征)22 维原始特征中选取出了一组 7 维的特征矢量,并取得了较好的识别性能。对比分析
了声学参数与 ECDDMA 系数病态嗓音识别性能,尝试了不同的特征组合特征选择后的识别
性能,实验结果显示了 ECDDMA 系数较声学参数在计算机病态嗓音自动识别方面的优越性。

关键词:病态嗓音;小波变换;去噪; MEL 频率倒谱系数();ECDDMA 系数;高斯混
合模型(GMM)
I
Abstract
The Research of Extracting of Pathological Voice’s Characteristics
and Recognition Based on Wavelet Transformation and Gaussian
Mixture Model
Graduate student: Yu Yan-ping Adviser: Hu Wei-ping Grade:2005
Speciality: Circuit and System Research direction : Speech signal processing
Abstract
The recognition of pathological voice is the development of puter technology and
coming into the field of medicine. It will be make the important contribution to carry out voice
examination painless, scatheless technique and the objective diagnosis in the clinical application.
Because of plexity of voice, we could not make the diagnosis which only depended on
one or several pa