文档介绍:广西师范大学
硕士学位论文
基于文本无关的说话人识别研究
姓名:覃溪
申请学位级别:硕士
专业:电路与系统
指导教师:黄汉明
20070401
基于文本无关的说话人识别研究
年级:2004 级专业:电路与系统姓名:覃溪
导师:黄汉明副教授研究方向:模式识别及信号处理
摘要
说话人识别始于世纪年代,从世纪年代开始日益成为国际上的一
个研究热点。说话人识别具有广泛的应用前景,如:说话人核对、司法取证、医学
应用、声控电子密码锁等领域。正因为说话人识别具有如此广阔的应用前景,国内
外许多研究机构和研究者长期从事于这一领域的研究,推动了说话人识别技术的发
展,但它还未成熟。
本文重点研究了与文本无关的说话人识别技术。首先,详细讨论了说话人识别
系统的基本原理,接着介绍了语音信号产生的数学模型、语音信号的数字化及预处
理,内容涉及语音信号的加窗分帧、预加重滤波、端点检测;重点讨论了传统的双
门限比较法的端点检测,并给出了一种改进的端点检测方法:基于 ICA 增强和谱熵
结合的端点检测;重点分析了当前最常用的语音特征参数:基于听觉模型的美尔倒
谱系数 的提取方法。
其次,着重讨论了说话人识别中常用的两种识别方法:基于 VQ 的说话人识别方
法和基于 GMM 的说话人识别方法。详细讨论了 VQ 的基本原理、失真测度、最佳码
本设计以及介绍了基于 FVQ 的说话人识别方法,实验结果表明基于 FVQ 的识别率
较基于 VQ 的识别率提高了近十个百分点;接着介绍了 GMM 的基本概念、模型参数
的估计算法以及说话人识别算法的实现,通过实验确定了识别的最佳混合数 M。通
过不同长度的训练语音进行仿真实验,得出在实验条件相同的情况下,基于 GMM 的
说话人识别识别率较好。
最后对本文的工作进行了总结,同时对未来的研究工作进行了展望。
关键词说话人识别;特征提取;端点检测;矢量量化模型;高斯混合模型;
I
Grade:2004 Major: Circuit& System Name:QIN Xi
Supervisor:HUANG Han-ming associate prof.
Direction: Pattern Recognition and Speech Processing
Speaker recognition menced at about 1930. This field has e
more and more important since 1970 ' s. The technique of speaker recognition can be
applied to many applications, such as speaker checking, judicial evidence validation,
medical applications, voice-controlled entrance permission, voice-controlled account
access etc. Due to its huge potential market, many institutes and researchers have been
involved in the research many years and acquired great achievements. However it is still
far to plete ess.
This paper is mainly focused on the research of the text-independent speaker
recognition technique. Firstly, the fundamentals of the speaker recognition are discussed
in detail. Then the followings are preprocessing and feature extraction procedures. After
that are the windowing, noise filtering, end-points detecting of speech signals. The
double threshold end-points detecting is discussed in detail ,