文档介绍:第卷第期电子与信,学报
年月
基于分类特征空间高斯混合模型和
神经网络融合的说话人识别‘
黄伟戴蓓待李辉
中国科学技术大学电子科学与技术系合肥
摘要该文提出了一种基于分类高斯混合模型和神经网络融合的说话人识别方
法,通过对特征矢量进行聚类分析,将说话人的训练语音分成若干类,然后根据各个类中含特征矢量的多少
采用不同的模型混合度,训练建立分类高斯混合模型,并采用神经网络实现各个分类高斯混合模型输出的融
合在个男性话者的与文本无关的说话人识别实验中,基于分类高斯混合模型和神经网络融合的方法
在识别性能及噪声鲁棒性上都优于不分类的识别系统,并具有较高的模型训练效率,且可以有效地
降低话者模型的混合度和测试语音长度
关锐词说话人识别,分类特征空间,高斯混合模型,神经网络融合
中图分类号文献标识码文章编号
勿
引言
近年来,在与文本无关的说话人识别系统中大多采用高斯混合模型
作为说话人模型,取得了比隐马尔可夫模型
更好的识别性能一些当今最高水平的系统都采用了,如目前在
美国国家标准技术局举办的一年一度的说话人识别评测中,领先的系统基本上都是基于
高斯混合模型是一种基于短时谱的统计模型,通过多个多维高斯密度函数的加权和
收到, 改回
国家自然科学基金项目和安徽省自然科学基金项目资助课题
电子与信息学报第卷
来描述说话人特征信息在特征空间中的分布,因此高斯混合模型的混合度越高,对说话人特征
信息分布的描述越细致与所有的统计模型一样,高斯混合模型的性能依赖于模型训练的训练
语音数据是否充分,以及较长的测试语音显然,这种对训练语音量和测试语音长度的要求不
太适宜于说话人识别技术的实用化因此,在保持相同识别性能的基础上,如何减少模型对语
音量及测试语音长度的要求,成为本文研究的主要目的
通过对说话人特征信息在特征空间中分布情况的观察与研究,我们发现对于采用维
倒谱参数作为特征信息时,说话人一段语音的组矢量在特征空间中
的分布是不均匀的,若能通过聚类技术将这种不均匀表示为几类,每个子类包含的特征矢量组
变少了,可以用较低的模型混合度来描述类特征空间的分布,减少模型对训练语音量以及测试
语音长度的要求鉴于此,本文提出了一种基于分类高斯混合模型和神经网络融合
的说话人辨识方法,先通过对特征矢量的聚类分析,将说话人的训练语音特征矢量集分成若干
类,根据各个类中含特征矢量的多少采用不同的混合度,训练建立分类高斯混合模型,用神经
网络实现各个分类高斯混合模型输出的融合实验显示,采用本文提出的方法在总混合度相同
情况下,较不分类的具有更好的识别性能及鲁棒性,且模型的训练效率高,在较少训练
语音量及较短测试语音长度时仍具有较好的识别性能
分类高斯混合模型
分类高斯混合模型
由于说话人的一段语音发音中的各种音素发音特征的出现频度是不相同的,加上不同音素
发音特征的短时谱在特征空间的分布不同,造成话者特征信息在特征空间分布的不均匀,稀密
程度也不同,而且特征空间中不同区域对话者识别性能影响也有所不同因此我们采用聚
类分析的方法,对说话人的训练语音集进行特征矢量分