文档介绍：学校代码 10530 学号 200710060954
分类号 TN911 密级

硕士学位论文

欠定卷积混合语音信号盲分离研究

学位申请人刘伯权
指导教师曾以成教授
学院名称材料与光电物理学院
学科专业微电子学与固体电子学
研究方向语音信号处理

二○一○年六月七日
I
Research on Underdetermined Convolutive
Speech Signal Separation Methods

Candidate Liu Boquan
Supervisor Professor Zeng Yicheng
College Faculty of Material Science, Photoelectronics and Physics
Program Micro Electronics and Solid Electronics
Specialization Speech Signal Processing
Degree Master of Engineering
University Xiangtan University
Date June 7, 2010

II
湘潭大学
学位论文原创性声明
本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所
取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任
何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡
献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的
法律后果由本人承担。

作者签名: 日期: 年月日

学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意
学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文
被查阅和借阅。本人授权湘潭大学可以将本学位论文的全部或部分内容编
入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇
编本学位论文。
涉密论文按学校规定处理。

作者签名: 日期: 年月日

导师签名: 日期: 年月日
III
摘要
在语音信号处理领域中,将各个语音源信号从多个说话者的混合语音信号中
分离出来,成为一个研究热点和难点,语音信号处理中的重要的研究方向,对语
音识别、语音增强等都有着非常积极的作用。
盲源分离(Blind source separation,BSS),指的是在源信号和传输信道参数未
知时,仅由观测到的信号求出源信号的过程。
在现今大多数的研究中,语音盲分离算法严格要求观测信号的数目大于或等
于源信号的数目。然而,在实际情况中,经常会出现欠定情况,即观测信号的数
目会小于源信号的数目的情况。在实际情况中还必须考虑到环境因素对信号传播
的影响,会产生延迟效应,用数学的表示方法便是卷积的形式。因此,寻找高效
的欠定卷积混合语音盲分离的方法具有非常重大的实际意义和价值。
本论文针对欠定卷积混合语音的盲分离方法进行了研究:
(1)基于快速独立分量分析和自适应非线性二元时频掩蔽的语音盲分离方
法。对输入的混合语音信号进行快速独立分量分析,将结果进行自适应非线性二
元时频掩蔽;重复进行这两步处理,直到分离出所有的语音源信号。将分离出的
语音源信号,再通过二元时频掩蔽合并可提高输出的质量,分离出的语音信号仍
然能保留双声道立体声的效果。实验表明,该方法的性能大大优于 DUET 方法
和 BLUES 方法,信噪比增益大幅提高。
(2)基于非负矩阵分解(NMF)的语音盲分离方法。本方法使用高斯分量对源
信号的短时傅里叶变换(STFT) 进行表示, 高斯分量由基于板仓- 斋藤
(Itakura-Saito(IS))散度的非负矩阵分解的因子所组成。使用极大期望值算法(EM)
求解参数,并对信号进行重组。本方法被应用到双声道立体声信号的盲分离实验,
实验结果表明了该方法的有效性。
(3)基于快速相对牛顿法和乘子平滑技术的语音盲分离。该方法运用语音信
号的稀疏性和语音信号之间相互独立的特性,使用快速相对牛顿法,使得在牛顿
法中,求海森阵的步骤大为简化,大大提高了运算速度。将乘子平滑技术运用到
包含拉格朗日乘子的最大类型函数的平滑近似式中,获得了一个扩展的增广拉格
朗日方法。该方法保证了在不增加问题维数的情况下平滑因子的快速收敛,取得
了很好的分离效果。
本文研究三种欠定卷积混合语音盲