文档介绍:低信噪比环境下语音端点检测方法研究
摘 要
语音端点检测的任务是从带噪语音信号中分辨出语音段和非语音段,广泛应
用在语音增强、语音编码和语音识别等语音通信领域。有效的检测出语音信号的
端点,不仅可以减少语音信号处理的运算量,而且可以有效的提高系统的性能。
目前,现有的端点检测方法在高信噪比环境下具有很好的检测效果,但是随着噪
声的增强,其检测性能都有很大程度的下降,有些方法因此而失效,因此研究低
信噪比环境下的语音端点检测方法意义重大。
首先介绍了语音信号预处理方法,包括预滤波和采样、预加重、分帧和加窗。
然后按照时域特征、频域特征、非线性特征、多特征结合的顺序介绍了常见语音
端点检测方法,给出了各种方法的数学模型、实验与分析,为低信噪比下语音端
点检测方法的改进提供理论基础。在多特征结合以及非线性特征方面,提出四种
新的语音端点检测方法:
(1) 鉴于能量谱熵特征结合了时域能量与频域谱熵的优点,将非线性动力学
的统计复杂度特征应用到语音端点检测中,并将其与能量特征相结合,提出能量
统计复杂度的语音端点检测方法。
(2) 由于近似熵的值与数据长度有关以及一致性差的缺点,而样本熵是近似
熵的改进算法,比近似熵具有更好的性质,因此提出基于样本熵的语音端点检测
方法。
(3) 复杂运动一般由规则运动和随机运动混合而成,C0 复杂度则为随机运动
在复杂运动中所占的比例。传统 C0 复杂度的计算基于傅立叶分析,由于傅立叶分
析只能区分信号在频域内的差别,不能很有效地分析非平稳信号,而小波分析能
同时利用信号与噪声在时域和频域的差别,因此提出基于小波变换 C0 复杂度的语
音端点检测方法。
(4) 传统的 Lempel-Ziv 复杂度分析基于二值粗粒化方法,由于二值粗粒化方
法可能会丢失动力学系统的一些重要信息,因此采用多值粗粒化方法重构时间序
列,提出基于多值粗粒化 Lempel-Ziv 复杂度特征的语音端点检测方法。
此外,采用模糊 C 均值聚类算法和贝叶斯信息准则算法进行特征门限估计,
并使用双门限法进行端点检测。在 TIMIT 连续语音库上的实验表明,在低信噪比
环境下,四种改进方法的检测性能要优于其原有基准方法,且各自的算法时间复
杂度等同于原有基准方法。
关键词:语音端点检测;能量统计复杂度;样本熵;小波变换;C0复杂度;多值
粗粒化;Lempel-Ziv复杂度
II
硕士学位论文
Abstract
Voice activity detection (VAD) is a scheme to classify a speech signal into speech
and non-speech segments and has been widely used in speech communication systems,
such as speech enhancement, speech coding, and speech recognition. Effective VAD
of speech signals can not only reduce the amount of speech signal processing
operations, but also improve system performance significantly. At present, current
VAD methods have good detection performance in high SNR environments, but as the
speech background noise increasing, its performance declines sharply, and some of
these methods become invalid, so it is critical to carry the resear