文档介绍：基于翻转梅尔频率倒谱系数的语音变调检测方法
 
 
林晓丹　邱应强
摘要：语音变调常用于掩盖说话人身份，各种变声软件的出现使得说话人身份伪装变得更加容易。针对现有变调语音检测方法无法判断语音是经过了何种f the disguise operation. And the method outperforms the Convolutional Neural Network （CNN） based framework when limited training data is available. The extensive experiments demonstrate the proposed has
good generalization ability on different datasets and different disguising methods.
Key words： voice disguise; inverted Mel-frequency; cepstral coefficient; statistical moment; multi-classification
0 引言
语音变调能够改变说话人的声音特征。变调语音除了具有娱乐功能外，还可用于说话人身份的伪装。传统的非电子变调方法是通过捏住鼻子或捂住嘴巴等物理方法来实现[1]。近年来，各种变声软件的出现，极大地方便了人们对声音的变调处理。通过电子变声的语音，还能获得较好的语音自然度。已有的研究表明，变调伪装语音将会严重影响说话人识别系统的性能[2]。倘若犯罪分子通过变声器伪装身份进行互联网或电话诈骗，将给案件侦破和司法鉴定带来前所未有的挑战。因此，如何自动检测语音是否经过变调是信息安全和司法取证领域一个亟待解决的问题。
在语音伪装的检测问题上，目前更多的研究针对的是语音合成和语音转换的检测[3-4]。这类语音伪装的目标是为了提高说话人识别系统的错误接受率，即：伪装语音可以欺骗说话人识别系统从而实现非法闯入的目的。本文的研究对象是另一类伪装语音，即：通过电子变调的方法实现语音伪装。这类伪装的目标是提高人耳或说话人识别系统的错误拒绝率，从而掩饰说话人身份。文献[5]提出了基于梅尔倒谱系数（Mel-Frequency Cepstral Coefficient， MFCC）的变调语音检测方法，该方法通过多个支持向量机（Support Vector Machine， SVM）分类器的设计并采用投票表决机制在变调语音的检测问题上取得了良好的效果。文献[6]提出了一种将MFCC特征参数用于高斯混合模型的训练从而获得
变调语音的检测特征。该方法在少量的数据集上能够鉴别语音是否经过变调，然而缺乏在更丰富的数据集上的验证。文献[7]在短时傅里叶谱的基础上，將卷积神经网络用于变调语音的鉴别并取得了优异的检测性能。然而，上述方法缺乏对语音变调痕迹的分析，也无法进一步甄别语音是经过升调或者降调处理。通过语音的升调操作，可使男声转换成女声;反之，利用降调操作，可使女声转换成男声。因此，判断语音经过了何种变调操作也具有重要的现实意义。文献[8]探索了卷积神经网络在原始语音、升调语音和降调语音检测方面的应用，该方法依赖于大量的标注训练样本，并且在原始语音和升调语音的区分上仍存在较大的提升空间。
本文的研究表明，尽管MFCC在说话人识别等应用场合中取得了良好的性能，然而在语音变调检测的问题上，该特征并非是最优的。针对语音是否经过变调以及经过了升调或者降调的问题，在深入研究语音变调原理的基础上，本文提出了一种基于翻转梅尔倒谱系数（Inverted MFCC， IMFCC）统计特征的方法用于语音变调操作的检测。
1 语音变调的基本原理
基音是语音的一个重要参数，在语音识别、语音合成、说话人识别等应用中具有重要的意义。当前变声软件主要采用的是通过修改声音基频的方式进行变声。语音变调方法基本可归为两类：时域变调和频域变调。这两类方法都能够实现变调不变速，并保持变调后语音较高的自然度。典型的时域变调法有：SOLA-FS（Synchronized OverLap-Add and Fixed Synthesis）[9-10]、TD-PSOLA（Time-Domain Pitch Synchronized OverLap-Add）[11]、WSOLA（Waveform Similarity OverLap and Add）[12]等。其基本原理是通过信号在
时域上抽取或内插改变语音信号音调，信号抽取可实现语音升调，信号内插实现降调。在此基础上进行时长规整使语速保持不变，具体为：利用帧插入实现时域拉伸，利用帧删除实现时域压缩。频域变调的典型方