1 / 17
文档名称:

基于翻转梅尔频率倒谱系数的语音变调检测方法.docx

格式:docx   大小:735KB   页数:17页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于翻转梅尔频率倒谱系数的语音变调检测方法.docx

上传人:科技星球 2022/7/9 文件大小:735 KB

下载得到文件列表

基于翻转梅尔频率倒谱系数的语音变调检测方法.docx

文档介绍

文档介绍:基于翻转梅尔频率倒谱系数的语音变调检测方法
 
 
林晓丹 邱应强
摘 要:语音变调常用于掩盖说话人身份,各种变声软件的出现使得说话人身份伪装变得更加容易。针对现有变调语音检测方法无法判断语音是经过了何种f the disguise operation. And the method outperforms the Convolutional Neural Network (CNN) based framework when limited training data is available. The extensive experiments demonstrate the proposed has
good generalization ability on different datasets and different disguising methods.
Key words: voice disguise; inverted Mel-frequency; cepstral coefficient; statistical moment; multi-classification
0 引言
语音变调能够改变说话人的声音特征。变调语音除了具有娱乐功能外,还可用于说话人身份的伪装。传统的非电子变调方法是通过捏住鼻子或捂住嘴巴等物理方法来实现[1]。近年来,各种变声软件的出现,极大地方便了人们对声音的变调处理。通过电子变声的语音,还能获得较好的语音自然度。已有的研究表明,变调伪装语音将会严重影响说话人识别系统的性能[2]。倘若犯罪分子通过变声器伪装身份进行互联网或电话诈骗,将给案件侦破和司法鉴定带来前所未有的挑战。因此,如何自动检测语音是否经过变调是信息安全和司法取证领域一个亟待解决的问题。
在语音伪装的检测问题上,目前更多的研究针对的是语音合成和语音转换的检测[3-4]。这类语音伪装的目标是为了提高说话人识别系统的错误接受率,即:伪装语音可以欺骗说话人识别系统从而实现非法闯入的目的。本文的研究对象是另一类伪装语音,即:通过电子变调的方法实现语音伪装。这类伪装的目标是提高人耳或说话人识别系统的错误拒绝率,从而掩饰说话人身份。文献[5]提出了基于梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)的变调语音检测方法,该方法通过多个支持向量机(Support Vector Machine, SVM)分类器的设计并采用投票表决机制在变调语音的检测问题上取得了良好的效果。文献[6]提出了一种将MFCC特征参数用于高斯混合模型的训练从而获得
变调语音的检测特征。该方法在少量的数据集上能够鉴别语音是否经过变调,然而缺乏在更丰富的数据集上的验证。文献[7]在短时傅里叶谱的基础上,將卷积神经网络用于变调语音的鉴别并取得了优异的检测性能。然而,上述方法缺乏对语音变调痕迹的分析,也无法进一步甄别语音是经过升调或者降调处理。通过语音的升调操作,可使男声转换成女声;反之,利用降调操作,可使女声转换成男声。因此,判断语音经过了何种变调操作也具有重要的现实意义。文献[8]探索了卷积神经网络在原始语音、升调语音和降调语音检测方面的应用,该方法依赖于大量的标注训练样本,并且在原始语音和升调语音的区分上仍存在较大的提升空间。
本文的研究表明,尽管MFCC在说话人识别等应用场合中取得了良好的性能,然而在语音变调检测的问题上,该特征并非是最优的。针对语音是否经过变调以及经过了升调或者降调的问题,在深入研究语音变调原理的基础上,本文提出了一种基于翻转梅尔倒谱系数(Inverted MFCC, IMFCC)统计特征的方法用于语音变调操作的检测。
1 语音变调的基本原理
基音是语音的一个重要参数,在语音识别、语音合成、说话人识别等应用中具有重要的意义。当前变声软件主要采用的是通过修改声音基频的方式进行变声。语音变调方法基本可归为两类:时域变调和频域变调。这两类方法都能够实现变调不变速,并保持变调后语音较高的自然度。典型的时域变调法有:SOLA-FS(Synchronized OverLap-Add and Fixed Synthesis)[9-10]、TD-PSOLA(Time-Domain Pitch Synchronized OverLap-Add)[11]、WSOLA(Waveform Similarity OverLap and Add)[12]等。其基本原理是通过信号在
时域上抽取或内插改变语音信号音调,信号抽取可实现语音升调,信号内插实现降调。在此基础上进行时长规整使语速保持不变,具体为:利用帧插入实现时域拉伸,利用帧删除实现时域压缩。频域变调的典型方

最近更新

高温稳定性颜料的导电性能测试-洞察阐释 33页

咽后壁脓肿免疫球蛋白表达分析-洞察阐释 35页

基于深度学习的自动编码器优化-洞察阐释 34页

行业竞争策略与优化-洞察阐释 36页

供应商关系管理优化-洞察阐释 35页

云南水泥建材有限公司熟料分厂岗位职责 13页

甲状腺功能亢进ppt 60页

食源疾病及其预防专家讲座 227页

软土地基处理粉喷桩软基加固技术 109页

2024年云南农业职业技术学院单招职业倾向性考.. 57页

2024年云南省玉溪市单招职业适应性考试题库推.. 55页

2024年信阳艺术职业学院单招职业技能考试题库.. 56页

2024年内蒙古包头市单招职业倾向性考试必刷测.. 54页

2024年华东政法大学单招综合素质考试必刷测试.. 56页

2024年南通科技职业学院单招职业适应性考试题.. 56页

2024年合肥经济技术职业学院单招综合素质考试.. 44页

2024年吕梁职业技术学院单招职业适应性测试必.. 56页

2024年四川邮电职业技术学院单招职业适应性测.. 45页

二零二五远程办公场景下数据泄露防御课件资源.. 27页

2023年9月全国联考申论真题及答案解析 15页

学习海底捞的心得体会 7页

创新峰会2025年微立体动态数据可视化演讲模板.. 27页

医疗AI辅助诊断设备2025年临床试验成果与商业.. 30页

土建工程师论文 14页

海域租赁合同范本 14页

2023年安徽省高考数学真题及答案 4页

【天拓刘师傅话维修】西门子V20变频器的内部结.. 8页

明清十大禁书国色天香白话文 1页

新版《医学科研方法与论文写作》练习题和答案.. 14页

急性肺血栓栓塞症诊断治疗中国专家共识 44页