文档名称：

基于说话人聚类的说话人自适应.doc

格式：doc 大小：20KB 页数：9页

下载后只包含 1 个 DOC 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

基于说话人聚类的说话人自适应.doc

上传人:凹凸漫 2022/7/17 文件大小：20 KB

下载得到文件列表

基于说话人聚类的说话人自适应.doc

相关文档

文档介绍

文档介绍：基于说话人聚类的说话人自适应
　　摘要本文提出一种改良的基于模型差异度量的说话人聚类(Speakerlustering)方法，并将该说话人聚类算法结合最大似然线性回归算法(axiuLikelihdLinearRegressin，LLR)构向上的方法对备选说话人G进展聚类,合并的过程为选择间隔最小的两个进展合并，直到得到需要的类数为止。
　　4实验内容及结果分析
　　
　　实验基于汉语大词汇量连续语音识别系统，在声学层上进展。语音特征参数采用梅尔频标倒谱参数(el－frequenyepstrueffiient，F)，共16维。声学模型建立有调的三元音子模型，识别时测试每句话的汉字识别正确性。
　　实验系统所用到的训练语音库是中科院训练语音库，其中女性说话人有148位，每位100句话；相应的测试语音库分别包含女说话人20位，每个说话人都是20句测试语音。测试语音库都同其对应的训练语音库是环境匹配的，这样可以排除因为环境差异带来的自适应性能提升，更加准确地反映说话人聚类的算法效果。全部实验的自适应训练和测试语音长度约为2到3s，实验以这148位说话人语音训练的SI模型作为基线系统。
　　实验的根本流程为：首先，对训练语音库中的所有说话人训练出一个基于H的SI整体模型，再对库中每位参考说话人进展单个的G模型训练，然后用训练出的所有G模型进展说话人聚类，利用聚类后的语料重新训练每一类的G模型。对这些新说话人的自适应语音数据作相似性判决，从中选出与每个新说话人最为近似的参考类，最后根据这些参考类的语音特征运用一定的自适应算法对SI模型的部分参数进展修正，合成出新说话人的自适应模型。实验流程如图1所示。
　　
　　图1基于差异度量的的说话人自适应〔SA〕系统实现流程图
　　
　　表1参考类别数量对识别的影响
　　汉字正识率％
　　SI
　　3类
　　5类
　　7类
　　9类
　　SD
　　P—1
　　
　　
　　
　　
　　
　　
　　P—2
　　
　　
　　
　　
　　
　　
　　P—3
　　
　　
　　
　　
　　
　　
　　P—4
　　
　　
　　
　　
　　
　　
　　P—5
　　
　　
　　
　　
　　
　　
　　P—6
　　
　　
　　
　　
　　
　　
　　实验一：对于不同的测试说话人，考察似然判决选出的参考类数量对最后识别结果的影响，P－1等分别表示不同的测试说话人，自适应语料都为三句。实验结果如表1所示。
　　从表1中可以看出，随着参考说话人数量的增加，对于不同的测试说话人，其识别性能都有明显进步。但也可以发现，当参考说话人数量超过7类时，其识别性能反而有所下降。其原因是：随着参考类的增加，说话人之间的差异也会明显增加，这种差异有