文档介绍:基于说话人聚类的说话人自适应
摘要本文提出一种改良的基于模型差异度量的说话人聚类(Speakerlustering)方法,并将该说话人聚类算法结合最大似然线性回归算法(axiuLikelihdLinearRegressin,LLR)构向上的方法对备选说话人G进展聚类,合并的过程为选择间隔 最小的两个进展合并,直到得到需要的类数为止。
4实验内容及结果分析
实验基于汉语大词汇量连续语音识别系统,在声学层上进展。语音特征参数采用梅尔频标倒谱参数(el-frequenyepstrueffiient,F),共16维。声学模型建立有调的三元音子模型,识别时测试每句话的汉字识别正确性。
实验系统所用到的训练语音库是中科院训练语音库,其中女性说话人有148位,每位100句话;相应的测试语音库分别包含女说话人20位,每个说话人都是20句测试语音。测试语音库都同其对应的训练语音库是环境匹配的,这样可以排除因为环境差异带来的自适应性能提升,更加准确地反映说话人聚类的算法效果。全部实验的自适应训练和测试语音长度约为2到3s,实验以这148位说话人语音训练的SI模型作为基线系统。
实验的根本流程为:首先,对训练语音库中的所有说话人训练出一个基于H的SI整体模型,再对库中每位参考说话人进展单个的G模型训练,然后用训练出的所有G模型进展说话人聚类,利用聚类后的语料重新训练每一类的G模型。对这些新说话人的自适应语音数据作相似性判决,从中选出与每个新说话人最为近似的参考类,最后根据这些参考类的语音特征运用一定的自适应算法对SI模型的部分参数进展修正,合成出新说话人的自适应模型。实验流程如图1所示。
图1基于差异度量的的说话人自适应〔SA〕系统实现流程图
表1参考类别数量对识别的影响
汉字正识率%
SI
3类
5类
7类
9类
SD
P—1
P—2
P—3
P—4
P—5
P—6
实验一:对于不同的测试说话人,考察似然判决选出的参考类数量对最后识别结果的影响,P-1等分别表示不同的测试说话人,自适应语料都为三句。实验结果如表1所示。
从表1中可以看出,随着参考说话人数量的增加,对于不同的测试说话人,其识别性能都有明显进步。但也可以发现,当参考说话人数量超过7类时,其识别性能反而有所下降。其原因是:随着参考类的增加,说话人之间的差异也会明显增加,这种差异有