文档介绍:第八章说话人识别技术
人工智能研究所
厦门大学信息科学与技术
洪青阳博士
E-mail: ******@xmu.
说话人识别分类和评测标准*
说话人识别的基本原理*
应用案例*
第八章说话人识别技术
说话人识别的分类
文本相关(Text-Dependent, TD)
文本无关(Text-Independent, TI)
用户定制口令(User Customized Password, UCP)
说话人识别的性能评价标准
说话人识别系统分为声纹辨认与声纹确认。对于声纹辨认系统,其性能的评价标准主要是正确识别率。
对于声纹确认系统,其最重要的两个参量是错误拒绝率(FRR)与错误接受率(RAR),前者是拒绝真实的说话人,又称“据真率”,后者是接受冒认者而造成的错误,又称“认假率”,两者均与阈值的设定相关。
等错率(EER):FRR与FAR相等。
说话人识别DET曲线图
说话人识别基本原理
GMM-UBM说话人识别系统
说话人识别算法
基于模板的说话人识别
基于VQ的说话人识别
基于人工神经网络的说话人识别ANN
基于HMM的说话人识别
基于GMM的说话人识别
阈值调节
对说话人确认,还面临一个两难选择问题。通常,表征说话人确认系统性能的两个重要参数是错误拒绝率和错误接受率,前者是拒绝真正说话人而造成的错误,后者是接受集外说话人而造成的错误,二者与阈值的设定相关。
在现有的技术水平下,两者无法同时达到最小,需要调整阈值来满足不同应用的需求,比如在需要“易用性”的情况下,可以让错误拒绝率低一些,此时错误接受率会增加,从而安全性降低;在对“安全性”要求高的情况下,可以让错误接受率低一些,此时错误拒绝率会增加,从而易用性降低。前者可以概括为“宁错勿漏”,而后者可以“宁漏勿错”。
我们把真正阈值的调整称为“操作点”调整。好的系统应该允许对操作点的自由调整。
说话人识别(声纹识别)的应用
(1)信息领域。声纹识别技术可以在呼叫中心(Call Center)应用中为注册的常客户提供友好的个性化服务。
(2)银行、证券。鉴于密码的安全性不高,可以用声纹识别技术对电话银行、远程炒股等业务中的用户身份进行确认,为了提供安全性,还可以采取一些其他措施,如密码和声纹双保险,如随机提示文本用文本相关的声纹识别技术进行身份确认(随机提示文本保证无法用事先录好的音去假冒),甚至可以把交易时的声音录下来以备查询。
(3)公安司法。对于各种电话勒索、绑架、电话人身攻击等案件,声纹辨认技术可以在一段录音中查找出嫌疑人或缩小侦察范围;声纹确认技术还可以在法庭上提供身份确认的旁证。
(4)军队和国防。声纹辨认技术可以察觉电话交谈过程中是否有关键说话人出现,继而对交谈的内容进行跟踪(战场环境监听);在通过电话发出军事指令时,可以对发出命令的人的身份进行确认(敌我指战员鉴别)。目前该技术在国外军事方面已经有所应用,据报道,迫降在我国海南机场的美军EP-3侦察机中就载有类似的声纹识别侦听模块。
(5)保安和证件防伪。如机密场所的门禁系统。又如声纹识别确认可用于信用卡、银行自动取款机、门、车的钥匙卡、授权使用的电脑、声纹锁以及特殊通道口的身份卡,把声纹存在卡上,在需要时,持卡者只要将卡插入专用机的插口上,通过一个传声器读出事先已储存的暗码,同时仪器接收持卡者发出的声音,然后进行分析比较,从而完成身份确认。同样可以把含有某人声纹特征的芯片嵌入到证件之中,通过上面所述的过程完成证件防伪。
应用案例—司法鉴定