1 / 8
文档名称:

关键词识别中置信度评估方法的研究.pdf

格式:pdf   页数:8
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

关键词识别中置信度评估方法的研究.pdf

上传人:你是我的全部 2013/8/11 文件大小:0 KB

下载得到文件列表

关键词识别中置信度评估方法的研究.pdf

文档介绍

文档介绍:关键词识别中置信度评估方法的研究
任竹,贾珈,蔡莲红

普适计算教育部重点实验室
清华信息科学与技术国家实验室(筹)
清华大学计算机科学与技术系,北京 100084

摘要:关键词识别是语音识别的一个重要研究领域,它不仅比连续语音识别的灵活性更好,
同时具有很高的应用价值。本文提出了基于多级词表的关键词识别系统,并从声学匹配和语义
理解两个层面重点研究了在对语音识别结果进行确认时所采用的置信度评估方法。该系统将传
统词表按照单词长度划分为关键词词表和关键短语词表,并在采用模糊匹配的方法检出关键词
后通过集合映射的方式进行关键短语的匹配,同时分别提出了对关键词和关键短语进行置信度
评估的确认方法。实验结果表明,该系统有效地提高了关键词和关键短语的平均检出率,满足
了应用场景的实际需求。
关键词:语音识别;关键词识别;置信度;关键词检出;语音确认
1
关键词识别是语音识别的一个重要研究领域,其目的是在连续无限制的自然语音流中
检测并确认出若干的特定关键词。关键词识别主要包括两个方面的基本内容:关键词检出
(Keyword Spotting)和关键词确认(Utterance Verification)。关键词检出从无限制语音流中检
测出尽可能多的候选关键词,再由关键词确认部分对这些候选关键词进行置信度评估。
在当前有关置信度评估方法的研究中,研究者主要从声学、词图和语义这三个层面来
提取置信度的特征。在声学层面,通常使用似然比[1,2]、词候选驻留时间等特征;在词图层
面,主要是利用词后验概率[3]、候选词图中同词候选并列的其他候选的个数[4]等特征;在
语义层面,则是根据语言理解的结果对整句候选进行确认[5]。
本文提出了基于多级词表的关键词识别系统,并融合了声学匹配和语义理解两个层面
的相关信息分别对关键词和关键短语进行置信度的评估。该系统将传统的识别过程分为关
键词的提取和关键短语的匹配这两个阶段,同时采用不同的置信度评估方法来实现关键词
和关键短语的拒识。本文选用当前流行面较广的智能家居作为基于多级词表的关键词识别
系统的应用场景进行测试,该场景的主要目标是利用识别出的关键词来实现智能家居的命
令控制。实验结果表明,该系统不仅有效地提高了关键词和关键短语的平均检出率,而且
尽可能地降低了二者的平均误识率,能够充分地满足应用场景的实际需求。

资助项目:国家自然科学基金重大计划项目(90920302)
联系作者:任竹,E-mail:@
2 和谐人机环境 2011 中国北京

为了解决较短单词容易发生错误识别(False Alarm)而较长单词容易发生错误拒绝(False
Rejection)的问题,本文按照单词长度对传统词表进行了分级,在该过程中采用的关键词和
关键短语的概念为:
关键词(Keyword):词条规模为识别结果中单个候选元素大小且具有单一词性的单词。
关键词作为系统的识别基元,它不仅包含实际应用中经常出现的动词、名词,还包含贯穿
于自然对话内的代词、连词、助词、介词等功能词。例如,在智能家居场景中,“打开”、
“窗帘”均为关键词,前者描述了