文档介绍：一种语义模糊匹配方法
专利名称：一种语义模糊匹配方法
技术领域：
本申请涉及语音识别领域，具体来说，涉及一种语义模糊匹配方法。
背景技术：
人机交互系统是由用户通过口语提出查询请求，系统提供信息服务。一个典型的人机交互系统包括自动人名的姓氏用字和名字的常用字字典，用于构造特征模板。同时为了把人名和影视名更加准确的提取出来，通过大量数据统计出了出现在人名和影视名前后位置的单字和双字，建立了人名和领域名的左右指界词词典，进行特征的提取。所述左右指界词词典指的是一句话中
出现在人名或者领域名左右两边的词汇。比如说我想听刘德华的歌曲。刘德华是人名，出现在刘德华的左边界词是“听”，右边界词是“的”，即为左右指界词，也可以称为左右边界词。用CRF对提取了特征的训练数据进行训练，得到一个CRF模型。要说明的是，条件随机场的训练使用的是开源工具CRF++ ;训练的大致步骤包括按照训练文本的格式进行特征的提取，因为针对的是口语，用词作为研究对象可能会引入分词的错误，所以选择单字作为研究对象进行特征提取；选择哪些特征不仅仅取决于用于已经提取了特征的训练文本，还取决于工具中模板文件，即除了单字特征，还要用到特征之间的组合特征；训练之后会得到一个模型文件；测试的过程是准备一个测试的文件，同样需要提取特征，格式必须和训练的文本文件一样，然后用训练好的模型进行测试，得到对于每个字的标注结果。针对用户输入的查询语句，用上述方法进行特征提取并用已经训练好的CRF模型进行实体识别，初步定位了句子中的关键语义类。已经定位好的关键语义类可能有错误，也可能没有错误，这时首先进行精确匹配，即判断CRF识别的语义类，领域字典中是否存在，如果不存在则进行模糊匹配。用Dice相似度对CRF识别的语义类与领域字典中的词条进行相似度计算，Dice相似度计算公式如下⑶用两个词汇交集的汉字个数的两倍去除以两个词汇长度的和。寻找相似度最大的词条对原句中的错误进行替换，就完成了语义类的模糊匹配。图2是本发明实施例的语义模糊匹配方法的流程示意图。如图2所示，所述方法包括步骤200，提取特征数据；具体为对语音识别后的文本进行特征提取，得到特征数据；步骤202，获取关键语义类；具体为用条件随机场CRF模型对所述特征数据进行命名实体的识别，找到关键语义类；步骤204，精确匹配，具体为对所述关键语义类进行精确匹配，在精确匹配成功时对所述关键语义类进行类别标注，并进入步骤208，语义理解，具体为对所述经过类别标注的关键语义类进行语义理解，给出语义表示。在步骤204中在精确匹配失败时进入步骤206，进行模糊匹配，计算所述关键语义类与词典中关键词的相似度，选择相似度较大的关键词替代所述关键语义类，并进行类别标注，随后再进入步骤208。优选地，所述计算所述关键语义类与词典中关键词的相似度，具体包括，用所述关键语义类的词汇与关键词的交集的汉字个数的两倍除以所述关键语义类的词汇与关键词的所有汉字的个数之和，所得的商越大，相似度越高。优选地，所述CRF模型通过以下步骤获得根据领域构造训练数据，训练数据尽可能覆盖各种口语常见的说法；对训练数据进行标注，即标注出训练数据中实体名词的类别；对训练数据进行特征提取，提取出实体名词；用CRF对提取的实体名词进行训练，得到CRF模型。优选地，所述相似度较大的关键词为相似度最大的关键词