1 / 17
文档名称:

基于搜索引擎日志的中文纠错方法研究.doc

格式:doc   大小:21KB   页数:17页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

文档介绍:基于搜索引擎日志的中文纠错方法研究

摘要:针对用户使用搜索引擎输入关键词查询信息时,由于输入法的原因或者不小心输入错误关键词等,致使搜索结果不符合用户预期的问题,提出基于搜索引擎日志的中文纠错方法。首先对用户网络日志展开研究,第一,通过对搜索引擎日志的研究,总结搜索引擎日志中的常见错误,分析导致错误的原因,并将其分为两类:①全拼音、半拼音、音相似错误、键相邻错误及方言差异导致的错误均为拼音的声母、韵母或音调部分发生错误而导致的;②多字、少字、异位及别字引起的错误。
第二,针对错别字的错误类型提出一整套纠错流程,针对不同的错误类型,采用不同纠错方法进行处理。
第三,针对上述第一类错误,本文参考曹犟等提出的基于拼音索引的中文模糊匹配算法进行纠错,但该方法仅考虑了拼音的声母或韵母及音调变化导致的错误,而忽略了键盘输入时字母相对位置导致的错误。为此,本文改进了基于拼音纠错的算法,增加了对键相邻错误的纠错。针对上述第二类错误,本文融合传统模糊匹配方法与最小编辑距离方法进行纠错。
1 相关技术介绍
发现并总结用户常见输入错误,是针对不同错误类别设计纠错方法的基础。通过对查询日志的分析,用户常见输人错误主要有全拼音错误、半拼音错误、音相似错误、键相邻错误、方言差异导致的错误,以及别字、多字、少字及字间颠倒导致的错误等。其中全拼音、半拼音、音相似错误、键相邻错误及方言差异导致的错误均为拼音的声母、韵母或音调部分发生错误而导致的,一般采用拼音纠错的方法进行纠正。曹犟等提出的基于拼音索引的纠错方法能够有效解决此类问题。别字、多字、少字及字间颠倒导致的错误则一般使用模糊匹配或最小编辑距离方法进行纠错。 1.1 基于拼音编辑距离的纠错方法
1.1.1 基于拼音编辑距离的定义
对于一个汉字的音节而言,它与另外一个音节的差异可分为3种:声母差异、韵母差异和声调差异。其音节的声母、韵母和声调取值的可能性都是有限的,可利用枚举方式定义音节从一种取值转换为另一种取值的编辑距离。所以,对于一个给定音节,很容易找到所有与其编辑距离为.的音节。例如,要找到所有与/lan2/编辑距离为1的音节,则取值只可能是:①声母改变1个距离单位,韵母和声调不变;②韵母改变1个距离单位,声母和声调不变;③声母和韵母都不变,仅声调改变1个距离单位。音节编辑距离最后均转化为排列组合问题。
1.1.2 拼音纠错示例
通过对网络日志的分析可知,拼音错误是输人中的主要错误,但在拼音错误中,还可以作细化分类。
(1)音同而误。音同而误是指拼音相同而发生的替换错误。这类错误由于拼音输入法的原因经常发生,且很难区别。
例如:现在乘汽车必需携带身份证吗?
分析:句中“必需”是“必须”的同音替换错误。
(2)音同声不同而误。即因音调不同而发生的错误。
例如:百毒的创始人是谁?
分析:句中“百毒”就是因为“/du2/”与“/du4/”拼音相同而声调不同造成的替换错误。
(3)音似而误。音似而误是指因拼音相似而造成的替换错误,通常是由于声母或韵母发生改变而造成的替换错误,也可能是因为方言差异或相邻键造成的输入错误。
例l:牛德华今年有几场演唱会?
分析:句中“牛德华”就是因为方言中不区分“L/N”而造成的错误。
例2:涅槃从生是什么意思?
分析:句中“从生”是因为“/eong2/”和“/ehong2/”音似而发生的替换错误。
根据上述总结,在拼音错误中,要么是拼音声调发生改变,要么是拼音声母或韵母发生改变,根据定义的拼音编辑距离可知,/Lin2/与/Ling2/的编辑距离为l,/Lin2/与/Lan2/的编辑距离也为1,但从发音机制上来说,前者的可能性更大,后者的可能很小。如果仅依据之前定义的拼音编辑距离进行计算,则会出现不合理现象。因此,本文参考并改进了曹犟等提出的基于拼音改良的编辑距离,对不同的拼音错误赋予不同的替换代价。
1.1.3 基于拼音改良的编辑距离纠错方法
根据基于拼音改良的编辑距离纠错方法定义可知,/lan2/与/nan2/的编辑距离为1,/lan2/与/pan2/的编辑距离也为l,但是/lan2/与/nan2/的发音机制更接近。因此,基于拼音改良的编辑距离方法具体计算方式如下:
(1)替换代价小于1。音调变化导致的差异小于l。不管哪种拼音输入法,都不要求用户输入音调,且音调错误比较普遍,因此本文认为其差异小于一般的声母与韵母之间的差异。在本实验中赋予0.5的替换代价。
发音相似且特别容易发生替换错误的声母与韵母之间的差异小于l。在声母或韵母发生改变的拼音错误中,其中有4对声母与

分享好友

预览全文

基于搜索引擎日志的中文纠错方法研究.doc

上传人:住儿 8/4/2022 文件大小:21 KB

下载得到文件列表

基于搜索引擎日志的中文纠错方法研究.doc

相关文档