文档介绍:广西师范大学
硕士学位论文
基于完全加权关联规则挖掘的查询扩展研究
姓名:黄名选
申请学位级别:硕士
专业:计算机应用技术
指导教师:张师超;严小卫
20070401
广西师范大学硕士学位论文基于完全加权关联规则挖掘的查询扩展研究
基于完全加权关联规则挖掘的查询扩展研究
研究生:黄名选指导教师:张师超教授严小卫教授
年级:2004 级学科专业:计算机应用技术研究方向:现代数据库与数据挖掘
中文摘要
在当今信息爆炸时代,信息过量成为人人面对的问题,如何从信息的汪洋大海中高效、
准确地查找到所需要的信息一直是信息检索研究的热点之一。然而,目前大部分搜索引擎
等 web 信息检索系统依赖于布尔查询技术和基于关键词机械式的符号匹配,使得人们查询
信息时出现难以克服的问题,即信息迷向、信息过载和词不匹配等,致使信息检索系统的
查全率和查准率低下。针对这些问题,查询扩展应运而生,并得到蓬勃发展,被国内外专
家学者的广泛关注和研究。不同的学者从不同的角度提出了各种查询扩展模型,然而都没
有最终解决查全率和查准率问题,更没有从根本上消除用户查询意图与检索结果之间的语
义偏差和查询词的歧义问题。本文在分析传统查询扩展算法不足的基础上,将关联规则挖
掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘的查询扩展算法,取得
了一些可喜的研究成果。具体的研究主题包括完全加权关联规则挖掘算法及其在查询扩展
中的应用两个方面,分别在完全加权关联规则挖掘算法、基于完全加权关联规则挖掘的局
部反馈查询扩展以及基于用户点击浏览行为和完全加权关联规则挖掘的相关反馈查询扩
展等三点进行研究和探讨。论文的主要工作如下:
(1)深入研究和分析现有的关联规则挖掘、加权关联规则挖掘、项完全加权关联规则
挖掘和查询扩展等算法的特点及其不足,并系统地综述了查询扩展的研究进展。
(2)在深入研究现有完全加权关联规则挖掘算法的特点和局限性的基础上,提出基于
三次剪枝的完全加权关联规则挖掘算法(即 MAWAR 算法),给出与其相关的定理及其证
明过程。该算法采用三种剪枝策略,候选项集数量和挖掘时间明显减少,提高了挖掘效率。
实验结果表明该算法的有效性,和现有算法比较,挖掘效率确实得到改善和提高。
(3)将关联规则挖掘技术和查询扩展结合起来研究,提出基于完全加权关联规则挖掘
的局部反馈查询扩展算法。该算法利用本文的 MAWAR 算法,自动从局部反馈的前列初检
文档中挖掘与原查询相关的完全加权关联规则,构建规则库,从规则库中提取与原查询相
关的扩展词,实现查询扩展。实验结果表明该查询扩展算法的检索性能确实得到了很好的
改善和提高。
(4)在基于完全加权关联规则挖掘的局部反馈查询扩展算法中,提出一种新的扩展词
权重的计算方法,使扩展词的权值更合理;提出基于四次剪枝的挖掘策略,使挖掘效率极
大地提高,实验结果表明其挖掘时间比原来的平均减少 %。
(5)通过实验研究完全加权关联规则支持度、置信度及扩展词数量对查询扩展检索性
能的影响。实验结果表明查询扩展的检索性能是受多方面因素综合影响的,并不是单一地
只受某一因素影响。
广西师范大学硕士学位论文基于完全加权关联规则挖掘的查询扩展研究
(6)为了更好的将关联规则挖掘技术应用于查询扩展,发现一些优秀的查询扩展模型,
本文归纳出 4 类共 13 种基于完全加权词间关联规则挖掘的查询扩展模型,通过实验分析
比较各种扩展模型的检索性能,从中发现一些较优的模型。
(7)针对现有基于局部反馈和用户相关反馈的查询扩展缺陷,提出基于用户点击浏览
行为和完全加权关联规则挖掘的相关反馈查询扩展算法,设计相应的查询扩展检索系统。
该系统在不改变用户查询习惯的情况下,根据用户点击浏览文档的时间长短或者是否进行
下载操作等查询行为,判断该文档是否与用户查询意图相关,或者是用户感兴趣的。算法
能自动对相关的文档进行完全加权关联规则挖掘,构造规则库,从规则库中提取与原查询
相关的语词作为扩展词,实现查询扩展。实验结果表明该算法的有效性,其检索性能有了
明显的提高。
(8)设计和实现查询扩展原型系统,研究如何实现查询扩展原型系统及其数据结构、
主要模型和具体的实现代码等等。利用所设计的查询扩展原型系统进行相关的实验,评估
本论文提出的有关算法的性能,最后进行实验结果的显著性验证。
关键词:信息检索,查询扩展,关联规则挖掘,加权关联规则
广西师范大学硕士学位论文基于完全加权关联规则挖掘的查询扩展研究
Abstract
Information overloading has e one of