1 / 71
文档名称:

基于Lucene和GVSM的交互式查询词扩展技术研究.pdf

格式:pdf   页数:71
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于Lucene和GVSM的交互式查询词扩展技术研究.pdf

上传人:banana 2014/2/8 文件大小:0 KB

下载得到文件列表

基于Lucene和GVSM的交互式查询词扩展技术研究.pdf

文档介绍

文档介绍:硕士学位论文



基于Lucene和GVSM的
交互式查询词扩展技术研究


The Research of Interactive Query Expansion
Technology Based On Lucene and GVSM




邢艳杰







哈尔滨工业大学
2011年12月
国内图书分类号: 学校代码:10213
国际图书分类号: 密级:公开




工学硕士学位论文

基于Lucene和GVSM的
交互式查询词扩展技术研究
硕士研究生: 邢艳杰
导师: 叶允明教授
申请学位: 工学硕士
学科: 计算机科学与技术
所在单位: 深圳研究生院
答辩日期: 2011年12月
授予学位单位: 哈尔滨工业大学
Classified Index:
:



Thesis for the Master Degree in Engineering


THE RESEARCH OF INTERACTIVE
QUERY EXPANSION TECHNOLOGY
BASED ON LUCENE AND GVSM



Candidate: Yanjie Xing
Supervisor: Prof. Yunming Ye
Academic Degree Applied for: Master of Engineering
Speciality: Computer Science and Technology
Affiliation: Shenzhen Graduate School
Date of Defence: Dec, 2011
Degree-Conferring-Institution: Harbin Institute of Technology
哈尔滨工业大学工学硕士学位论文
摘要
从互联网诞生的那天起,信息量每日都在快速增长,搜索引擎是用户在
海量数据中快速准确的寻找需要数据的最常用途径。随着网民数量的不断增
长,特别是 技术的发展,互联网信息成爆炸式扩充,人们对搜索引擎
的需求和有用知识的难以获取的矛盾日益突出。查询词扩展技术就是为了帮
助用户构造能清楚地表达查询意图的查询表达式,进而优化搜索引擎的查询
结果,节约用户的查询时间,提高查询精度。
本文主要研究 Lucene 和 GVSM 如何应用在查询词扩展系统上,并利用
OHSUMED 数据集进行相关实验,主要研究工作包括以下几点:
(1)在传统信息检索平台的基础上,本文引入了二次检索的过程:通过
用户和系统交互构造新查询串,重新在目标语料集中进行检索。
(2)对 Lucene 扩展算法的改进。Lucene 能够方便快捷地建立索引,并
实现指定域的查询。本文为 OHSUMED 数据建立索引,对初次检索结果使用
改进的 HIO 反馈方式实现查询词扩展,然后依用户行为构造二次检索
的查询条件。
(3)用 GVSM 实现查询词扩展算法并进行改进。GVSM 是一种典型的
向量空间模型,本文采用 GVSM 结合人工构造的扩展词表实现一种查询词扩
展算法,对模型中权重、相似度计算公式进行调整,取得了较好的效果。
(4)改进传统的信息检索评价指标。结合 OHSUMED 数据的三级相关
类标构造合理的评价准则,筛选合适的 Query 进行查询扩展,验证算法的有
效性。
基于上述研究成果,本文设计并实现了基于 Lucene 全文检索系统和
GVSM 模型的查询词扩展系统,该系统包括数据预处理模块、索引模块、检
索模块、查询词扩展模块、二次检索模块等,为进行相关实验和研究提供了
一个基础平台。本文针对 OHSUMED 数据集进行实验,F 值最高提高 100%
以上,平均提高 15%左右。

关键词:查询词扩展;反馈扩展;GVSM 模型;二次检索
I
哈尔滨工业大学工学硕士学位论文
Abstract
The amount of information is growing rapidly every dayfrom the birth of the
. Search engine is the mon way in looking for data needed fast
and accurately from the huge amount informa