1 / 65
文档名称:

基于潜在语义分析的文本检索算法研究.pdf

格式:pdf   大小:4,839KB   页数:65页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于潜在语义分析的文本检索算法研究.pdf

上传人:陈潇睡不醒 2021/10/9 文件大小:4.73 MB

下载得到文件列表

基于潜在语义分析的文本检索算法研究.pdf

文档介绍

文档介绍:中国优秀硕士学位论文全文数据库 2011年 第S1期 信息科技辑
Chinese Master's Theses Full-text Database 2011, Information Science and Technology I138-1848-1
基于潜在语义分析的文本检索算法研究

赵亚慧
学位授予单位: 延边大学; 学科专业: 计算机应用技术

摘 要

文本信息检索技术的研究目标是从大量文本信息集合中识别和获取所需要的文本信息。在互联网普及
的当今社会,文本信息检索技术已经成为人们有效利用信息资源,快捷、全面地吸收和获取文本信息的一条重
要途径。这种技术越来越被人们所迫切需要,对人们的学****和科学研究有着重大意义。
本学位论文研究在文本集中高效、高质量地检索定位语义上与查询文本相似的段落的文本检索策略和
算法。
本文采用的文本表示基础模型是向量空间模型(SVM),语义表现手段基础是潜在语义索引(LSI)模型,搜
索算法的基础是遗传算法(GA)。本文的主要工作如下:
(1)分析潜在语义空间的构造方法。利用奇异值分解方法处理词项-文本矩阵,并根据奇异值分布特征对
该矩阵进行最小平方误差意义下的最佳近似,由此构造出潜在语义空间的投影矩阵。任意文本向量通过该投
影矩阵可表示在潜在语义空间中,一方面可以有效消除词项之间的相关性,另一方面可以抑制噪声的干扰。
(2)提出查询文本与大容量文本之间非相关性的有效判定方法。查询文本向量表示为潜在语义空间分量
和零语义空间分量,而当其潜在语义空间分量小于给定阈值时,即可判定该查询文本与大容量文本中的所有
段落都不相似,在检索策略中可以放弃进一步的细节匹配。
(3)设计利用遗传算法的段落检索算法。当查询文本的潜在语义空间分量足够大时,把该空间中的所有
段落(子文档)作为匹配对象,与查询文本的潜在语义空间分量进行余弦相似度匹配。由于采用遗传算法,高效
地定位近似最优的段落;同时,由于检索是在潜在语义空间进行的,因此定位的段落在语义上与查询文本相
似。
实验结果表明,本文提出的基于潜在语义的文本检索策略和基于遗传算法的文本检索方法与传统算法
相比,在检索的准确率、召回率以及 F-指标等方面都有较大的提高,而且所提出算法在检索效率方面也优越于
传统的文本信息检索方法。因此本文提出的基于潜在语义的文本检索策略和基于遗传算法的文本检索方法
可用于大容量文本信息检索中。

关键词:文本信息检索;;向量空间模型;;潜在语义索引;;遗传算法

中图分类号:

Abstract

The target of text information retrieval technique is to re