文档介绍:Southwest Jiaotong MasterDegree Thesis LATENT SEMANTIC RETRIEVAL BASED ON DOCUME]NT CLUSTER【NG ANALYSIS Grade: 2010 ZU lU Candidate:Chunjiang Wu Academic Degree Applied for: Master’S Degree Speciality:Applied Mathematics Supervisor:Hailiang Zhao(Prof.) ㈣打 S辫西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于 ,在年解密后适用本授权书; 。(请在以上方框内打“v”) 指导老师签名: 日期: 加/;.∥,谚 I彩屠口签群 O 作曲文论位期学日西南交通大学硕士学位论文主要工作(贡献)声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。。本人在学位论文中所做的主要创新点如下: 。利用从查询关键词集出发,获取相关文献,同时从相关文献中获取高质量的索引扩展关键词,不断迭代搜索,获得更多的链式文献以及索引扩展关键词汇,。,也能够不借用所有原始数据库进行语义分解,提高检索效率 ,对截取矩阵K的选择。用变化率:.O'k_1--O"k>_占来替代吼√蠢+】+仃五2+?仃,2<占,(Frobenius(Frobenius。) 、/听+l+仃孟2+?g<占, ,在计算相似度时不用欧式距离,改用余弦相似度原模型:d(置,x,)= ?.咖(置,一)=cos(X,,X,)= 改进后: V v-r 厶^ik^jk k=l辱躁k (墨=(h_:,?,xi。)Xj=Xj。,_:,?,b,)) 学位论文作者签名:喃;。日期:1‘1 西南交通大学硕士研究生学位论文第1页摘要传统文献检索算法将用户查询关键词集与系统数据库存文献关键词集进行匹配, 然后根据匹配程度的大小检测文献。实践证明,此方法存在一些不足。其一,词语具有多义性,很难确定文献中该关键词表达的具体含义是否符合检索内容。其二,多词一意,即文章的主题可以由不同关键词构成。因此,严格匹配可能会丢失大量相关文献。鉴于以上问题,LSA即语义分析法(Latent SemanticAnalysis)在相似文献的检索中能取得较好的效果。 LSA认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文献主题。LSA基于数学理论和计算机技术的结合,通过大量文献集的词频分析,。然后通过奇异值分解,最终分解成词汇矩阵,起连接作用的对角矩阵,以及文献矩阵的乘积。因此,即使查询词关键词不在文献关键词集内,只要其主要内容和文献一致,也可以通过与语义分解后的文献向量进行相似度运算,进而检索出相关文献。本文在研究LSA产生背景以及基本原理及应用的基础上,着重讨论了从查询关键词集出发,对相关文献链建立的方法。文献关系链的建立依赖于相同关键词在不同文献中出现的频率。显然两篇不同文献中相同的关键词越多,这两篇文献就越具有相关性。通过寻找相关文献,对文献中的众多关键词取并集,进而获得更多的关键词,即所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集,获得1级高质量关键词。然后通过一级高质量关键词不停地做循环搜索,进而获得2级,3级,?,n 级索引扩展关键词集,以及更多的相似文献集。根据索引扩展关键词集以及文献集建立词汇一文献矩阵,并将其进行奇异值分解,分解成三个矩阵的乘积,其中中间的矩阵为对角阵,对角元素按照奇异值由大到小的顺序排列,其值反映了对原矩阵作用的大小。按照奇异值变化率选定某链接关系度阈值,并依据阈值对分解后的三个矩阵进行截取压缩处理。然后对压缩后的文献矩阵中的列向量进行k均值聚类,形成k类的文献列向量簇,以及k个簇类中心点。根据用户偏好,选取感兴趣的索引扩展关键词作为查询词集,并将其对k个聚类中心点做相似运算。选择相似度高的簇内中心点,并对其内文献向量进行同样