1 / 54
文档名称:

基于聚类分析潜在语义文献检索.pdf

格式:pdf   页数:54页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

基于聚类分析潜在语义文献检索.pdf

上传人:1322891254 2016/6/5 文件大小:0 KB

下载得到文件列表

基于聚类分析潜在语义文献检索.pdf

相关文档

文档介绍

文档介绍:Southwest Jiaotong MasterDegree Thesis LATENT SEMANTIC RETRIEVAL BASED ON DOCUME]NT CLUSTER【NG ANALYSIS Grade: 2010 ZU lU Candidate:Chunjiang Wu Academic Degree Applied for: Master’S Degree Speciality:Applied Mathematics Supervisor:Hailiang Zhao(Prof.) ㈣打 S辫西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于 ,在年解密后适用本授权书; 。(请在以上方框内打“v”) 指导老师签名: 日期: 加/;.∥,谚 I彩屠口签群 O 作曲文论位期学日西南交通大学硕士学位论文主要工作(贡献)声明本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。。本人在学位论文中所做的主要创新点如下: 。利用从查询关键词集出发,获取相关文献,同时从相关文献中获取高质量的索引扩展关键词,不断迭代搜索,获得更多的链式文献以及索引扩展关键词汇,。,也能够不借用所有原始数据库进行语义分解,提高检索效率 ,对截取矩阵K的选择。用变化率:.O'k_1--O"k>_占来替代吼√蠢+】+仃五2+?仃,2<占,(Frobenius(Frobenius。) 、/听+l+仃孟2+?g<占, ,在计算相似度时不用欧式距离,改用余弦相似度原模型:d(置,x,)= ?.咖(置,一)=cos(X,,X,)= 改进后: V v-r 厶^ik^jk k=l辱躁k (墨=(h_:,?,xi。)Xj=Xj。,_:,?,b,)) 学位论文作者签名:喃;。日期:1‘1 西南交通大学硕士研究生学位论文第1页摘要传统文献检索算法将用户查询关键词集与系统数据库存文献关键词集进行匹配, 然后根据匹配程度的大小检测文献。实践证明,此方法存在一些不足。其一,词语具有多义性,很难确定文献中该关键词表达的具体含义是否符合检索内容。其二,多词一意,即文章的主题可以由不同关键词构成。因此,严格匹配可能会丢失大量相关文献。鉴于以上问题,LSA即语义分析法(Latent SemanticAnalysis)在相似文献的检索中能取得较好的效果。 LSA认为文献由关键词集通过某种结构联系起来。大量关键词的集合可以表示文献主题。LSA基于数学理论和计算机技术的结合,通过大量文献集的词频分析,。然后通过奇异值分解,最终分解成词汇矩阵,起连接作用的对角矩阵,以及文献矩阵的乘积。因此,即使查询词关键词不在文献关键词集内,只要其主要内容和文献一致,也可以通过与语义分解后的文献向量进行相似度运算,进而检索出相关文献。本文在研究LSA产生背景以及基本原理及应用的基础上,着重讨论了从查询关键词集出发,对相关文献链建立的方法。文献关系链的建立依赖于相同关键词在不同文献中出现的频率。显然两篇不同文献中相同的关键词越多,这两篇文献就越具有相关性。通过寻找相关文献,对文献中的众多关键词取并集,进而获得更多的关键词,即所谓扩展关键词。对在不同文献中出现频率大的扩展关键词取交集,获得1级高质量关键词。然后通过一级高质量关键词不停地做循环搜索,进而获得2级,3级,?,n 级索引扩展关键词集,以及更多的相似文献集。根据索引扩展关键词集以及文献集建立词汇一文献矩阵,并将其进行奇异值分解,分解成三个矩阵的乘积,其中中间的矩阵为对角阵,对角元素按照奇异值由大到小的顺序排列,其值反映了对原矩阵作用的大小。按照奇异值变化率选定某链接关系度阈值,并依据阈值对分解后的三个矩阵进行截取压缩处理。然后对压缩后的文献矩阵中的列向量进行k均值聚类,形成k类的文献列向量簇,以及k个簇类中心点。根据用户偏好,选取感兴趣的索引扩展关键词作为查询词集,并将其对k个聚类中心点做相似运算。选择相似度高的簇内中心点,并对其内文献向量进行同样

最近更新

复合材料层合板机械连接损伤机理分析及性能优.. 2页

塔河一区三叠系下油组油藏水平井产水特征分析.. 2页

基于项目管理的X单位质量管理体系构建研究的开.. 2页

基于连续式移动闭塞方式的轨道列车控制的开题.. 2页

基于语义的轮胎花纹参数化设计系统的研究中期.. 2页

基于草酸铬极性配合物的合成、表征及电性质的.. 2页

基于统一身份认证的电子政务资源整合平台中期.. 2页

基于稀疏表示的图像自适应去噪算法研究中期报.. 2页

基于电子政务的房政系统的研究与设计开题报告.. 2页

2024年年度个人工作总结[精选] 18页

2024年年会节目通知14篇 23页

基于液晶自适应光学的高对比度视网膜微血管成.. 2页

基于正交混频技术的相位式激光测距仪设计的开.. 2页

基于期权契约的生鲜产品销售企业供应链协调机.. 2页

2024年师范生实习计划(集合15篇) 54页

2024年师范实习自我鉴定300字 3页

2024年师德考核个人总结范文(精选9篇) 19页

基于改进挣值法的钢结构工程项目成本控制研究.. 2页

肝脏疾病分析课件 64页

2024年布鲁克林有棵树阅读心得模板10篇 14页

2024年市场部的工作计划 54页

2024年市场营销计划书12篇 69页

基于实时交通信息的快递企业车辆路径问题研究.. 2页

基于失效致因模型的动态风险分析方法设计及应.. 2页

复华材料的优化循环工艺 31页

2023年消防救援站党支部工作总结 4页

慢性胃炎中医症候评分表格模板2 3页

教师心得体会师德感悟篇范文2023年 9页

学校食堂6s管理内容和标准四篇 51页

夹江陶瓷产业发展历程和基本概况 5页