文档介绍:西南交通大学研究生学位论文弧萍让箕扭座且这丕年姓三专业二零一一年五月一令一一平丑月级国际图书分类号:国内图书分类号:密级:公开,
刚驟馨萗帆删帆眦矾臩臩篗篨::...
夏扫雪槐C苕蓿繁臼谌ㄊ椤腾幕学位论文版权使用授权书西南交通大学本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文属于C芸冢年解密后适用本授权书;朐谝陨戏娇蚰诖颉按纭学位论文作者签名:日期:力総;指导老师签名:日期:
本去进达果写
要摘西南交通大学硕士研究生学位论文第随着网络信息的急速增长,搜索引擎成为了人们使用最广泛的网络工具。由于现在的搜索引擎返回的结果过于庞大,只是一个线性列表,用户在使用搜索引擎时,往往只浏览前几个文档,经常找不到需要的信息,因此研究人员引入了聚类来改善搜索引擎。由于聚类是一种非监督算法,并且使用十分灵活,所以它成为改善搜索引擎的本文完成了搜索引擎结果聚类系统,使用了惴ǖ母慕惴ˋ砸达到能够缩短用户检索时间,更快找到所需信息的目的。本文的主要研究工作如下:在文本聚类中,准确的文本预处理成为了能够提高聚类效果的前提,在本文中,完成了中英文文本预处理,包括去除符号、中文分词处理、英文还原词干以及去除停用词。然后对文档进行特征提取,利用向量空间模型将文本转换成可处理的矩阵,为文档聚类打下良好基础。深入研究惴ǎ私馄淞鞒桃约癓处理方法,将其与后缀树聚类算法相比较,突出惴ǖ挠旁叫浴Q芯糠⑾諰算法存在无法提取出存在于两个句子中的类标签的缺点,所以本文引入了数据挖掘中的关联规则的算法惴ǎ晕档进行处理,寻找到文档中的频繁项集,即文档的主题,经过特殊的去重处理,作为搜索建议关键字返回给用户。由于搜索建议关键字是没有句子界限限制的,所以更加能够体现出文档的多主题特性,使用户能够更深入了解文档的主题,方便进行二次搜索,缩短搜索时间。本文完成的搜索引擎聚类系统使用全文搜索引擎的搜索结果,对其进行聚类,显示在页面上。实验结果表明,本文研究的算法,有利于缩短用户搜索时间,达关键字:搜索引擎;聚类系统:籄籐一个重要工具。到预期效果。.
...西南交通大学硕士研究生学位论文第,,.;;.,狢珻,,
目录西南交通大学硕士研究生学位论文第第滦髀邸课题研究的背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⑾帧国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本文的工作与安排⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第率萃诰蛴刖劾喾治龈攀觥数据挖掘⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.<⒄骨魇啤聚类分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第滤阉饕娼峁劾喙獭文档信息处理技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯文本表示模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯甀文本权重分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。文本聚类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯关联规则算法在文本聚类中的应用⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..聚类性能评价⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..第翷惴ḿ捌涓慕惴ḿ蚪椤隐式语义索引⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯一
西南交通大学硕士研究生学位论文第页奇异值分解⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯惴ú⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⑾炙惴ā实验结果⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯第滤阉饕娼峁劾嘞低车氖迪帧系统模块介绍⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。搜索引擎⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.搜索引擎概述⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯的系统配置⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯模块的实现⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..文本预处理模块⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..聚