文档介绍:嬲㈣辨分类号:——密级:——基于聚类的个性化搜索引擎研究与设计学位授予单位及代码:篮壹理王盔堂学科专业名称及代码:让鳇扭这住皇理迨研究方向:过簋扭蟹篚筮鲑申请学位级别:亟±指导教师:奎垩麴丝生:奎硒论文起止时问:.:竖研究
要摘本文介绍了搜索引擎的发展史及相关技术,并对个性化的元搜索引擎技术进行了深入探讨。在传统搜索引擎的基础上,采用基于关键短语的聚类技术,对用户的搜索结果进行聚类,同时跟踪用户浏览行为,结合用户信息分析模块,通过反复训练,分析用户对那类信息感兴趣,并提取出用户兴趣爱好特征项,从而在聚类及用户的搜索结果排序中起到指导作用。文中分析了个性化元搜索引擎的系统构成,并设计了一个术中建立用户兴趣模型的方法,最后展望了它的发展前景。关键词:关键短语个性化模块近年来随着难该头⒄梗琁上存在大量的信息资源,如何从中快速准确的获取有价值的信息一直以来是一个迫切需要解决的问题。元搜索引擎系统晗附樯芰嗣扛瞿?榈墓δ埽碧致哿嗽诟鲂曰K阉饕婕聚类算法元搜索引擎
西,,,畉瑆琓琀—,,,,琲..,’
奎亟銮巫甑┰碌㏑兰昝嗽虑胰年卫月旦日长春理工大学硕士学位论文原创性声明长春理工大学学位论文版权使用授权书本人郑重声明:所呈交的硕士学位论文,《基于聚类的个性化搜索引擎研究与设计》是本人在指导教师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。本学位论文作者及指导教师完全了解“长春理工大学硕士、博士学位论文版权使用规定”,同意长春理工大学保留并向中国科学信息研究所、中国优秀博硕士学位论文全文数据库和系列数据库及其它国家有关部门或机构送交学位论文论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复指导导师签名:作者签名:的复印件和电子版,允许论文被查阅和借阅。本人授权长春理工大学可以将本学位制手段保存和汇编学位论文。
第一章绪论研究背景一种新的搜索引擎形式出现了——⒄褂胂肿年,加拿大麦吉尔大学扑慊г旱氖ι7⒊。当时,万维网还没有出现,人们通过’垂蚕斫涣髯试础能定期搜集并分析甲服务器上的文件名信息,提供查找分别在各个限主机中的文件。用户必须输入精确的文件名进行搜索,告诉用户哪个衿髂下载该文件。虽然搜集的信息资源不是网页募,但和搜索引擎的基本工作方式是一样的:自动搜集信息资源、建立索引、提供检索服务。所以,被公认为现代搜索引擎的鼻祖。年开发了,这是第一个利用网页之间的链接关系来检测万维网规模的“机器人背绦。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址年拢固垢4笱牧矫┦可兰H薐钪略和共同创办了K孀欧梦柿亢褪章剂唇邮脑龀ぃ琘目录开始支持简单的数据库搜索。因为的数据是手工输入的,所以不能真正被归为搜索引擎,事实上只是一个可搜索的目录。年初,华盛顿大学难鶥J了他的小项目月日,搅料嗍苯霭醋个服务器的内容。是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过驼RK阉鳎RR话憷醋匀斯て缆刍虺绦蜃动取正文的前鲎帧年拢诨っ仿〈笱膕绦蚪尤氲狡渌饕绦蛑校唇薒。除了相关性排序外,固峁┝饲白浩ヅ浜妥址嘟拗疲琇第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。年,。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户年月,恼椒⒉糀。堑谝桓鲋С肿匀挥镅运阉的搜索引擎,第一个实现高级搜索语法的搜索引擎鏏,,。用户可以用阉餍挛抛哪谌莶⒋踊チM匣竦梦恼拢箍梢运阉⑺阉鰽也腗将图片名称中的文字、搜索、搜索·
声称是第一。个支持用户自己向网页索引片提交或删除乃阉饕妫⒛茉时内上线。钣腥さ男鹿δ苤唬撬阉饔辛唇又赶蚰掣鯱的所有网站。在面向用户的界面上,沧髁舜罅扛镄隆K谒阉骺蚯蛳路帕恕皌币园助用户更好的表达搜索式,这些小8拢庋谒阉鞴复我院螅没Щ峥到很多他们可能从来不知道的的有趣功能。这系列功能,逐渐被其它搜索引擎广泛采用。年,⒉剂艘桓鐾夹窝菔鞠低矻镏没Т映汕贤虻搜索结果中找到想要的。年拢琋阉饕嬲较稚怼K怯涤凶畲笫菘獾乃阉饕擎之一,它没有谐錾ǖ腃、多出版物组成的、良好的高级搜索语法,第一个支持对搜索结果进行简单的自动分类。年月之前,只是斯坦福大学囊桓鲂∠钅开始学习搜索引擎设计,,J继峁〥月,完成了从娴版的蜕变。公司则把年杖献髯约旱纳铡酝臣别为基础,判断网页的重要性,使得搜索结果的相关性大大增强А年拢轿槐贝笮S眩捶治鲎ɡ⒚魅恕⑶癐噬罟こ淌钛宏与好友徐勇又莶死中2