文档介绍:摘要索最常见的工具,他涉及卸多方面的内容,,分布式处得越来越困难。如何改进现有的搜索引擎和系统,满足用户日益增长的信息需引擎做一个简要的综述,介绍互联网的发展和搜索引擎产生的必然联系,阐述第四章,提出了改进搜索引擎的排序算法。第五章,介绍实现的搜索引擎系统本课题深入搜索引擎的原理,发展历史,目前发展现状和存在缺陷,厕时对现有搜索引擎提出了若干改进:·对数据挖掘和个性化搜索进行了研究,井提出一种基于个性化的搜索模·在继承经典算法框架下,对算法做了修正,提出了一种互联网的出现带来了网络信息高速发展的时期,同时也造成了信息的海量增长,互联网搜索引擎成为人们一项必不可少的工具。搜索引擎是网络信息检理,自然语言处理,因此具有很大的挑战性。随着信息的激增,查找精确信息变求,成为当今信息检索课题的一个重要方向。本文将按照如下方式进行组织:第一章提出选题的意义,背景和本文的工作,,搜索引擎的分类和模块组成。第三章介绍搜索引擎的改进分析,提出搜索引擎改进所用到的数据挖掘,个性化,自动聚类等方法并阐述了个性化搜索的基本模型。平台。第六章,总结所做的工作,并对搜索引擎的发展做了展望。型。改进的排序算法·合理利用社区发现和推荐信息,提出一一种社区推荐技术的排序算法·实现了一个搜索擎系统关键词:信息捡索,搜索引肇,数据挖掘,个性化搜索,社区发现,信息推荐网页摊序
知识水坝***@pologoogle为您整理
畐蛐’篢瑃“,,琭—.琒甋琌·.。畁—.,瓾.,辬.,,..:%.:·‘·矗.
知识水坝***@pologoogle为您整理
垒璺塑:瑂,,,,一
作者签名:型≥川年』月羧中国科学技术大学学位论文相关声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的本人授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅或借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。保密的学位论文在解密后也遵守此规定。同志对本研究所做的贡献均已在论文中作了明确的说明。
⒌奶氐现在,互联网已经成为人们日常生活不可分离的部分,无论是工作,学习,还是生活。随着互联网的发展,人们愈发需要它提供丰富的资讯信息。同时,随着知识大爆炸时代和互联网信息的指数式递增,如何精确获得用户需要的数据,已经成为人们共同关注的问题。如何找到更加符合用户意愿的信息,是搜索引擎一直致力解决的问题..搜索引擎处理的数据对象直接来自于互联网,,它们给信息检索带来了一些难题川:史植际酱娣牛チMü煌闹骰⒄镜慊ネㄐ畔ⅲ⑶艺庵址植际的存放呈网状分布。チM畔⑽拮橹裕壳安淮嬖谝桓鲇行У姆绞剑ɑチM萁⒊一个模型。チM畔⒌母呷哂嘈裕萃臣ヒ陨系耐呈侵馗吹摹チM畔⒌牟晃榷ㄐ裕系男畔⑷菀赘潞蜕境臣票砻鳎骄个月,都会有%的网页发生改变,因此,出现空链接的几率和数据改变的几率相当高。莸囊旃剐裕チM菪问蕉嘌缍嗝教逦募和枷裎募羝滴件,视频文件等,另外就是文本文件,包括很常见的半结构化文档文件,募罅坷畔⒊涑庾呕チM矶嘈榧俟愀妫唤】敌畔ⅲ砦笮畔ⅰR此,互联上存存荷俚男榧傩畔ⅰ
.阉饕娲嬖诘奈侍互联网信息的这种特点,给人们的信息检索带来一定程度的不便,搜索引擎就于互联网不断发展的特点,不可能住一定条件饩鋈ú康奈侍猓虼恕;チM的发展造成了搜索引擎的长足发展。下面介绍的是现有搜索引擎的一些弊端。越来越商,也推动了搜索引擎的向前发展。随着海量信息涌入万维网,检索数据依然会成为一个很大的问题,虽然许多搜索引擎已经成为用户不可或缺的信息获驭手段,但精确的检索出想要的结果,也不再是件容易的事。用户常常为“相关但不精确”的结果所干扰,餮凶柿媳砻サ挠没е坏慊魉索结果页第一页的结果,而高达%的用户只点击搜索结果页的前三页里的结果。而在年,这两个数字分别为%及%。这些变化说明了用户对搜索引擎的要求越来越高,他们愿意花在寻找结果卜的时间越来越少。因此排序查找到的结果比搜索本身更为重要,尤其是当检索结果过于庞大时。现有搜索引擎网络信息量过于庞大,网络结构模型没有特定的规律可以描述。焖鞴ぞ叨嘌挥型骋槐曜伎梢砸览怠焖鹘峁判蚵獬潭炔还唬焖鹘峁畔⒐啵杏眯畔⒉蝗ā焖鹘峁还桓鲂曰挥锌悸遣煌没У牟煌肭蟆缬镅运阉饔写⒄雇晟是在这种条件下诞生的。搜索引擎的出现给信息检索带来了飞跃发展。但是由搜索引擎在处理互联网数