文档介绍:燕山大学
硕士学位论文
基于Agent的个性化搜索引擎的设计及关键技术研究
姓名:杨桂芝
申请学位级别:硕士
专业:计算机软件与理论
指导教师:原福永
20050301
摘要流的不可缺少的巨大的信息空间。面对如此巨大的海量信息,人们在寻找自己所需的信息时常常迷失方向。如何快速、准确的从浩瀚的信息资源中找到自己所需的信息己成为困扰用户的一大难题。本课题针对现有搜索引擎的不足,提出个性化搜索引擎的解决方案,实现搜索引擎的个性化、智能化的需求。并就方案中涉及到的一系列理论和技术问题进行了研究。文中首先提出个性化搜索引擎模型框架,并给出工作原理,在元搜索引擎的基础上,把际跻氲剿阉饕嬷校迪炙阉饕娴闹悄芑文档的排序与过滤是个性化搜索引擎开发的一个重要环节,本文把劾嗉际跻氲叫畔⒐领域中,提出一种基于聚类技术的快速信息过滤算法,并建立了聚类信息过滤模型,使信息以集簇的方式呈现给用户,方便了用户的查询。此外,本文还研究了如何采用际醯姆蠢∑兰刍菩薷挠没趣模型,给出了喙囟确蠢∧P停⒍源四P椭械挠没巳さ姆蠢评价机制进行了实验,实验采用改进的惴ㄑ坝没У男巳ぃ拚户兴趣模型,实验证明,这种反馈评价机制是有效的。在建立用户兴趣模型时,本文采用通过用户主动提供获得用户兴趣、观察用户行为、通过用户反馈来更新用户兴趣模型三者相结合的方法,实现了快速、精确的发现关键词鲂曰阉饕妫盒畔⒐耍籔劾啵盒巳つP随着蚖技术的飞速发展,殉晌H嗣墙行畔⒔和个性化服务。用户兴趣。反馈
簂甒’..琣/瓵,....’甶,’.Ⅱ
籪;.’.籶籔籌’
第滦髀、、。、⒄垢攀获取所需资源和信息交流的主要场所,人们在进行信息检索的过程中越来越离不开搜索引擎。所谓搜索引擎就是以~定的技术和策略在互联网中搜起到快速检索信息的一种网络工具,它的出现为人们网上信息检索提供了年拢谝桓鏊阉饕鎃://畐甤诞生以来【浚叫鱿至诵矶喙δ懿煌乃阉饕妗>莨兰疲壳巴系乃索引擎有忠陨峡凇浚渲斜冉现个全球性导航站点有】:。目前比较流行的中文搜索引擎主要有:悠游中文搜索引擎、网络指南针、搜索客、搜索引擎、天网中英文搜索引擎、畔⒌航、百度等。这些搜索引擎的出现,解决了许多问题,在网络信息查找和与国外的搜索引擎相比,国内搜索引擎起步较晚。从年轮泄使用姆⒄怪校泄艘巡桓市氖褂醚呕⒅泄乃阉饕妫鱿至诸如百度、网络指南针等的中文搜索引擎。尽管在数量上,国外的搜索引擎能搜索上亿的网页,而国内的搜索引擎目前只能搜索到余万个网页,速度也与几家大型搜索引擎有一定的差距,但毕竟在成本上、使用语言上,己能和等搜索引擎相比。目前,百度的知名度已能随着和际醯姆伤俜⒄梗琁殉晌5苯窈臀蠢慈嗣集、发现信息,并对信息进行理解、提取和处理,为用户提供检索服务,从而巨大的方便。利用中起到了重要的作用。科学院网首次与互联网互联到现在的十年时间里,从氖褂玫浇裉和国际名牌相比肩。
.阉饕娴姆掷搜索引擎按照信息的获取方式,可以分为以下三类:K阉饕妗这类搜索引擎主要通过人工发现信息,依靠编目员的知识对网页进行分类。每个分类目录针对一个专题或领域,用户通过一层层的目录逐步缩小查找范围,直到最终发现查找目标。但的人力。因此,这类搜索引擎的服务范围受到了限制。这种搜索引擎由于采用手工的方式进行趁娴幕袢『臀ぃ源嬖谝韵虏蛔悖腔诠丶实牟檠诓檠笨赡茉斐赡承┫喙匦畔⒌囊怕没г诓檎倚畔⑹保绻挥卸杂Φ姆掷嘞睿蛭薹ń胁檠尽管这种按人工方式获取信息的方法在某些方面显得比较落后,但是由于这种搜索引擎重复信息较少,分类均有既定标准,相对来说分类比较准确,使得这种方法依然很受欢迎。自动获取信息的搜索引擎是采用“机器人”或“蜘蛛”的计算机程序在网页中爬行,依据一定的网络协议在中发现、加工、整理信息,并为用户提供检索服务薄这种搜索引擎由于采用机器人自动漫游趁妫褂玫氖侨乃饕方式,所以与人工获取信息的搜索引擎相比,信息的覆盖度高,查询结果肴斯せ袢⌒畔⒌乃阉饕嫦啾龋畔⒌淖既范鹊汀斯せ袢⌒畔⒌乃阉饕妫远袢⌒畔⒌乃阉饕妫人工获取信息的搜索引擎是,目前互联网上信息量巨大,如果想要检索所有的内容,势必浪费大量畔⒏哺锹实停虏患笆保斯し掷嗪姆训娜肆ψ试创螅曳掷嘟峁灰欢ㄓ胗没б饧致,查询代价大;自动获取信息的搜索引擎丰富,并且节约了大量的人力资源。但是由于机器人的智能技术不足,也存在着以下缺陷:燕山犬学工学硕士学位论文.
.钟兴阉饕娴牟蛔绺涸卮蟆5被魅瞬煌5牟杉疻页面并传回本地进行分析时,会给衿骷巴绱春艽蟮母涸亍以上两种搜索引擎由于在时间上出现比较早,~⒉檎姨供了有利的工具,但随着畔⒈ㄊ降脑龀ぃ车乃阉饕嬖嚼越不能满足用户的要求,元搜索引擎Ⅱ:是基于传统搜索引擎的不足而提出的,元搜索