文档介绍:江苏大学
硕士学位论文
基于Web的个性化搜索引擎的研究与设计
姓名:羊晶璟
申请学位级别:硕士
专业:计算机应用技术
指导教师:鞠时光
20080605
要的信息是十分困难的。因此,随之出现的信息检索系统一~搜索引摘要随着网络信息量成爆炸式地增长,人们要在信息海洋中找寻自己需擎成为人们搜索信息的主要工具。虽然搜索引擎为用户的查询信息带来很多方便,但是目前大多数的搜索引擎仍然存在许多缺陷,它们没有考虑到用户的个性和兴趣,只能简单地执行用户的查询需求,只要用户使用的关键词相同,所得到的搜索结果就相同,大大降低了搜索的准确性。所以,如何将搜集的信息资源合理组织,如何从大量的信息中,针对用户不同的兴趣需求,返回用户真正需要的信息,从而实现个性化搜索,成为目前研究的重要课题。本文针对现有搜索引擎系统存在的问题,深入研究实现个性化搜索引擎系统的相关技术,设计并实现了个性化搜索引擎,并且主要专注于个性化搜索引擎的网页资源的分析组织、网页的自动分类以及个性化模型构建更新等方面来分析研究。论文的主要工作如下:阅壳暗乃阉饕嫦低辰新凼龇治觥B凼龇治隽四壳八阉饕系统的发展历史、系统架构,并且分析了当前搜索系统存在的一些缺陷,比如查询的准确性不高,不能体现用户的个性。愿鲂曰阉饕嬷械耐程卣髅枋鼋辛搜芯浚⑶姨岢隽艘种利用非线性函数改进特征词权重计算的方法。车淖远掷唷Q芯苛四壳氨冉狭餍械姆掷嗨惴ǎ梅掷嗨法对收集到网页信息资源进行分类,从一定程度上缩小了用户的查询范围,提高了查询的效率。鲂曰P偷墓菇ā2捎脀挖掘技术对存放在捍嬷械睦史页面进行挖掘,获取用户的兴趣信息,利用聚类算法对用户兴趣分类管理,并且利用最优二叉树的形式来表示用户兴趣。利用获取的用户兴趣信息来构建个性化模型。江苏大学硕士学位论文。
动态跟踪和个性化模型的更新。利用儆没的浏览行为,捕捉用户兴趣的变化,并通过“衰弱因子”、设置权重阈值、兴趣度阈值以及时间阈值及时更新用户兴趣,不断更新模型。酶鲂曰P凸怂阉鹘峁祷馗没У氖锹闫湫巳ば枨的个性化结果。这里提出了一种搜索结果过滤算法。关键词:搜索引擎,非线性函数,‘网页分类,个性化模型,最优二叉树江苏大学硕士学位论文Ⅱ
蛾毗緀啪咖:餿挑锄遖琣骯,骲衄皿╥曲,,,印也嬲锄百,,鮣猘娩,勰∞.蝧,坞,雞伊,哆,Ⅲ琲,瑆甌畂,,,
劬猽【州簊江苏大学硕士学位论文咖,,瑂,琣’’瑃郼.,,,Ⅳ】
指导教师签名:孝仓保密,不保密。学位论文作者签名:军晶谒,学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权江苏大学可以将本学位论文的全部内容或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。在年解密后适用本授权书。本学位论文属于年日
学位论文作者签名:号岛胡独创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容以外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。日期:年日
第一章绪论引言信息检索系统七信息检索系统随着网络技术的迅速发展,人们可以更加方便快捷地共享和交流信息。互联网是为用户提供信息交换,共享而发展起来的应用。据⒉嫉摹兜亿,,H嗣巧贤闹饕D的是查询信息。搜索引擎作为一项网络应用,已经成为人们查询信息的主要工具。它可以从大量纷杂的信息中,找到与主题相关的信息,为人们查询信息提供了方便。但是,目前的搜索引擎存在着很多的问题,它只解决了信息查询的问题,而从信息其的获取和使用。人类经历了从检索工具书到计算机检索再到信息检索。随着计算机技术的发展,很多信息检索系统应运而生。作为帮助人们查找到特定的信息的一种工具,信息检索系统需要对信息进行正确的表示、存储和组织,并且提供对于信息的访问方式。这里,信息的范围很广,可以是一个文本,一个网页,一信息检索系统乜荚诩焖鞒鲇氩檠喙氐乃形牡担⑶医恍┪抻玫奈牡倒掉,即返回给用户的最终信息能够充分满足用户的兴趣需求。但是,要实现这样的检索目的,首先需要用户提供能够体现其需求含义的查询语句,其次信息检索系统采用一种方法来解析用户的查询语句的内容,并且将文件表示成索引词条,方便信息检索时的信息抽取,最后根据与用户查询的相关度对结果信息进行排序。信息检索属于信息检索的范畴,它所具有的多样性、灵活性