文档介绍:摘要极大丰富的同时,用户也面临着信息过载的问题。为了快速、准确、完整的获取这些信息,越来越多的用户开始使用搜索引擎这种网络检索工具,擅索引擎也已成为上网用户最经常使用的网络服务之一。目前的搜索引擎仍然存在不少的局限性,用户迫切需要搜索引擎在保证查询效率的前提下,尽可能使检索出的结果能满足个人的实际需求,更符合用户的兴趣。为了解决这一难题,本文对个性化搜索引擎相关的技术进行了研究。本文主要研究了:索引擎技术。总结了搜索引擎的发展历史。分析了搜索引擎的工作原理,描述了搜索引擎的分类,阐述了搜索引擎的评价标准以及未来的发展。削析了当前搜索擎存在的检索结果不理想的问题。文档获取及表示的方法。基于元搜索引擎的原理,提出了一种档获取方法。采用向量空问模型硎網文档,进而采用一种改进后的,式计算向量空间模型中每个词条的权重。鲂曰P蜕煞椒āR肓烁拍罡裰J丁T此基础上介绍概念格的构造方法,以及基于概念格的规则提取方法。通过这些技术能够创建用户的个性化模型。在上述技术的基础上,本文设计了一个基于概念格的个性化搜索引擎的模型系统。分析了该系统的系统结构,详细介绍了各个模块的功能以及关键算法的实现,给出了部分代码。最后分析了该系统尚待解决的问题以及未来的发展方向。主题词:概念格个性化向量空间模型诰互联网自诞生以来不断成长,功能不断扩展,信息容量呈爆炸性趋势增长。然而在信息中国科学技术大学硕士学位论文基于概念格的个性化搜索引擎研究.
中国科学技术大学硕士学位论文基于概念格的个性化搜索引擎研究.,,’.:..,,.,·瓵瑆琲甧....
第一章绪论研究背景的搜索引擎数据备忘录中指出【浚和纤阉饕丫晌<痰缱佑始蟮诙笥τ霉惴进入世纪,互联网的发展和应用趋势为越来越多的人所关注。互联网上的信息也呈现爆炸式增长趋势,据臣频月已经有中文镜憬ń鰂”。互联网上的信息资源具有以下特点‘:可系暮A炕;チM氖萘磕壳耙约赴僬鬃纸诩扑悖胰匀辉谘杆俚卦龀ぁ许多机构和社霞都在把各自大量的可访问信息置于网上。掷喾倍唷T谕缧畔⒅校チM男畔⒆试醇负跏俏匏话依嘈头岣欢嘌如学术信息、商业信息、政府信息、个人信息等。,如图形、图像、声音信息等。呈现出多类型、多媒体、非规范、跨地理、跨语种等特约俊;チM系男畔⒒乖诓欢系胤⑸健]拧⒐善笔谐⒐竟愀婧裰行亩荚诓欢细伦鸥髯缘囊趁妗チM系男畔⒅挥泻苄〉囊徊糠质窍喙氐幕蛴杏玫摹?梢运サ幕チM畔对于%的用户是无用的。为了从互联网上快速、准确、完整的获取未知信息,用户通常使用搜索引擎这个网络信息检索工具谟蒔和J滞瓿的在线行为。但是,当前使用的搜索引擎仍然存在不少的局限性。用户通常只能够使用关键词来表达查询。,可是关键词无法清楚描述用户的真正需求。虽然用户可以通过使用布尔操作符来组合多个词条以构造条件严格的查询、优化检索结果,但是,这就要求用户具有明确的检索目标,并对检索语法和检索内容相当熟悉,否则会同时过滤掉很多有用的资源。另外,用户使用搜索引擎的实际状况表明:不同背景的用户往往采用不同的关键词描述同一对象;同一个词在不同的上下文中的含义不同;,尽可能使检索出的结果能满足个人的实际需求,更符合用户的兴趣。目前个性化搜索引擎研究主要集中在两个方面“阂皇腔诳突Ф说母鲂曰τ醚芯浚点。中国科学技术大学硕士学位论文基于概念格的个性化搜索引擎研究
本文工作内容二是基于服务器端的个性化应用研究。诳突Ф说母鲂曰τ醚芯基于客户端的个性化应用研究包括研究利用代理锤鲂曰没У乃阉鹘峁及と〖际醯取@酶鋈诵巳ご砦S没じ鋈诵巳て氏,在局域网中为用户维护一个共同的兴趣剖像。利用と〖际醵杂没Х梦实睦沸畔⒔行巳す嬖诜衿鞫说母鲂曰τ醚芯基于服务器端的个性化应用研究主要是指主动采集众多用户对搜索结果的访问序列,,从而使得搜索引擎的返回结果可以根据用户使用搜索引擎的实际情况进行自适应调整。本文针对当前的搜索引擎的局限,对个性化搜索引擎的相关技术进行了研究,并给出了一些相应的解决方案,其主要工作是设计了一个基于概念格的个性化搜索引擎的模型系统。这一系统能够提高检索精确度,实现用户个性化的需求。此外,还可以把该系统应用到专业文献查询、商务智能、电子商务等领域。本文在构建用户个性化模型时引入了概念格知识。概念格这种数据挖掘方法在国外已经有了一定的研究,在国内基本上局限于数据挖掘研究领域。我们将它使用到搜索引擎中也是一种创新。为了实现该模型系统,我们拟采用如下方法:谠K阉饕娴墓ぷ髟怼N颐巧杓屏艘恢諻文档获取方法,从、诙訵文档分词后,我们采