文档介绍：南昌大学
硕士学位论文
基于实例学习的搜索引擎结果优化系统设计与实现
姓名:黄磊
申请学位级别:硕士
专业:计算机应用技术
指导教师:王三民
20081221
要摘搜索引擎是网络信息检索的主要工具,它的出现方便了人们对信息的查询,但现有搜索引擎返回的结果太多,用户很难查找到真正想要的资料。此外,人擎往往会返回成千上万的网页,这些结果是动态而简单的,但绝大部分对于某到自己需要的信息。于是,信息检索中出现了“信息过载”和“信息迷失”等问题。如何提高搜索引擎的查准率是其亟待解决的问题,而如何推断用户的查询目的从而实现智能化搜索是未来搜索引擎的发展方向。此外,查询词也往往具有歧义,不同用户具有不同的背景、兴趣以及使用目的。就目前而言,对于特定的关键词查询,无论任何人得到的结果都是一样基于某种技术对通用搜索引擎搜索结果的处理,其中包括对搜索结果的过滤。实例学习是机器学习中较为成熟的分支,其基本思想是从某一概念的己给的例集合和反例集合中归纳产生出描述所有正例并排除所有反例的一般规则,因而也被称作概念获取。本文正是基于对用户行为的跟踪,把其访问网页的过滤技术,返回与用户查询目的相关的网页,去除无关网页。从而有效的提擎中的“信息过载”和“信息迷失”等问题,提出一种对搜索引擎进行改进的策略,该策略基于对用户行为的跟踪,对网页返回目录中的摘要信息进行文本挖掘,推断用户的搜索目的,对中文阉鹘峁杏呕Hコ畔ⅲ返回给用户一个比较满意的结果。最后初步实现了一个简单的搜索引擎优化系统低尘馐匀〉昧己玫脑诵行Ч们通常无法用简单的几个词来描述自己的信息需求。对于一个查询词,搜索引个特定的用户而言都是不相关的。因此,用户必须通过浏览冗长的列表才能找的。人们越来越希望得到的结果能够符合自己的意愿,目前出现了各种改进的搜索引擎,基于用户个性词典的搜索引擎、基于聚类技术的搜索引擎、面向主题的搜索引擎等等。在一定程度上起到一定的促进作用,究其原理,实际就是聚类、分类等处理。分为币例和反例,通过相关算法,得到描述用户查询目的规则,从而实现网页高搜索引擎的查找精度,为用户提供高质量的、相关度较高的查询结果。本文在分析了通用搜索引擎和个性化搜索引擎的基础上,针对目前搜索引关键词:搜索引擎;实例学习;扩张矩阵;惴ǎ幌蛄靠占淠P摘要
.,甒琧琧琣瑆,琣””琭—,’,琤,,.瑄瓽瑆”瓾’.,瓵,..,,.琯.
瑃,,琽,篠琁,,,—.瓼,—.’
衫年,明彤日学位论文作者签名中:高锄签字日期:学位论文作者签名:童。孑年/隆蓥学位论文独创性声明学位论文版权使用授权书汐孑年,—凋爿扫作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地为获得直昌太堂或其他教育机构的学位或证书而使用过的材料。与社会公众提供信息服务。本人声明所呈交的学位论文是本人在导师指导下进行的研究工方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解南昌大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权南昌大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。同时授权中国科学技术信息研究所将本学位论文收录到《中国学位论文全文数据库》,并通过网络向C艿难宦畚脑诮饷芎笫视帽臼谌ㄊ导师签名:签字日期:签字期:
第一章绪论引言随着计算机与网络的迅速发展,当今社会已经走向信息化,人们越来越习一段路要走。目前,数据挖掘技术的发展则为我们提供了一条途径。虽然不能类等技术被用来加强牡档墓芾怼T赪结构挖掘方面,趁婕淞接结构被用来计算页面的“权威性辉赪日志挖掘分析中,根据用户历史访问行为的信息来决定页面的相关性,都取得了良好的效果。但是以往的研究往往侧重于对整个牡导姆治觯鍪恿硕缘ジ霾檠腤检索结果的惯于通过网络这个丰富而实用的平台来获取自己需要的信息。然而面对浩如烟海的信息,如何才能方便迅速的获取有效信息,成为人们关注的问题。搜索引擎的出现极大的缓解了这一矛盾。公司最近的一项调查显示,使用搜索引擎找到网站的网民比例从年前的ヌ岣叩搅ィ琖搜索引擎逐步成为用户搜寻相关信息的重要工具。目前搜索引擎种类繁多,比较熟悉的如、桶俣鹊鹊取K淙辉谝欢ǔ潭壬下懔巳嗣堑囊G螅欠回的大量冗余信息也考验着人们的耐性。怎样使搜索引擎理解用户的查询目的,使搜索返回的信息更准确,而不包含太多的无用信息,解决问题的根本办法在于自然语言的理解技术,即机器对自然语言的理解。但是,就目前的研究来看,自然语言理解还处于研究的初级阶段,让机器真正理解文档的内容还有很长的从根本上解决问题,但其扎实的理论基础,以及在金融