文档介绍:摘要随着的迅速发展,壕⒄钩晌0嘀中畔⒆试础⒄镜惴布全球的海量信息服务网络。搜索引擎是一种用于帮助没Р檠畔⒌乃阉工具,它以一定的策略在中搜集、发现信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务和信息导航。通用搜索引擎的特点是:索引数据库的规模大;检索结果数据量特大。随着信息多元化的发展,通用搜索引擎己经不能满足主题用户的需求。用户迫切需要一个数据分类细致、精确、全面、更新及时的面向特定主题的搜索技术和方法来获得主题资源信息。在这种需求的推动下,垂直搜索引擎应运而生。论文研究了搜索引擎的相关技术,通过分析基于查询串方式的搜索引擎和分类目录式搜索引擎的整体结构,设计了垂直搜索引擎的系统结构,并对其中涉及的关键技术:鸭鳌⑿畔⒊槿〖际酢⒅形姆执屎图焖骷际踅辛松钊胙芯浚期望对推进本领域的技术发展作一点贡献。在总体设计方面采用的是模块化思想,垂直搜索引擎被分为搜集子系统、索引子系统和检索子系统,各子系统相对独立,实现较为方便。本文实现的垂直搜索引擎已经在实际中成功运用,具有较好的效果,很好地满足了主题用户的需求,具有广阔的市场前景。关键词:搜索引擎,信息抽取,下推自动机,中文分词,页面距离
,,∞甌、甌瓸.,,猻簊,猻..,簍瓻.,—¨
学位论文作者签名:墨莼学位论文作者签名:墨殛盘口彳年西北工业大学学位论文知识产权声明书学位论文原创性声明口阠粅’年月学位论文作者签名:盘本人完全了解学校有关保护知识产权的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属于西北工业大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版。本人允许论文被查阅和借阅。学校可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。同时本人保证,毕业后结合学位论文研究课题再撰写的文章一律注明作者单位为西北工业大学。保密论文待解密后适用本声明。指导教师签名:月先秉承学校严谨的学风和优良的科学道德,本人郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用的内容和致谢的地方外,本论文不包含任何其他个人或集体已经公开发表或撰写过的研究成果,不包含本人或他人己申请学位或其它用途使用过的成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标日明本人学位论文与资料若有不实,愿意承担一切相关的法律责任。
第一章绪论研究背景随着信息技术的快速发展,互联网得到了飞速的发展,成为人们学习、工作、生活中的最重要的知识和信息来源。根据中国互联网络信息中心年辗⒉嫉中国互联网络发展状况统计报告》“刂沟月日,,整个互联网中文网页数超过亿,;⑿畔⒘看蠖曳稚⑿畔⒆试炊嘀侄嘌⒉灰恢潞筒煌暾为了获取所需的信息,用户必须借助一定的工具,他们通常使用以下两类网第一类是分类目录式搜索引擎,其典型代表是K饕2捎萌斯し绞或半自动方式收集和整理上的信息,根据所搜集网页的内容再手工将其网址分配到所采用的分类主题目录的不同层次级别类目之下。用户查询时,通过逐级层层浏览这些类目,寻找自己所需的网址信息。这类搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息第二类是基于查询串方式的搜索引擎渤莆Mㄓ盟阉饕,这类搜索引擎指的是一种在嫌τ玫娜砑低常砸欢ǖ牟呗栽赪上搜集和发现信息,在对信息进行处理和组织后,为用户提供畔⒉檠瘛4邮褂谜叩慕度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,然后很快返回一个可能和用户输入内容相关的信息列表。这类通过关键词匹配实现查询的自动更新的搜索引擎优点是涵盖的网页数量巨大,因为它拥有基于关键字的全文索引,它为所有网上冲浪的用户提供了一个入口,所有的用户都可以从搜索引擎出发到达自己想去的网上任何地方。搜索引擎对用户是这样的重要,成常使用的网络服务是:浏览新闻⑺阉饕.、收发邮件%⒆灾涡郧站:量少等。为了用户上网的常用服务,根据《中国互联网络发展状况统计报告》“没Ь西北工业大学硕士学位论文一
搜索引擎的现状分析即时通讯⒙厶常疊/讨论组等%然而,事实也已经证明单纯依靠搜索引擎提供的分类目录和关键词检索,搜索效果并不理想。分类目录所涵盖的网页资源需要人工编辑,因此数量有限。而对于关键词检索,虽然搜索引擎技术几经完善,但是信息的查全率和查准率还是相当低下,特别是较低的查准率使得用户得到搜索结果后还需进一步挑选,智力负担相当重。即使比较著名的诸如等搜索引擎对检索结果采用了基于超链接的相关度排序,但它们主要依据的也只是网页被其他网页认可的程度,并