文档介绍:摘要随着网络信息资源的急剧增长,人们越来越多地关注如何快速有效地从网络这螳网站通过网络搜索软件殖莆M缢阉骰魅或网站登录等方式,收集因自年起至今,伴随着因特网的日益发展壮大以及畔⒘康难杆倥胀,阉饕婕际跫壕巳龇⒄菇锥危杭惺郊焖鹘锥巍⒎植际郊焖阶段和智能化检索阶段。当前搜索引擎研究主要集中在自动化、智能化检索和提高检索结果的精确度上。今后搜索引擎还将不断扩展附加功能,以主题化检索为用得最广泛的技术,分析了它的架构以及主要工作原理。构建搜索引擎,需要使用网络爬虫对网络资源进行分析,抓取。接下来,论文就对网络爬虫进设计实现了一个搜索引擎示例,演示了它的功能,论文对示例的设计思路,实现提升的策略进行了总结,实现了搜索优化以及性能提升。在附录部分,对的分析器进行了分析,并且实现了一个中文分析器,加入到示例中,提高了示例搜索结果的准确度以及搜索结果的范围。关键词:搜索引擎,网络爬虫,,,性能提升信息中,抽取出潜在的、有价值的信息,使之有效地在管理和决策中发挥作用。搜索引擎臼侵敢蛱赝献盘峁┎檠竦囊焕嗤荆特网上大量网站的页面,经过加工处理后建库,从而能够对用户提出的各种查询作出响应,提供用户所需的信息。特征,以适应不同层次用户的个人化信息检索需求。论文首先介绍了这种在丌源社区旱构建全文检索系统和搜索引擎使行了深入的分析,对各个核心部件进行了详细介绍。然后,在前面研究的基础上,细节进行了阐述。论文的最后一章,在深入分析高级搜索技术的基础上,对性能
肌咖曲琺.,鷗,,.,,,“.,,.,瓵,.,::,.疺.,.,’.
第一章绪论搜索引擎简介搜索引擎工作原理简介搜索引擎指自动从英特网搜集信息,经过一定整理以后,提供给用户进行查个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为绘制一搜索引擎的工作原理【看笾驴梢苑治#⑺鸭畔ⅲ核阉饕娴男畔⑺鸭径际亲远摹K阉饕胬贸莆M缰┲的超链接,机器人便可以遍历绝大部分网页。⒄硇畔ⅲ核阉饕嬲硇畔⒌墓坛莆!敖⑺饕薄K阉饕娌唤鲆14嫠集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的数据库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的计算机系统也没有用。⒔邮懿檠河没蛩阉饕娣⒊霾檠阉饕娼邮懿檠⑾蛴没Х祷刈柿稀搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这询的系统。英特网上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一幅一目了然的信息地图,供随时查阅。的自动搜索机器人程序来连上每一个网页上的超链接。机器人程序根据网页链到其他的超链接,就象同常生活中所说的“一传十,十传百⋯⋯”一样,从少数几个网页开始,连到数据库上所有到其他网页的链接。理论上,若网页上有适当些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。
搜索引擎产生的背景和发展历史平均随着信息技术的不断发展,特别是互联网应用的迅速普及,电子信息爆炸似的丰富起来。目前仅收录的网页就超过亿⑶颐刻烊蚧チM数目以千万级的数量增加。要在如此浩瀚的信息海洋早寻找信息,就像“大海捞针谎选9び破涫拢叵壤淦鳌RT诤棋ǖ耐缧畔⒑Q笾凶匀绯謇耍搜索引擎己成为必不可少的利器。自年起至今,伴随着因特网的日益发展壮大以及畔⒘康难杆倥蛘停阉饕婕际跷A瞬欢下闳嗣嵌訵信息检索的需求,已经经历了三个发展阶段】:第一代搜索引擎出现于年,以集中式检索为主要特征。这类搜索引擎一般都索引少于偻蚋鐾常僦匦滤鸭巢⑷ニ⑿滤饕6移浼焖魉俣确常慢,一般都要等待秒甚至更长的时间。在实现技术上也基本沿用较为成熟的餫、网络、数据库等技术,相当于利用一些己有技术实现的一个系挠τ谩T月到拢缗莱鎃每天承受大约次查询。第二代搜索引擎系统大约出现在年,大多采用分布式检索方案,即多个微型计算机协同工作来提高数据规模、响应速度和用户数量。它们一般都保持一个大约蛲车乃饕菘猓刻炷芄幌煊千万次用户检索请求。年月,当时最先进的几个搜索引擎号称能建立从偻虻絣亿的网页索引。索引擎声称他们每天大概要承受虼尾檠第三代搜索引擎系统出现在年到年期间,这一时期是搜索引擎空前繁荣的时期。第三代搜索引擎的发展有如下几个特点:饕菘獾墓婺<绦龃螅话愕纳桃邓阉饕娑急3衷诩盖ЯΓ踔辽艘话阋庖迳系乃阉饕酝猓J汲鱿种魈馑阉骱偷赜蛩阉鳌:芏嘈⌒偷垂直门户站点开始使用该技术。捎谒阉鞣祷厥萘抗螅焖鹘峁喙囟绕兰鄢晌Q芯康慕沟恪O喙氐研究又可以分为两类:一类是对超文本链的分析