文档介绍:电子科技大学
硕士学位论文
搜索引擎中Crawler的设计、实现与扩展优化
姓名:杨帅
申请学位级别:硕士
专业:计算机系统结构
指导教师:刘玓
20090501
摘要搜索引擎,是指一种在嫌τ玫娜砑低常砸欢ǖ牟呗栽赪上搜倒排技术、布尔查询理论。然后,在搜索引擎关键技术的基础上,基于一个轻量级的架构设计了搜索引擎的三个主要模块:网页爬虫、索引器与搜索器。并重点网页爬虫模块中:在实现其核心功能的基础上,提出了以下几种优化方案:⒍源排檀娲⒎绞浇欣┱梗豪妹嫦蚨韵笥镅缘募坛杏肱缮疲允⑻岢隽艘恢中碌耐撑廊〔呗裕涸诘谝淮嗡鸭呈备菁剖辈呗愿扛骋桓鋈ㄖ怠T谙乱淮闻廊⊥车氖焙蚋萑ㄖ档拇笮∪ト范ǚ梦蔝的先后次序,避免带宽资源过多浪费在低性能的服务器上。搜索模块中:首先,给出了搜索器的布尔查询方案。然后,讨论了怎样根据集和发现信息,在对信息进行处理和组织后,为用户提供畔⒉檠瘛本文首先对搜索引擎的关键技术进行了全面分析,包括:索引器原理、搜索器原理、爬取器原理、网页质量评估算法、词法分析理论、中文分词技术、文件实现了网页爬虫模块。⒃隽渴侥P图捌涫迪郑涸隽渴剿鸭欢圆糠忠趁娼懈戮涂梢运⑿乱趁集,可以大幅度减少批量更新次数,提高页面集的新鲜度。⒎植际嚼┱褂胧迪郑喊岩桓鏊鸭诘憷┱刮6喔鏊鸭诘悖诘阒湎嗷通信,并增加了控制节点来协调各节点的工作。⑼橙ㄖ导扑悖河糜谄拦劳车闹匾P裕M撑判蛱峁┮谰荨2捎昧的算法。库存储方式和容错文件格式提供了支持。索引模块中:首先,讨论了中文分词的设计思想,选择了分词的算法。然后,提出了正向索引文件的建立策略。最后,给出了倒排索引的分级索引方案。倒排索引实施布尔查询。关键词:网页爬虫,索引器,搜索器,增量式,分布式
锄甀皿,’匏鹴琤:吼甀瓵饥画晴’,:缪舒瓺甒簎’瓻—,,篿鴖.::螅簂琻雒:,:猯,..甀篵瓵:....
:,:..藃
签名:衅导师签签名:盔牡拥日期枷辍聑日琅~独创性声明关于论文使用授权的说明倜本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我~同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。C艿难宦畚脑诮饷芎笥ψ袷卮斯娑日期:,
第一章绪论课题背景搜索引擎的概念搜索引擎的发展历史直到年,才出现了狭义的搜索引擎,它是一自动索引厦婺涿站点文件的程序。该邱搜索程序由加拿大位于蒙特利尔的麦吉尔大学的三位学生名叫。实现了在网络上自动索引匿名邱服务器文件,用户必须输入近十年来,互联网发展的速度非常快,网上信息的数量可以说是呈几何级数增长。年中期,全世界的数目已经超过了亿,中国的网页估计也已经达到甚至超过了凇2唤鋈绱耍刻旎褂写罅康男峦巢RT谌此浩瀚的信息海洋里寻找信息,非常困难。搜索引擎正是为了解决这个问题而出现的技术。通过互联网搜索信息的重要途径就是利用搜索引擎【俊V泄チM缧息中心指出,目前搜索引擎已经成为继电子邮件之后人们用得最多的网上信息服务系统。搜索引擎以一定的策略,在互联网上搜集、发现信息,在对信息进行处理和组织后,为人们提供网页信息查询响应【俊T谖颐怯没Э蠢矗阉饕嫣峁┮桓鐾页界面,我们向浏览器提交一个词语或者短语,然后搜索引擎很快返回一个可能例如我们不知道“卣鹨坏南喙匦畔⒌腢,但我们想收集这方面的信息,在这种场合下,我们可以向搜索栏里输入“卣鸬叮痪茫趁婢突岱祷年以前,不存在互联网,也没有搜索引擎。发明。他们开发这个程序的初衷是当时网络中文件传输的频率非常高,而很多文件是分散在网络中不同的邱服务器上,找到一个文件很不方便。这个程序最后取和我们输入内容相关的信息的列表。我们需要的结果列表,我们可以一一试探。
邱服务器站点列表。虽然不是真正意义上的搜索引擎,但它还是一个历史文件的精确名字才能成功搜索,用户输入后,会反馈给用户该文件所在的出现之后,美国内华达州的系统计算服务大学于年开发了一个基是弦桓龇浅S忻男畔⒉檎蚁低常獻系奈募结构的菜单与文件,以发现和检索信息,它拥有世界上最大、最神奇的编目。网络蜘蛛,又称网络爬虫、网络机器人、网页搜集器,是一个自动化的程序,它能以很快的速度不断重复一系列操作从而完成下载互联网上所有网页到本地的任等人由实现了。是网页所链接,那么,从一个链接开始,对下载回来的网页进行链接分析,循环