1 / 38
文档名称:

网络爬虫论文.doc

格式:doc   大小:657KB   页数:38页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫论文.doc

上传人:scuzhrouh 2020/9/4 文件大小:657 KB

下载得到文件列表

网络爬虫论文.doc

相关文档

文档介绍

文档介绍::..摘要网络爬虫(WebCrawler),通常被称为爬虫,是搜索引擎的重要组成部分。随着信息技术的飞速进步,作为搜索引擎的一个组成部分——网络爬虫,一直是研究的热点,它的好坏会直接决定搜索引擎的未来。目前,网络爬虫的研究包括Web搜索策略研究的研究和网络分析的算法,两个方向,其中在Web爬虫网络搜索主题是一个研究方向,根据一些网站的分析算法,过滤不相关的链接,连接到合格的网页,并放置在一个队列被抓取。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。关键词:网络爬虫;LinuxSocket;C/C++;多线程;互斥锁AbstractWebCrawler,usuallycalledCrawlerforshort,-speeddevelopmentofinformation,WebCrawler--thesearchenginecannotlackof--,thedirectionofresearchingWebCrawlermainlydividesintotwoparts:oneisthesearchingstrategytowebpages;,theresearchofTopic--lessURLsandaddfitURLsintoURL-WAITqueue.,.Webspiderthroughweblinkaddresstofindpages,startingfromaonepagewebsite(usuallyhome),readthecontentsofthepage,findtheaddressoftheotherlinksonthepage,andthenlookforthenextWebpageaddressesthroughtheselinks,sohasbeenthecyclecontinues,,arecrawlingdown..Keywords:Webcrawler;LinuxSocket;C/C++;Multithreading;Mutex目录摘要 0第一章概述 2第二章相关技术和工具综述 1第三章网络爬虫模型的分析和概要设计 5第四章网络爬虫模型的设计与实现 17第五章程序运行及结果分析 21第六章总结与展望 24致谢 25参考文献 ,是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。网络检索功能起于互联网内容爆炸性发展所带来的对内容检索的需求。搜索引擎不断的发展,人们的需求也在不断的提高,网络信息搜索已经成为人们