1 / 36
文档名称:

网络爬虫论文.doc

格式:doc   大小:636KB   页数:36页
下载后只包含 1 个 DOC 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

网络爬虫论文.doc

上传人:qiang19840906 2021/1/20 文件大小:636 KB

下载得到文件列表

网络爬虫论文.doc

相关文档

文档介绍

文档介绍:: .
摘 要
网络爬虫(Web Crawler),通常被称为爬虫,是搜索引擎的重要组成部分。随着信息技术的飞速进步,作为搜索引擎的一个组成部分——网络爬虫,一直是研究的热点,它的好坏会直接决定搜索引擎的未来。目前,网络爬虫的研究包括Web搜索策略研究的研究和网络分析的算法,两个方向,其中在Web爬虫网络搜索主题是一个研究方向,根据一些网站的分析算法,过滤不相关的链接,连接到合格的网页,并放置在一个队列被抓取。
把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络爬虫就可以用这个原理把互联网上所有的网页都抓取下来。
关键词:网络爬虫;Linux Socket;C/C++;多线程;互斥锁
Abstract
Web Crawler, usually called Crawler for short, is an important part of search engine. With the high-speed development of information, Web Crawler-- the search engine can not lack of-- which is a hot research topic those years. The quality of a search engine is mostly depended on the quality of a Web Crawler. Nowadays, the direction of researching Web Crawler mainly divides into two parts: one is the searching strategy to web pages; the other is the algorithm of analysis URLs. Among them, the research of Topic-Focused Web Crawler is the trend. It uses some webpage analysis strategy to filter topic-less URLs and add fit URLs into URL-WAIT queue.
The metaphor of a spider web internet, then Spider spider is crawling around on the Internet. Web spider through web link address to find pages, starting from a one page website (usually home), read the contents of the page, find the address of the other links on the page, and then look for the next Web page addresses through these links, so has been the cycle continues, until all the pages of this site are crawled exhausted. If the entire Internet as a site, then you can use this Web crawler principle all the pages on the Internet are crawling down..
Keywords:Web crawler;Linux Socket;C/C++; Multithreading;Mutex
目 录
摘 要 0
第一章 概 述 0
课题背景 0
网络爬虫的历史和分类 0
网络爬虫的历史 0
网络爬虫的分类 1
网络爬虫的发展趋势 1
系统开发

最近更新

2024年贵州省机关事务管理局招聘历年高频难、.. 90页

2024年贵州省毕节市七星关区第五批事业单位招.. 89页

2024年贵州省水城县事业单位招聘160人历年高频.. 280页

2024年贵州省独山县事业单位招聘52人历年高频.. 89页

2024年贵州省罗甸县事业单位招聘102名村级扶贫.. 88页

利用SWI检测脑动脉瘤的血凝块情况 26页

利用SWI技术检测帕金森病患者脑部铁代谢情况 32页

2024年邯郸幼儿师范高等专科学校单招职业适应.. 56页

2024年郑州旅游职业学院单招职业适应性测试题.. 54页

2024年郑州轨道工程职业学院单招职业适应性测.. 55页

2024年重庆传媒职业学院单招职业适应性测试题.. 57页

2024年重庆建筑工程职业学院单招职业适应性测.. 54页

2024年重庆青年职业技术学院单招职业适应性测.. 55页

2024年长垣烹饪职业技术学院单招职业适应性测.. 55页

2024年阜阳幼儿师范高等专科学校单招职业适应.. 57页

2024年青海交通职业技术学院单招职业适应性测.. 58页

2024年驻马店职业技术学院单招职业适应性测试.. 54页

2024年高级保安员模拟试题(考点精练) 33页

山东省泰安市肥城市2022-2023学年六年级(五四.. 15页

北师大版小学数学大纲 17页

设备全生命周期管理办法 25页

常见的病句类型及修改 8页

车辆代还协议 2页

深圳航空机组管理系统的设计与实现 80页

家长如何培养幼儿的社会交往能力精品 6页

广州无添加主义化妆品有限公司建设项目环境影.. 49页

safe launch系统简介 15页

《GBT 11623-2016 热轧H型钢和部分T型钢》.pd.. 18页