文档介绍:该【Python程序设计ppt课件第14章-网络爬虫应用开发 】是由【rsqcpza】上传分享,文档一共【40】页,该文档可以免费在线阅读,需要了解更多关于【Python程序设计ppt课件第14章-网络爬虫应用开发 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
第14章 网络爬虫应用开发
参考书目《Python 程序设计》
初识网络爬虫第14章 网络爬虫应用开发参考书目《Python
1
目录
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
这里说明图片内容
目录初识网络爬虫这里说明图片内容
2
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
目录
这里说明图片内容
初识网络爬虫目录这里说明图片内容
3
初识网络爬虫
1 网络爬虫概述
网络爬虫,即Web Spider。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。
即读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,把互联网上所有的网页都抓取下来。
互联网中最有价值的便是数据,爬虫就是高效地挖掘这些宝藏的方法。
初识网络爬虫1 网络爬虫概述网络爬虫,即Web Spider
4
初识网络爬虫
2 网络爬虫的分类
捜索引擎抓取系统(Baidu、等)的重要组成部分。目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
局限性:通用搜索引擎所返回的结果都是网页
基于关键字的检索,无法准确理解用户的具体需求
通用爬虫
“面向特定主题需求”的一种网络爬虫程序
聚焦爬虫在实施网页抓取时会对内容进行处理筛选
应用于对特定信息的爬取,为某一类特定的人群提供服务
聚焦爬虫
初识网络爬虫2 网络爬虫的分类捜索引擎抓取系统(Baidu、
5
初识网络爬虫
3 网络爬虫的基本原理
爬虫就是发送请求获取网站内容并从中提取数据的自动化程序。其中请求、提取、自动化是爬虫的关键,网络爬虫的基本流程如图:
初识网络爬虫3 网络爬虫的基本原理爬虫就是发送请求获取网站内
6
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
目录
这里说明图片内容
初识网络爬虫目录这里说明图片内容
7
网络爬虫的常用技术
网络爬虫是用于数据采集的一门技术,可以帮助我们自动地进行信息的获取与筛选。
网络爬虫常用技术:网络请求、headers处理、网络超时、代理服务以及BeautifulSoup等。
网络爬虫的常用技术网络爬虫是用于数据采集的一门技术,可以帮助
8
网络爬虫的常用技术
1 Python实现HTTP网络请求
Python中实现HTTP网络请求常见的三种方式:urllib、urllib3以及requests。
urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。在Python3的urllib库中,所有和网络请求相关的方法,
网络爬虫的常用技术1 Python实现HTTP网络请求Pyt
9
网络爬虫的常用技术
1 Python实现HTTP网络请求
(1)urlopen()函数
()函数用于实现对目标url的访问。
(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url 参数:目标资源在网路中的位置。可以是一个表示URL的字符串(如:/)。
data参数:data用来指明发往服务器请求中的额外的参数信息(如:在线翻译,在线答题等提交的内容),data默认是None,此时以GET方式发送请求;当用户给出data参数的时候,改为POST方式发送请求。
timeout:设置网站的访问超时时间
cafile、capath、cadefault 参数:用于实现可信任的CA证书的HTTP请求。(基本上很少用)
context参数:实现SSL加密传输。(基本上很少用)
网络爬虫的常用技术1 Python实现HTTP网络请求(1)
10