文档名称：

Python程序设计ppt课件第14章-网络爬虫应用开发.pptx

格式：pptx 大小：1,531KB 页数：40页

下载后只包含 1 个 PPTX 格式的文档，没有任何的图纸或源代码，查看文件列表

如果您已付费下载过本站文档，您可以点这里二次下载

预览

下载此文档

Python程序设计ppt课件第14章-网络爬虫应用开发.pptx

上传人:rsqcpza 2023/9/26 文件大小：1.50 MB

下载得到文件列表

Python程序设计ppt课件第14章-网络爬虫应用开发.pptx

相关文档

文档介绍

文档介绍：该【Python程序设计ppt课件第14章-网络爬虫应用开发】是由【rsqcpza】上传分享，文档一共【40】页，该文档可以免费在线阅读，需要了解更多关于【Python程序设计ppt课件第14章-网络爬虫应用开发】的内容，可以使用淘豆网的站内搜索功能，选择自己适合的文档，以下文字是截取该文章内的部分文字，如需要获得完整电子版，请下载此文档到您的设备，方便您编辑和打印。初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
第14章网络爬虫应用开发
参考书目《Python 程序设计》
初识网络爬虫第14章网络爬虫应用开发参考书目《Python
1
目录
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
这里说明图片内容
目录初识网络爬虫这里说明图片内容
2
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
目录
这里说明图片内容
初识网络爬虫目录这里说明图片内容
3
初识网络爬虫
1 网络爬虫概述
网络爬虫，即Web Spider。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。
即读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，一直循环下去，把互联网上所有的网页都抓取下来。
互联网中最有价值的便是数据，爬虫就是高效地挖掘这些宝藏的方法。
初识网络爬虫1 网络爬虫概述网络爬虫，即Web Spider
4
初识网络爬虫
2 网络爬虫的分类
捜索引擎抓取系统（Baidu、等）的重要组成部分。目的是将互联网上的网页下载到本地，形成一个互联网内容的镜像备份。
局限性：通用搜索引擎所返回的结果都是网页
基于关键字的检索，无法准确理解用户的具体需求
通用爬虫
“面向特定主题需求”的一种网络爬虫程序
聚焦爬虫在实施网页抓取时会对内容进行处理筛选
应用于对特定信息的爬取，为某一类特定的人群提供服务
聚焦爬虫
初识网络爬虫2 网络爬虫的分类捜索引擎抓取系统（Baidu、
5
初识网络爬虫
3 网络爬虫的基本原理
爬虫就是发送请求获取网站内容并从中提取数据的自动化程序。其中请求、提取、自动化是爬虫的关键，网络爬虫的基本流程如图：
初识网络爬虫3 网络爬虫的基本原理爬虫就是发送请求获取网站内
6
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
目录
这里说明图片内容
初识网络爬虫目录这里说明图片内容
7
网络爬虫的常用技术
网络爬虫是用于数据采集的一门技术，可以帮助我们自动地进行信息的获取与筛选。
网络爬虫常用技术：网络请求、headers处理、网络超时、代理服务以及BeautifulSoup等。
网络爬虫的常用技术网络爬虫是用于数据采集的一门技术，可以帮助
8
网络爬虫的常用技术
1 Python实现HTTP网络请求
Python中实现HTTP网络请求常见的三种方式：urllib、urllib3以及requests。

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为，向指定的服务器发送一个请求，并可以保存服务器返回的数据。在Python3的urllib库中，所有和网络请求相关的方法，
网络爬虫的常用技术1 Python实现HTTP网络请求Pyt
9
网络爬虫的常用技术
1 Python实现HTTP网络请求
（1）urlopen()函数
()函数用于实现对目标url的访问。
(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url 参数：目标资源在网路中的位置。可以是一个表示URL的字符串（如：/）。
data参数：data用来指明发往服务器请求中的额外的参数信息（如：在线翻译，在线答题等提交的内容），data默认是None，此时以GET方式发送请求；当用户给出data参数的时候，改为POST方式发送请求。
timeout：设置网站的访问超时时间
cafile、capath、cadefault 参数：用于实现可信任的CA证书的HTTP请求。（基本上很少用）
context参数：实现SSL加密传输。（基本上很少用）
网络爬虫的常用技术1 Python实现HTTP网络请求（1）
10