1 / 40
文档名称:

Python程序设计ppt课件第14章-网络爬虫应用开发.pptx

格式:pptx   大小:1,531KB   页数:40页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python程序设计ppt课件第14章-网络爬虫应用开发.pptx

上传人:rsqcpza 2023/9/26 文件大小:1.50 MB

下载得到文件列表

Python程序设计ppt课件第14章-网络爬虫应用开发.pptx

相关文档

文档介绍

文档介绍:该【Python程序设计ppt课件第14章-网络爬虫应用开发 】是由【rsqcpza】上传分享,文档一共【40】页,该文档可以免费在线阅读,需要了解更多关于【Python程序设计ppt课件第14章-网络爬虫应用开发 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
第14章 网络爬虫应用开发
参考书目《Python 程序设计》
初识网络爬虫第14章 网络爬虫应用开发参考书目《Python
1
目录
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
这里说明图片内容
目录初识网络爬虫这里说明图片内容
2
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
目录
这里说明图片内容
初识网络爬虫目录这里说明图片内容
3
初识网络爬虫
1 网络爬虫概述
网络爬虫,即Web Spider。如果把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。
即读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,一直循环下去,把互联网上所有的网页都抓取下来。
互联网中最有价值的便是数据,爬虫就是高效地挖掘这些宝藏的方法。
初识网络爬虫1 网络爬虫概述网络爬虫,即Web Spider
4
初识网络爬虫
2 网络爬虫的分类
捜索引擎抓取系统(Baidu、等)的重要组成部分。目的是将互联网上的网页下载到本地,形成一个互联网内容的镜像备份。
局限性:通用搜索引擎所返回的结果都是网页
基于关键字的检索,无法准确理解用户的具体需求
通用爬虫
“面向特定主题需求”的一种网络爬虫程序
聚焦爬虫在实施网页抓取时会对内容进行处理筛选
应用于对特定信息的爬取,为某一类特定的人群提供服务
聚焦爬虫
初识网络爬虫2 网络爬虫的分类捜索引擎抓取系统(Baidu、
5
初识网络爬虫
3 网络爬虫的基本原理
爬虫就是发送请求获取网站内容并从中提取数据的自动化程序。其中请求、提取、自动化是爬虫的关键,网络爬虫的基本流程如图:
初识网络爬虫3 网络爬虫的基本原理爬虫就是发送请求获取网站内
6
初识网络爬虫
网络爬虫的常用技术
网络爬虫开发常用框架
目录
这里说明图片内容
初识网络爬虫目录这里说明图片内容
7
网络爬虫的常用技术
网络爬虫是用于数据采集的一门技术,可以帮助我们自动地进行信息的获取与筛选。
网络爬虫常用技术:网络请求、headers处理、网络超时、代理服务以及BeautifulSoup等。
网络爬虫的常用技术网络爬虫是用于数据采集的一门技术,可以帮助
8
网络爬虫的常用技术
1 Python实现HTTP网络请求
Python中实现HTTP网络请求常见的三种方式:urllib、urllib3以及requests。

urllib库是Python中一个最基本的网络请求库。可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据。在Python3的urllib库中,所有和网络请求相关的方法,
网络爬虫的常用技术1 Python实现HTTP网络请求Pyt
9
网络爬虫的常用技术
1 Python实现HTTP网络请求
(1)urlopen()函数
()函数用于实现对目标url的访问。
(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url 参数:目标资源在网路中的位置。可以是一个表示URL的字符串(如:/)。
data参数:data用来指明发往服务器请求中的额外的参数信息(如:在线翻译,在线答题等提交的内容),data默认是None,此时以GET方式发送请求;当用户给出data参数的时候,改为POST方式发送请求。
timeout:设置网站的访问超时时间
cafile、capath、cadefault 参数:用于实现可信任的CA证书的HTTP请求。(基本上很少用)
context参数:实现SSL加密传输。(基本上很少用)
网络爬虫的常用技术1 Python实现HTTP网络请求(1)
10

最近更新

探索工程创新之旅-以市场驱动,实现工程突破 23页

市场调研全方位解析-从基础理论到实战应用 23页

医学教学课件-人体解剖学 32页

农民智慧:病虫害防治-挖掘农民实践经验,解决.. 21页

高一学习汇报-学生学习情况和进步展示 27页

重大危险源管理 12页

仰角俯角和方位角公开课获奖课件赛课一等奖课.. 33页

无缝线路施工公开课获奖课件赛课一等奖课件 32页

2025合伙人股份合作的协议书书 16页

2025咨询服务合同书模板简单 16页

2025国外劳务派遣合同书范本 15页

2025地下室买卖合同书范本 16页

2025墙砖地砖铺贴砖施工合同书 17页

2025夫妻间股权转让协议书简洁范本 16页

2025学校聘用合同书集锦 16页

2025客房销售合同书 14页

2025小工程施工协议书书优秀 17页

2025工地围挡制作合同书 18页

2025工程结算协议书书精选 15页

2025年一级建造师之一建矿业工程实务题库附参.. 177页

2025年中级经济师题库带答案(夺分金卷) 169页

2025年大学生计算机考试题库及参考答案【名师.. 22页

2025年法律常识题库附答案【轻巧夺冠】 84页

绿色行动:大学生角色-推动经济、社会与环境共.. 25页

2025幼儿园教师聘任合同书书样本 15页

2025建筑工程机械设备租赁协议书书 13页

2025房地产中介服务合同书-@-1 16页

高中英语2025届高考读后续写主题升华高分佳句.. 2页

大学生综合素质数学建模论文 6页

新一代大学英语(提高篇) 视听说教程 2 6页