1 / 66
文档名称:

Python大数据基础与实战第13章网络爬虫基础与实战.pptx

格式:pptx   大小:2,562KB   页数:66
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python大数据基础与实战第13章网络爬虫基础与实战.pptx

上传人:autohww 2019/9/2 文件大小:2.50 MB

下载得到文件列表

Python大数据基础与实战第13章网络爬虫基础与实战.pptx

相关文档

文档介绍

文档介绍:《Python大数据基础与实战》ØURL地址管理器:管理爬取的网页地址,防止重复抓取和循环抓取。ØHTML网页下载器:下载对应的网页内容到本地。ØHTML网页解析器:解析爬取的网页内容,从网页中提取有价值的信息。Ø数据存储管理器:保存爬取的有用信息,把解析出来的信息永久保存到文件或者数据库中。,构造HTTP请求包,发送HTTP请求到服务器,接收服务器返回的HTTP响应,对返回的网页进行解析,提取有价值的信息。,下载网页就需要实现HTTP请求,在Python中实现HTTP请求比较常用的主要有两个库:urllib和requests库requests库基于urllib,是一个基于Apache2开源协议的HTTP库。它比urllib更加方便,使用它可以减少爬虫系统编写的工作量,能够满足HTTP的测试需求。)正则表达式正则表达式使用预定义的模式去匹配一类具有共同特征的字符串,可以快速、准确地完成复杂的查找、替换等处理要求。正则表达式在文本编辑与处理、网页爬虫之类的场合中有重要应用。它能够提取想要的所有信息,效率也比较高,但是缺点也很明显,就是写起来比较复杂,不是很直观。2)lxml库lxml库使用XPath语法,同样是效率比较高的解析库。XPath是一门在XML文档中查找信息的语言,XPath可以在XML文档中对元素和属性进行遍历。XPath比较直观易懂,lxml库是解析网页的最佳选择,推荐使用lxml进行网页内容解析。)。它能够实现文档的导航和查找。BeautifulSoup简单易学,但相比lxml和正则表达式,解析速度要慢很多。)爬虫框架Python中很多实现爬虫项目的半成品---爬虫框架。爬虫框架允许根据具体项目的情况,调用框架提供的接口,编写少量的代码实现一个爬虫系统。爬虫框架实现了爬虫系统要实现的常用功能,节省了编程人员的开发时间,帮助程序员高效开发爬虫系统。Python中,爬虫框架很多,常见的有Scrapy、Pyspider、Cola等。Scrapy是Python中最著名、最受欢迎的爬虫框架,它是一个相对成熟的框架,有着丰富的文档和开放的社区交流空间。