1 / 10
文档名称:

常用Python爬虫库总结.docx

格式:docx   大小:203KB   页数:10页
下载后只包含 1 个 DOCX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

常用Python爬虫库总结.docx

上传人:jianjian401 2019/10/19 文件大小:203 KB

下载得到文件列表

常用Python爬虫库总结.docx

文档介绍

文档介绍:常用Python爬虫库总结————————————————————————————————作者:————————————————————————————————日期: 常用Python爬虫库汇总Python爬虫,全称Python网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或脚本,主要用于抓取证券交易数据、天气数据、网站用户数据和图片数据等,Python为支持网络爬虫正常功能实现,内置了大量的库,主要有以下类型:一、Python爬虫网络库Python爬虫网络库主要包括:urllib、requests、grab、pycurl、urllib3、httplib2、RoboBrowser、MechanicalSoup、mechanize、socket、UnirestforPython、hyper、PySocks、treq以及aiohttp等。二、Python网络爬虫框架Python网络爬虫框架主要包括:grab、scrapy、pyspider、cola、portia、restkit以及demiurge等。三、HTML/XML解析器lxml:C语言编写高效HTML/XML处理库,支持XPath;cssselect:解析DOM树和CSS选择器;pyquery:解析DOM树和jQuery选择器;BeautifulSoup:低效HTML/XML处理库,纯Python实现;html5lib:根据WHATWG规范生成HTML/XML文档的DOM,该规范被用在现在所有的浏览器上;feedparser:解析RSS/ATOMfeeds;MarkupSafe:为XML/HTML/XHTML提供了安全转义的字符串;xmltodict:一个可以让你在处理XML时感觉像在处理JSON一样的Python模块;xhtml2pdf:将HTML/CSS转换为PDF;untangle:轻松实现将XML文件转换为Python对象;Bleach:清理HTML(需要html5lib);四、文本处理difflib:帮助进行差异化比较;Levenshtein:快速计算Levenshtein距离和字符串相似度;fuzzywuzzy:模糊字符串匹配;esmre:正则表达式加速器;ftfy:自动整理Unicode文本,减少碎片化;unidecode:将Unicode文本转为ASCII;uniout:打印可读字符,而不是被转义的字符串;chardet:兼容Python的2/3的字符编码器;xpinyin:一个将中国汉字转为拼音的库;:格式化文本中CJK和字母数字的间距。awesome-slugify:一个可以保留unicode的Pythonslugify库;python-slugify:一个可以将Unicode转为ASCII的Pythonslugify库;unicode-slugify:一个可以将生成Unicodeslugs的工具;pytils:处理俄语字符串的简单工具();PLY:解析工具的Python实现;pyparsing:一个通用框架的生成语法分析器;python-nameparser:解析人的名字的组件;phonenumbers:解析,格式化,存储和验证国际电话号码;python-user-agents:浏览器用户代理的解析