1 / 19
文档名称:

Python爬虫程序设计KC18培训课件.pptx

格式:pptx   大小:163KB   页数:19页
下载后只包含 1 个 PPTX 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

Python爬虫程序设计KC18培训课件.pptx

上传人:nnyoung 2019/9/17 文件大小:163 KB

下载得到文件列表

Python爬虫程序设计KC18培训课件.pptx

文档介绍

文档介绍:,从网上爬取数据自然或多或少会用到正则表达式。Python的正则表达式要先引入re模块,正则表达式以r引导,例如:importrereg=r"\d+"m=(reg,"abc123cd")print(m)其中r"\d+"正则表达式表示匹配连续的多个数值,search是re中的函数,从"abc123cd"字符串中搜索连续的数值,得到"123",返回一个匹配对象,因此程序的结果如下:<;span=(3,6),match='123'>从结果看出,在指定的字符串中找到了连续的数值,它们是"123",span(3,6)表示开始位置是3,结束位置是6,这正好是"123"在"abc123cd"中的位置。Python中关于正则表达式的规则比较多,下面将介绍主要的内容,详细内容读者可以参考相关资料。2、字符"+"重复前面一个匹配字符一次或者多次。例如:importrereg=r"b\d+"m=(reg,"a12b123c")print(m)结果找到了"b123":<;span=(3,7),match='b123'>注意:r"b\d+"第一个字符要匹配"b",后面是连续的多个数字,因此是"b123",不是"a12"。3、字符"*"重复前面一个匹配字符零次或者多次。"*"与"+"类似,但有区别,例如:importrereg=r"ab+"m=(reg,"acabc")print(m)reg=r"ab*"m=(reg,"acabc")print(m)结果:<;span=(2,4),match='ab'><;span=(0,1),match='a'>4、字符"?"重复前面一个匹配字符零次或者一次。例如:importrereg=r"ab?"m=(reg,"abbcabc")print(m)结果:<;span=(0,2),match='ab'>匹配结果是"ab",其中b重复一次。5、字符"."代表任何一个字符,但是没有特别声明时不代表字符"\n"。例如:importres="xaxby"m=(r"",s)print(m)结果"."代表了字符"x"<;span=(1,4),match='axb'>6、"|"代表把左右分成两个部分。例如:importres="xaabababy"m=(r"ab|ba",s)print(m)结果匹配"ab"或者"ba"都可以:<;span=(2,4),match='ab'>7、特殊字符使用反斜线"\"引导,例如"\r"、"\n"、"\t"、"\\"分别表示回车、换行、制表符号与反斜线自己本身。例如:importrereg=r"a\nb?"m=(reg,"ca\nbcabc")print(m)结果匹配"a\n\b":<;span=(1,4),match='a\nb'>8、字符"\b"表示单词结尾,单词结尾包括各种空白字符或者字符串结尾。例如:importrereg=r"car\b"m=(reg,"Thecarisblack")print(m)结果匹配"car",因为"car"后面是以个空格:<;span=(4,7),match='car'>