1 / 16
文档名称:

python正则表达式_深入浅出.pdf

格式:pdf   页数:16页
下载后只包含 1 个 PDF 格式的文档,没有任何的图纸或源代码,查看文件列表

如果您已付费下载过本站文档,您可以点这里二次下载

分享

预览

python正则表达式_深入浅出.pdf

上传人:翩仙妙玉 2013/12/15 文件大小:0 KB

下载得到文件列表

python正则表达式_深入浅出.pdf

文档介绍

文档介绍:python的正则表达式re
延伸阅读:python的内建函数和 subprocess。此文是本系列的第三篇文章了,和
之前一样,内容出自官方文档,但是会有自己的理解,并非单纯的翻译。所以,如果我理解
有误,欢迎指正,谢谢。
本模块提供了和 Perl里的正则表达式类似的功能,不关是正则表达式本身还是被搜索
的字符串,都可以是 Unicode字符,这点不用担心,python会处理地和 Ascii字符一样漂
亮。
正则表达式使用反斜杆(\)来转义特殊字符,使其可以匹配字符本身,而不是指定其
他特殊的含义。这可能会和 python字面意义上的字符串转义相冲突,这也许有些令人费
解。比如,要匹配一个反斜杆本身,你也许要用'\\\\'来做为正则表达式的字符串,因为正
则表达式要是\\,而字符串里,每个反斜杆都要写成\\。
你也可以在字符串前加上这个前缀来避免部分疑惑,因为 r 开头的python字符串是 r
raw字符串,所以里面的所有字符都不会被转义,比如r'\n'这个字符串就是一个反斜杆加
上一字母 n,而'\n'我们知道这是个换行符。因此,上面的'\\\\'你也可以写成r'\\',这样,
应该就好理解很多了。可以看下面这段:
>>> import re
>>> = s '\x 5c' #0x5c就是反斜杆
>>> print s
\ \
>>> re .match( '\\\\ s) ' , #这样可以匹配
< object 0xb6949e20 at >
>>> re .match(r '\\ s) ' , #这样也可以
< object 0x80ce2c0 at >
>>> re .match( '\\ s) ' , #但是这样不行
Traceback (most recent call last): last): call Traceback(mostrecent
File File "<stdin>" line , 1 , in < module >
File File "/usr/lib/" line , 137 , in match
return flags).match( _compile(pattern, string )
File File "/usr/lib/" line , 245 , in _compile
raise v error, expression invalid #
: bogus escape (end of line) bogusline) escape of(end :
>>>
另外值得一提的是,re模块的方法,大多也就是 RegexObject对象的方法,两者的区
别在于执行效率。这个在最后再展开吧。
正则表达式语法
正则表达式(RE)指定一个与之匹配的字符集合;本模块所提供的函数,将可以用来
检查所给的字符串是否与指定的正则表达式匹配。
正则表达式可以被连接,从而形成新的正则表达式;例如 A和 B都是正则表达式,那
么 AB也是正则表达式。一般地,如果字符串 p 与 A匹配, q 与 B匹配的话,那么字符串
pq 也会与 AB匹配,但 A或者 B里含有边界限定条件或者命名组操作的情况除外。也就是
说,复杂的正则表达式可以用简单的连接而成。
正则表达式可以包含特殊字符和普通字符,大部分字符比如'A','a'和'0'都是普通字
符,如果做为正则表达式,它们将匹配它们本身。由于正则表达式可以连接,所以连接多个
普通字符而成的正则表达式 last也将匹配'last'。(后面将用不带引号的表示正则表达式,
带引号的表示字符串)
下面就来介绍正则表达式的特殊字符:
'.' '.'
点号,在普通模式,它匹配除换行符外的任意一个字符;如果指定了 DOTALL 标记,
匹配包括换行符以内的任意一个字符。
'^' '^'
尖尖号,匹配一个字符串的开始,在 MULTILINE 模式下,也将匹配任意一个新行的
开始。
'$' '$'
美元符号,匹配一个字符串的结尾或者字符串最后面的换行符,在 MULTILINE 模式
下,也匹配任意一行的行尾。也就是说,普通模式下,foo.$去搜索'foo1\nfoo2\n'只会找
到’foo2′,但是在 MULTILINE 模式,还能找到‘foo1′,而且就用一个去搜索'foo\