- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python 正则表达式

ruochen 发表于 2021/03/20 08:26:34 2021/03/20

【摘要】 Python 正则表达式

正则表达式（RegularExpression, re）

是一个计算机科学的概念
用于使用单个字符串来描述，匹配符合某个规则的字符串
常常用来检索，替换某些模式的文本

正则的写法

.(点号): 表示任意一个字符，除了\n，比如查找所有的一个字符 .
[]: 匹配中括号中列举的任意字符，比如[L,Y,0], LLY, Y0, LIU
\d: 任意一个数字
\D: 除了数字都可以
\s: 表示空格，tab键
\S: 除了空白符号
\w: 单词字符，就是a-z, A-Z, 0-9, _
\W: 除了“\w”表示的都可以
: 表示前面内容重复零次或者多次, \w
+: 表示前面内容至少出现一次
?: 前面才出现的内容零次或者一次
{m,n}: 允许前面内容出现最少m次，最多n次
^: 匹配字符串的开始
$: 匹配字符串的结尾
\b: 匹配单词的边界

(): 对正则表达式内容进行分组，从第一个括号开始，编号逐渐增大

  验证一个数字: ^\d$
  必须有一个数字，最少一位: ^\d+$
  只能出现数字，且位数为5-10位: ^\d{5,10}$
  注册者输入年龄，要求16岁以上，99岁以下:  ^[16,99]$
  只能输入英文字符和数字: ^[A-Za-z0-9]$
  验证qq号码: [0-9]{5,12}

\A: 只匹配字符串开头，\Aabcd, 则abcd
\Z: 只匹配字符串末尾，abcd\Z, abcd
|: 左右任意一个
(?P<name>…): 分组，除了原来的编号再制定一个别名，(?P<id>12345){2}, 1234512345
(?P=name): 引用分组

RE使用大致步骤

使用compile将表示正则的字符串编译为一个pattern对象
通过pattern对象提供一系列方法度文本进行查找匹配，获得匹配结果，一个Match对象
最后使用Match对象提供的属性和方法获得信息，根据需要进行操作

RE常用函数

group(): 获得一个或者多个分组匹配的字符串，当要获得整个匹配的子串时，直接使用group或者group(0)
start: 获取分组匹配的子串在整个字符串中的起始位置，参数默认0
end: 获取分组匹配的子串在整个字符串中的结束位置，默认为0
span: 返回的结构技术(start(group), end(group))

# 导入相关包
import re

# 查找数字
# r表示字符串不转义
p = re.compile(r'\d+')
# 在字符串“one12twothree33456four78”中进行查找，按照规则p制定的正则进行查找
# 返回结果是None表示没有找到，否则会返回match对象
m = p.match("one12twothree33456four78")

print(m)

None

# 导入相关包
import re

# 查找数字
# r表示字符串不转义
p = re.compile(r'\d+')
# 在字符串“one12twothree33456four78”中进行查找，按照规则p制定的正则进行查找
# 返回结果是None表示没有找到，否则会返回match对象
# 参数3,6表示在字符串中查找的范围
m = p.match("one12twothree33456four78", 3, 26)

print(m)

# 上述代码说明的问题
# 1. match可以输入参数表示起始位置
# 2. 查找到的结果只包含一个，表示第一次进行匹配成功的内容

<_sre.SRE_Match object; span=(3, 5), match='12'>

print(m[0])
print(m.start(0))
print(m.end(0))

12
3
5

import re
# I 表示忽略掉大小写
p = re.compile(r'([a-z]+) ([a-z]+)', re.I)

m = p.match("I am really love you")
print(m)

<_sre.SRE_Match object; span=(0, 4), match='I am'>

print(m.group(0))
print(m.start(0))
print(m.end(0))

I am
0
4

print(m.group(1))
print(m.start(1))
print(m.end(1))

I
0
1

print(m.group(2))
print(m.start(2))
print(m.end(2))

am
2
4

print(m.groups())

('I', 'am')

查找

search(str, [, pos[, endpos]]): 在字符串中查找匹配，pos和endpos表示起始位置
findall: 查找所有
finditer：查找，返回一个iter结果

import re

p = re.compile(r'\d+')

m = p.search("one12two34three567four")

print(m.group())

rst = p.findall("one12two34three567four")
print(type(rst))

print(rst)

<class 'list'>
['12', '34', '567']

sub 替换

sub(rep1, str[, count])

# sub替换案例
import re

# \w 包含数字和英文字母
p = re.compile(r'(\w+) (\w+)')

s = "hello 123 wang 456, i love you"

rst = p.sub(r'Hello world', s)
print(rst)

Hello world Hello world, Hello world you

匹配中文

大部分中文表示范围是[u4e00-u9fa5], 不包括全角标点

import re

title = '世界 你好， hello moto'

p = re.compile(r'[\u4e00-\u9fa5]+')
rst = p.findall(title)

print(rst)

['世界', '你好']

贪婪和非贪婪

贪婪：尽可能多的匹配, (*)表示贪婪匹配
非贪婪：找到符合条件的最小内容即可，(?)表示非贪婪
正则默认使用贪婪匹配

import re

title = u'<div>name</div><div>age</div>'

p1 = re.compile(r'<div>.*</div>')
p2 = re.compile(r'<div>.*?</div>')

m1 = p1.search(title)
print(m1.group())

m2 = p2.search(title)
print(m2.group())

<div>name</div><div>age</div>
<div>name</div>

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python 正则表达式

正则表达式（RegularExpression, re）

正则的写法

RE使用大致步骤

RE常用函数

查找

sub 替换

匹配中文

贪婪和非贪婪

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python 正则表达式

正则表达式（RegularExpression, re）

正则的写法

RE使用大致步骤

RE常用函数

查找

sub 替换

匹配中文

贪婪和非贪婪

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品