- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

正则表达式详解：掌握强大的文本处理工具（二）

小馒头学Python 发表于 2023/11/02 19:46:12 2023/11/02

【摘要】 🍀多字符匹配星号（*）：匹配0个或者多个字符import retext = '111-222-333'result = re.match('[\d]', text) # 没有*，匹配第一个result1 = re.match('[\d]*', text) # 有*，从起始位置开始，匹配0或者多次result2 = re.match('[-\d]*', text) # 有*，从起始位置...

🍀多字符匹配

星号（*）：匹配0个或者多个字符

import re

text = '111-222-333'
result = re.match('[\d]', text) # 没有*，匹配第一个
result1 = re.match('[\d]*', text)  # 有*，从起始位置开始，匹配0或者多次
result2 = re.match('[-\d]*', text)   # 有*，从起始位置开始，匹配0或者多次
result3 = re.match('[-]*', text)  # 有*，从起始位置开始，匹配0或者多次
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))
print(result2.group(),len(result2.group()))
print(result3.group(),len(result3.group()))

运行结果如下

注意:匹配不出来，只不过是空，并不会报错

加号（+）：匹配一个或者多个

text = 'Q111-222-333'
result = re.match('[Q\d]+', text)
result1 = re.match('[\d]+', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))

运行结果如下

注意：有+，对[]里的内容匹配一次或者多次（至少一次）、从起始位置开始

问号（？）：匹配0个或者1个

text = 'Q111-222-333'
result = re.match('[Q\d]?', text)
result1 = re.match('[\d]?', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))

运行结果如下

注意：从起始位置开始，和*有一点相近

{m}：匹配指定个数m

text = 'Q111-222-333'
result = re.match('[Q\d]{2}', text)
result1 = re.match('[Q\d]{5}', text)
print(result.group(),len(result.group()))
print(result1.group(1),len(result1.group()))

运行结果如下

注意：从起始位置

{m,n}：匹配m到n个，默认匹配最多次

text = '111-222-333'
text1 = '111-2^22-333'
result = re.match('[-\d]{2,8}', text)
result1 = re.match('[-\d]{2,8}', text1)
print(result.group())
print(result1.group())

运行结果如下

注意：若内容存在不属于规则的内容，则停止，直接输出

🍀匹配规则的代替

\d------[0-9]：匹配所有的数字

text = '111-222-333'
result = re.match('[-0-9]*', text)
print(result.group())

运行结果如下

注意：这里经常与（*）进行搭配，进而匹配多次数字

\D----[^0-9]：匹配所有的非数字

text = '111-222-333'
result = re.match('[^0-9]+', text)
print(result.group())

运行结果如下

注意：这里经常配合+（1次或多次），匹配1次或多次非数字字符；其实也可以配合*（0次或多次），匹配0次或多次非数字字符

\w-----[0-9a-zA-Z_]:匹配所有数字、字母、下划线

text = '111-222-333'
result = re.match('[0-9a-zA-Z_]+', text)
print(result.group())

运行结果如下

注意：减号不在匹配范围之内

\W-----[^0-9a-zA-Z]:匹配所有非数字、字母和下划线

text = '111-222-333'
result = re.match('[^0-9a-zA-Z_]+', text)
print(result.group())

运行结果如下

注意：这里和之前那个有相似之处，主要是因为+，这里的+是匹配至少一次，然而一开始检索就没找到，自然报错了

[\d\D]、[\w\W]：匹配所有的字符

text = '111-222-333'
result = re.match('[\w\W]+', text)
print(result.group())

运行结果如下

所以说还是这个牛吧

🍀特殊的匹配

例子如下：

text = '111-222-333'
text1 = '....111-222-333'
result = re.match('[.]+', text)
result1 = re.match('.+', text)
result2= re.match('[.]+', text1)
print(result1.group())
print('*')
print(result2.group())
print('*')
print(result.group())

运行结果如下

注意：去掉中括号后，点表示所有字符再配上+匹配所有字符，但是中括号加上点后代表的就是匹配点了，然而text1并没有，所有遵循+的规则至少一个，所以报错

感兴趣的小伙伴可以自己试着来，将手机号、邮箱、身份证号码的规则自己写出来

🍀特殊的匹配plus

全局遍历

text = 'Hello HeWord'
result = re.search('He', text)
print(result.group())

运行结果如下

注意：search（）是从左到右进行字符串遍历，找到就返回，若后续再出现，也不再返回结果

$：以某某为结尾

text = 'HelloHeWord@163.com'
result = re.search('[\w]+@[a-z0-9]+[.]com$', text)
print(result.group())

运行结果如下

注意：以com为结尾提取数据，若不是以该词结尾就会报错

|：匹配多个表达式或者字符串

text = 'https://www.baidu.com'
result = re.search('[https|http]',text)
print(result.group())

运行结果如下

text = 'https://www.baidu.com'
result = re.search('[https|http]+',text)
print(result.group())

运行结果如下

text = 'https://www.baidu.com'
result = re.search('(https|http)',text)
print(result.group())

运行结果如下

综上所述：中括号是将里面看成一个字符串，小括号则以|为标准分层若干字符串

🍀总结

本节介绍了多字符匹配，其中包括星号、加号等；匹配规则的代替，例如\d可以使用[0-9]代替使用；以及特殊的匹配。下节介绍贪婪模式与非贪婪模式，曾有大佬说明，不了解贪婪模式和非贪婪模式，就无法进行爬虫

如果没看过正则表达式详解：掌握强大的文本处理工具（二）的小伙伴，可以看看，感谢支持！！！

挑战与创造都是很痛苦的，但是很充实。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

正则表达式详解：掌握强大的文本处理工具（二）

🍀多字符匹配

🍀匹配规则的代替

🍀特殊的匹配

🍀特殊的匹配plus

🍀总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

正则表达式详解：掌握强大的文本处理工具（二）

🍀多字符匹配

🍀匹配规则的代替

🍀特殊的匹配

🍀特殊的匹配plus

🍀总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品