- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

(更新时间)2021年3月31日 python基础知识(re模块的使用)

愚公搬代码发表于 2021/10/19 00:34:44 2021/10/19

【摘要】一：re模块介绍 1. re模块的介绍在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个 re 模块 # 导入re模块 import re # 使用match方法进行匹配操作...

一：re模块介绍

1. re模块的介绍

在Python中需要通过正则表达式对字符串进行匹配的时候，可以使用一个 re 模块

# 导入re模块
import re

# 使用match方法进行匹配操作
result = re.match(正则表达式,要匹配的字符串)

# 如果上一步匹配到数据的话，可以使用group方法来提取数据
result.group()

  
 
  1
  2
  3
  4
  5
  6
  7
  8

2. re模块的使用

import re


# 使用match方法进行匹配操作
result = re.match("itcast","itcast.cn")
# 获取匹配结果
info = result.group()
print(info)

  
 
  1
  2
  3
  4
  5
  6
  7
  8

运行结果:

itcast

  
 
  1

3. 小结

re.match() 根据正则表达式从头开始匹配字符串数据

二：匹配单个字符

1. 匹配单个字符

在上一小节中，了解到通过re模块能够完成使用正则表达式来匹配字符串

本小节，将要讲解正则表达式的单字符匹配

代码	功能
.	匹配任意1个字符（除了\n）
[ ]	匹配[ ]中列举的字符
\d	匹配数字，即0-9
\D	匹配非数字，即不是数字
\s	匹配空白，即空格，tab键
\S	匹配非空白
\w	匹配非特殊字符，即a-z、A-Z、0-9、_、汉字
\W	匹配特殊字符，即非字母、非数字、非汉字

示例1： .

import re

ret = re.match(".","M")
print(ret.group())

ret = re.match("t.o","too")
print(ret.group())

ret = re.match("t.o","two")
print(ret.group())

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10

运行结果：

M
too
two

  
 
  1
  2
  3

示例2：[]

import re

# 如果hello的首字符小写，那么正则表达式需要小写的h
ret = re.match("h","hello Python") 
print(ret.group())


# 如果hello的首字符大写，那么正则表达式需要大写的H
ret = re.match("H","Hello Python") 
print(ret.group())

# 大小写h都可以的情况
ret = re.match("[hH]","hello Python")
print(ret.group())
ret = re.match("[hH]","Hello Python")
print(ret.group())
ret = re.match("[hH]ello Python","Hello Python")
print(ret.group())

# 匹配0到9第一种写法
ret = re.match("[0123456789]Hello Python","7Hello Python")
print(ret.group())

# 匹配0到9第二种写法
ret = re.match("[0-9]Hello Python","7Hello Python")
print(ret.group())

ret = re.match("[0-35-9]Hello Python","7Hello Python")
print(ret.group())

# 下面这个正则不能够匹配到数字4，因此ret为None
ret = re.match("[0-35-9]Hello Python","4Hello Python")
# print(ret.group())

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33

运行结果：

h
H
h
H
Hello Python
7Hello Python
7Hello Python
7Hello Python

  
 
  1
  2
  3
  4
  5
  6
  7
  8

示例3：\d

import re

# 普通的匹配方式
ret = re.match("嫦娥1号","嫦娥1号发射成功") 
print(ret.group())

ret = re.match("嫦娥2号","嫦娥2号发射成功") 
print(ret.group())

ret = re.match("嫦娥3号","嫦娥3号发射成功") 
print(ret.group())

# 使用\d进行匹配
ret = re.match("嫦娥\d号","嫦娥1号发射成功") 
print(ret.group())

ret = re.match("嫦娥\d号","嫦娥2号发射成功") 
print(ret.group())

ret = re.match("嫦娥\d号","嫦娥3号发射成功") 
print(ret.group())

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21

运行结果：

嫦娥1号
嫦娥2号
嫦娥3号
嫦娥1号
嫦娥2号
嫦娥3号

  
 
  1
  2
  3
  4
  5
  6

示例4：\D

import re

match_obj = re.match("\D", "f")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8

运行结果:

示例5：\s

import re

# 空格属于空白字符
match_obj = re.match("hello\sworld", "hello world")
if match_obj:
    result = match_obj.group()
    print(result)
else:
    print("匹配失败")



# \t 属于空白字符
match_obj = re.match("hello\sworld", "hello\tworld")
if match_obj:
    result = match_obj.group()
    print(result)
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19

运行结果:

hello world
hello world

  
 
  1
  2

示例6：\S

import re

match_obj = re.match("hello\Sworld", "hello&world")
if match_obj:
result = match_obj.group()
print(result)
else:
print("匹配失败")



match_obj = re.match("hello\Sworld", "hello$world")
if match_obj:
result = match_obj.group()
print(result)
else:
print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17

运行结果:

hello&world  
hello$world

  
 
  1
  2

示例7：\w

import re

# 匹配非特殊字符中的一位
match_obj = re.match("\w", "A")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9

执行结果:

示例8：\W

# 匹配特殊字符中的一位
match_obj = re.match("\W", "&")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7

执行结果:

小结

. 表示匹配任意1个字符（除了\n）
表示匹配[ ]中列举的1个字符
\d 表示匹配一个数字，即0-9
\D 表示匹配一个非数字，即不是数字
\s 表示匹配一个空白字符，即空格，tab键
\S | 匹配一个非空白字符
\w | 匹配一个非特殊字符，即a-z、A-Z、0-9、_、汉字
\W | 匹配一个特殊字符，即非字母、非数字、非汉字

三：匹配多个字符

1. 匹配多个字符

代码	功能
*	匹配前一个字符出现0次或者无限次，即可有可无
+	匹配前一个字符出现1次或者无限次，即至少有1次
?	匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}	匹配前一个字符出现m次
{m,n}	匹配前一个字符出现从m到n次

示例1：*
需求：匹配出一个字符串第一个字母为大小字符，后面都是小写字母并且这些小写字母可有可无

import re

ret = re.match("[A-Z][a-z]*","M")
print(ret.group())

ret = re.match("[A-Z][a-z]*","MnnM")
print(ret.group())

ret = re.match("[A-Z][a-z]*","Aabcdef")
print(ret.group())

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10

运行结果：

M
Mnn
Aabcdef

  
 
  1
  2
  3

示例2：+
需求：匹配一个字符串，第一个字符是t,最后一个字符串是o,中间至少有一个字符

import re


match_obj = re.match("t.+o", "two")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8

运行结果：

two

  
 
  1

示例3：?
需求：匹配出这样的数据，但是https 这个s可能有，也可能是http 这个s没有

import re

match_obj = re.match("https?", "http")
if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7

运行结果：

https

  
 
  1

示例4：{m}、{m,n}
需求：匹配出，8到20位的密码，可以是大小写英文字母、数字、下划线

import re


ret = re.match("[a-zA-Z0-9_]{6}","12a3g45678")
print(ret.group())

ret = re.match("[a-zA-Z0-9_]{8,20}","1ad12f23s34455ff66")
print(ret.group())

  
 
  1
  2
  3
  4
  5
  6
  7
  8

运行结果：

12a3g4
1ad12f23s34455ff66

  
 
  1
  2

2. 小结

*表示匹配前一个字符出现0次或者无限次，即可有可无
+表示匹配前一个字符出现1次或者无限次，即至少有1次
?表示匹配前一个字符出现1次或者0次，即要么有1次，要么没有
{m}表示匹配前一个字符出现m次
{m,n}表示匹配前一个字符出现从m到n次

三：匹配开头和结尾

1. 匹配开头和结尾

代码	功能
^	匹配字符串开头
$	匹配字符串结尾

示例1：^
需求：匹配以数字开头的数据

import re

# 匹配以数字开头的数据
match_obj = re.match("^\d.*", "3hello")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9

运行结果:

3hello

  
 
  1

示例2：$
需求: 匹配以数字结尾的数据

import re
# 匹配以数字结尾的数据
match_obj = re.match(".*\d$", "hello5")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8

运行结果：

hello5

  
 
  1

示例3：^ 和 $
需求: 匹配以数字开头中间内容不管以数字结尾

match_obj = re.match("^\d.*\d$", "4hello4")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6

运行结果:

4hello4

  
 
  1

2.除了指定字符以外都匹配

需求: 第一个字符除了aeiou的字符都匹配

import re


match_obj = re.match("[^aeiou]", "h")
if match_obj:
    # 获取匹配结果
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9

执行结果

3. 小结

^ 表示匹配字符串开头
$ 表示匹配字符串结尾

三：匹配分组

1. 匹配分组相关正则表达式

代码	功能
l	匹配左右任意一个表达式
(ab)	将括号中字符作为一个分组
\num	引用分组num匹配到的字符串
(?P)	分组起别名
(?P=name)	引用别名为name分组匹配到的字符串

示例1：|
需求：在列表中[“apple”, “banana”, “orange”, “pear”]，匹配apple和pear

import re

# 水果列表
fruit_list = ["apple", "banana", "orange", "pear"]

# 遍历数据
for value in fruit_list:
    # |    匹配左右任意一个表达式
    match_obj = re.match("apple|pear", value)
    if match_obj:
        print("%s是我想要的" % match_obj.group())
    else:
        print("%s不是我要的" % value)

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13

执行结果:

apple是我想要的
banana不是我要的
orange不是我要的
pear是我想要的

  
 
  1
  2
  3
  4

示例2：( )
需求：匹配出163、126、qq等邮箱

import re

match_obj = re.match("[a-zA-Z0-9_]{4,20}@(163|126|qq|sina|yahoo)\.com", "hello@163.com")
if match_obj:
    print(match_obj.group())
    # 获取分组数据
    print(match_obj.group(1))
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9

执行结果:

hello@163.com
163

  
 
  1
  2

需求: 匹配qq:10567这样的数据，提取出来qq文字和qq号码

import re

match_obj = re.match("(qq):([1-9]\d{4,10})", "qq:10567")

if match_obj:
    print(match_obj.group())
    # 分组:默认是1一个分组，多个分组从左到右依次加1
    print(match_obj.group(1))
    # 提取第二个分组数据
    print(match_obj.group(2))
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12

执行结果:

示例3：\num
需求：匹配出hh

match_obj = re.match("<[a-zA-Z1-6]+>.*</[a-zA-Z1-6]+>", "<html>hh</div>")

if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

match_obj = re.match("<([a-zA-Z1-6]+)>.*</\\1>", "<html>hh</html>")

if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13

运行结果：

<html>hh</div>
<html>hh</html>

  
 
  1
  2

需求：匹配出

www.itcast.cn

match_obj = re.match("<([a-zA-Z1-6]+)><([a-zA-Z1-6]+)>.*</\\2></\\1>", "<html><h1>www.itcast.cn</h1></html>")

if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6

运行结果：

<html><h1>www.itcast.cn</h1></html>

  
 
  1

示例4：(?P) (?P=name)
需求：匹配出

www.itcast.cn

match_obj = re.match("<(?P<name1>[a-zA-Z1-6]+)><(?P<name2>[a-zA-Z1-6]+)>.*</(?P=name2)></(?P=name1)>", "<html><h1>www.itcast.cn</h1></html>")

if match_obj:
    print(match_obj.group())
else:
    print("匹配失败")

  
 
  1
  2
  3
  4
  5
  6

运行结果：

<html><h1>www.itcast.cn</h1></html>

  
 
  1

2. 小结

| 表示匹配左右任意一个表达式
(ab) 表示将括号中字符作为一个分组
\num 表示引用分组num匹配到的字符串
(?P) 表示分组起别名
(?P=name) 表示引用别名为name分组匹配到的字符串
(分组数据)：分组数是从左到右的方式进行分配的，最左边的是第一个分组，依次类推

文章来源: codeboy.blog.csdn.net，作者：愚公搬代码，版权归原作者所有，如需转载，请联系作者。

原文链接：codeboy.blog.csdn.net/article/details/115325449

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

(更新时间)2021年3月31日 python基础知识(re模块的使用)

一：re模块介绍

1. re模块的介绍

2. re模块的使用

3. 小结

二：匹配单个字符

1. 匹配单个字符

小结

三：匹配多个字符

1. 匹配多个字符

2. 小结

三：匹配开头和结尾

1. 匹配开头和结尾

2.除了指定字符以外都匹配

3. 小结

三：匹配分组

1. 匹配分组相关正则表达式

www.itcast.cn

www.itcast.cn

2. 小结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

(更新时间)2021年3月31日 python基础知识(re模块的使用)

一：re模块介绍

1. re模块的介绍

2. re模块的使用

3. 小结

二：匹配单个字符

1. 匹配单个字符

小结

三：匹配多个字符

1. 匹配多个字符

2. 小结

三：匹配开头和结尾

1. 匹配开头和结尾

2.除了指定字符以外都匹配

3. 小结

三：匹配分组

1. 匹配分组相关正则表达式

www.itcast.cn

www.itcast.cn

2. 小结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品