正则表达式详解:掌握强大的文本处理工具(一)

举报
小馒头学Python 发表于 2023/11/02 19:45:22 2023/11/02
【摘要】 🍀引言正则表达式(Regular Expression)是一种强大的文本处理工具,常用于搜索、匹配和替换操作。它使用一种特定的语法来描述文本模式,并可应用于多种编程语言和文本编辑器中。本博客将详细介绍正则表达式的基本语法、常用操作符和实例应用,帮助你掌握这一强大工具。其实大体来说就是使用表达式将符合条件的字符串进行提取希望我们能从易到难,从语法到实践的思路去学习,把它攻下来🍀正则表达式的...

🍀引言

正则表达式(Regular Expression)是一种强大的文本处理工具,常用于搜索、匹配和替换操作。它使用一种特定的语法来描述文本模式,并可应用于多种编程语言和文本编辑器中。本博客将详细介绍正则表达式的基本语法、常用操作符和实例应用,帮助你掌握这一强大工具。

其实大体来说就是使用表达式将符合条件的字符串进行提取
希望我们能从易到难,从语法到实践的思路去学习,把它攻下来


🍀正则表达式的基本语法

正则表达式由普通字符和特殊字符构成。常见的特殊字符包括元字符、字符类和重复限定符。以下是一些常用的特殊字符:

  • 元字符:用于匹配特定的字符或字符集合,如==.(点)==匹配任意单个字符,\d匹配任意数字等。
  • 字符类:用于匹配一组字符中的任意一个字符,如[abc]匹配字符’a’、‘b’或’c’。
  • 重复限定符:用于指定匹配的次数,如*表示匹配零次或多次,+表示匹配一次或多次等。
    基本语法的了解是学习正则表达式的第一步,它为后续的高级应用打下了基础。

🍀常用操作符

正则表达式中常用的操作符包括:

  • 匹配操作符:^表示匹配字符串开头,$表示匹配字符串结尾。
  • 选择操作符:|表示或操作,用于在多个模式之间选择一个。
  • 分组操作符:()用于将一组模式组合为一个整体,并可对其进行操作,如获取匹配结果、进行重复操作等。

这些操作符的灵活运用,可以实现更复杂的字符串匹配和替换需求


🍀实例应用

正则表达式的应用非常广泛,以下是一些常见场景的实例应用:

  • 邮箱验证:使用正则表达式来验证用户输入的邮箱是否符合规范,如是否包含@符号和顶级域名。
  • URL提取:从一段文本中提取出所有的URL链接,可以使用正则表达式匹配特定的URL模式。
  • 数据清洗:处理文本中的特殊字符、空白符或不规范的格式,使用正则表达式进行替换或删除操作。
  • 日志分析:通过正则表达式匹配特定的日志模式,提取出关键信息,如时间戳、错误代码等。

正则表达式在数据处理、文本搜索和日志分析等领域发挥着重要作用,掌握它将使你的工作更高效、准确。

🍀具体操作演示

  1. 匹配某个字符串:match()
import re

text = 'Hello Word'
result = re.match('H', text)
print(result)

这样输出的结果是一个对象

在这里插入图片描述
只有使用group()方法,才可以将其打印

print(result.group())

在这里插入图片描述
这时如果我们将表达式改一下,那么会打印出结果么

import re

text = 'Hello Word'
result = re.match('H0', text)
print(result.group())

显而易见会报错
在这里插入图片描述

注意:match()是从起始位置进行匹配的

  1. 点(.)

下面进行一些例子演示

import re

text = '1Hello Word'
text1 = '_Hello Word'
text2= '\nHello Word'
result = re.match('.', text)
result1 = re.match('.', text1)
result2 = re.match('.', text2)
print(result.group())
print("*"*10)
print(result1.group())
print("*"*10)
print(result2.group())

运行结果如下
在这里插入图片描述
注意:无法匹配换行符、从起始位置开始匹配

  1. \d匹配任意某个数字
import re

text = '1Hello Word'
text1 = 'Hello8 Word'
text2= 'Hello Word'
result = re.match('\d', text)
result1 = re.match('\d', text1)
result2 = re.match('\d', text2)
print(result.group())
print("*"*10)
print(result1.group())
print("*"*10)
print(result2.group())

运行结果如下
在这里插入图片描述
注意:只能匹配数字、从起始位置开始

  1. \D:除数字外均可匹配
import re

text = '_Hello Word'
text1 = '8Hello Word'
result = re.match('\D', text)
result1 = re.match('\D', text1)
print(result.group())
print(result1.group())

运行结果如下

在这里插入图片描述
注意:除了数字以外的内容均可以匹配、从起始位置开始
\d和\D可以认为是互补的关系

  1. \s(小写):匹配空白字符
import re

text = '\nHello Word'
result = re.match('\s', text)
print(result.group(),len(result.group()))

运行结果如下

在这里插入图片描述
注意:匹配空白字符、从起始位置开始、\n、\t、\r、空格

  1. \w(小写):匹配小写的a-z,大写的A-Z,数字和下划线
import re

text = '\nHello Word'
text1 = 'Hello Word'
result = re.match('\w', text)
result1 = re.match('\w', text1)
print(result1.group())
print(result.group())

运行结果如下
在这里插入图片描述
注意:匹配小写的a-z,大写的A-Z,数字和下划线,从起始位置开始,除去上述的都无法匹配(如中文,中文符号等)

  1. \W:匹配除小写\w之外的所有字符
import re

text = '#Hello Word'
text1 = 'Hello Word'
result = re.match('\W', text)
result1 = re.match('\W', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述

注意:匹配\w以后的所有字符
\w和\W可以认为是互补的

  1. [ ]:->>组合的方式,只要在中括号内的内容均可匹配
import re

text = '#Hello Word'
text1 = 'Hello Word'
result = re.match('[#]', text)
result1 = re.match('[el]', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述
注意:[]内的内容都可以匹配、[]内多个匹配内容时,取“或”,只要匹配对象中年含有其中一个内容就匹配、从起始位置开始

下节继续!

请添加图片描述

挑战与创造都是很痛苦的,但是很充实。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。