字符串及正则表达式

举报
晨犀 发表于 2024/10/24 22:55:57 2024/10/24
【摘要】 简介字符串是编程中的基本数据类型之一,广泛用于文本处理和数据交换。Python 提供了丰富的字符串操作功能,包括长度计算、切片、分割、合并、格式化及编码解码等。掌握这些基本操作将帮助开发者更高效地处理字符串数据。同时,正则表达式(Regex)作为强大的文本匹配工具,能够让我们轻松地进行复杂的字符串搜索和替换。 1、len()函数Len()函数的基本用法如下:len(string)其中,st...

简介

字符串是编程中的基本数据类型之一,广泛用于文本处理和数据交换。Python 提供了丰富的字符串操作功能,包括长度计算、切片、分割、合并、格式化及编码解码等。掌握这些基本操作将帮助开发者更高效地处理字符串数据。同时,正则表达式(Regex)作为强大的文本匹配工具,能够让我们轻松地进行复杂的字符串搜索和替换。

1、len()函数

Len()函数的基本用法如下:

len(string)

其中,string用于指定要进行长度统计的字符串。

2、切片法截取字符串

切片法截取字符串的语法格式如下:

string[start :end :step]

参数说明:

  • string: 表示要截取的字符串。
  • start: 表示要截取的第一个字符的索引(包括该字符),如果不指定,则默认为 0。
  • end: 表示要截取的最后一个字符的索引(不包括该字符),如果不指定则默认为字符串的长度。
  • step: 表示切片的步长,如果省略,则默认为 1,当省略该步长时,最后一个冒号也可以省略。

3、分割字符串

split()方法的语法格式如下:

str.split(sep,maxsplit)

参数说明:

  • str: 表示要进行分割的字符串。
  • sep: 用于指定分隔符,可以包含多个字符,默认为 None,即所有空字符(包括空格、换行、制表符等)。
  • maxsplit: 可选参数,用于指定分割的次数,如果不指定或者为 -1,则分割次数没有限制。

返回值: 分隔后的字符串列表。

4、合并字符串

join0方法的语法格式如下:

strnew=string.join(iterable)

参数说明:

  • strnew: 表示合并后生成的新字符串。
  • string: 字符串类型,用于指定合并时的分隔符。
  • iterable: 可迭代对象,该迭代对象中的所有元素(字符串表示)将被合并为一个新的字符串。

示例:

fruits = ['apple', 'banana', 'cherry']
print(", ".join(fruits))  # 输出: apple, banana, cherry

5、常用的格式化字符

image.png

6、format()方法中常用的格式化字符

format()方法提供了更灵活的字符串格式化方式。

示例:

name = "Alice"
age = 30
print("My name is {} and I am {} years old.".format(name, age))  # 输出: My name is 

image.png

7、使用 encode()方法编码

encode0方法的语法格式如下:

str.encode([encoding="utf-8"], [errors="strict"])

参数说明:

  • str: 表示要进行转换的字符串。
  • encoding: 可选参数,用于指定进行转码时采用的字符编码,默认为 UTF-8,如果想使用简体中文,也可以设置为 gb2312。当只有这一个参数时,也可以省略前面的“encoding-”,直接写编码。
  • errors: 可选参数,用于指定错误处理方式,其可选择值可以是 strict(遇到非法字符就抛出异常)、ignore(忽略非法字符)、replace(用“?”替换非法字符)或 xmlcharrefreplace(使用 XML 的字符引用)等,默认值为 strict。

8、使用 decode()方法解码

decode()方法的语法格式如下:

bytes.decode([encoding="utf-8"], [errors="strict"])

参数说明:

  • bytes: 表示要进行转换的二进制数据,通常是 encode()方法转换的结果。
  • encoding: 可选参数,用于指定进行解码时采用的字符编码,默认为 UTF-8。

示例:

encoded_text = b'\xe4\xbd\xa0\xe5\xa5\xbd'
decoded_text = encoded_text.decode("utf-8")
print(decoded_text)  # 输出: 你好

9、常用元字符

image.png

10、常用限定符

image.png

总结

通过掌握字符串的基本操作和正则表达式的使用,开发者可以高效地处理各种文本数据。无论是数据清洗、格式化,还是信息提取和替换,字符串操作都是至关重要的技能。

注意事项

  1. 在使用split()时,注意分隔符的选择,以免造成意外的分割结果。
  2. 使用join()时,确保可迭代对象中的所有元素都是字符串类型,否则会引发 TypeError。
  3. 在进行编码和解码时,选择合适的编码格式,确保字符的正确显示,尤其是在处理中文等非ASCII字符时。
  4. 当处理较大的字符串数据时,注意内存管理,避免内存溢出的问题。
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。