【C++ regex】C++正则表达式

举报
人才程序员 发表于 2024/01/29 08:22:49 2024/01/29
【摘要】 @TOC 前言正则表达式是一种强大的文本模式匹配工具,它在字符串处理中具有广泛的应用。C++11引入了标准库的 <regex> 头文件,提供了内置的正则表达式支持,使得在C++中进行字符串匹配和处理变得更为便捷和高效。在本文中,我们将深入探讨C++中正则表达式的基础知识以及 <regex> 库的使用方式。我们将介绍正则表达式的基本概念,然后逐步介绍C++中regex库的各种函数及其用法,并通...

@TOC


前言

正则表达式是一种强大的文本模式匹配工具,它在字符串处理中具有广泛的应用。C++11引入了标准库的 <regex> 头文件,提供了内置的正则表达式支持,使得在C++中进行字符串匹配和处理变得更为便捷和高效。

在本文中,我们将深入探讨C++中正则表达式的基础知识以及 <regex> 库的使用方式。我们将介绍正则表达式的基本概念,然后逐步介绍C++中regex库的各种函数及其用法,并通过示例代码演示其实际应用。


一、正则表达式是什么?

正则表达式是一种描述字符模式的方法,它可以用于字符串的搜索、匹配和替换。它是由字符和特殊字符组成的字符串,定义了一种搜索模式。例如,正则表达式可以用于验证电子邮件地址、提取文本中的特定信息等。

二、<regex>库的基础使用

2.1 第一个示例

C++的 <regex> 头文件引入了正则表达式的支持,其中包括了 std::regex 类以及一系列与正则表达式相关的函数。下面是一个简单的基础使用例子:

#include <iostream>
#include <regex>

int main() {
    std::string text = "Hello, World!";

    // 定义正则表达式模式
    std::regex pattern("W[a-z]+");

    // 使用 std::regex_search 进行匹配
    if (std::regex_search(text, pattern)) {
        std::cout << "Pattern found in the text." << std::endl;
    } else {
        std::cout << "Pattern not found in the text." << std::endl;
    }

    return 0;
}

在这里插入图片描述

regex 的构造函数参数为你要匹配的规则
regex_search函数参数1是你输入的字符,参数二是匹配模式,返回值为是否找到,true/false

在上面的例子中,我们使用 std::regex 类定义了一个正则表达式模式,并使用 std::regex_search 函数在字符串中进行匹配。

2.1 <regex>库的函数详解

std::regex_match

函数原型:

template <class BiIter, class Alloc, class CharT, class Traits>
bool regex_match(BiIter first, BiIter last, std::match_results<BiIter, Alloc>& m, const std::basic_regex<CharT, Traits>& e, std::regex_constants::match_flag_type flags = std::regex_constants::match_default);

参数:

first,last:迭代器范围,指定要搜索的字符串。
m:用于存储匹配结果的 std::match_results 对象。
std::smatch 是 C++ 标准库中与正则表达式匹配结果相关的类型之一。它是 std::match_results 模板类的一个特化版本,用于存储正则表达式的匹配结果。具体来说,std::smatch 用于存储字符串中与正则表达式匹配的子字符串的信息。

在正则表达式的匹配过程中,std::smatch 对象可以捕获并保存匹配的子字符串及其位置信息。这样的对象通常是由正则表达式搜索函数(如 std::regex_search)的参数之一,用于获取匹配的详细信息。

e:要匹配的正则表达式对象。
flags:匹配标志,控制匹配的方式。
返回值:

如果整个范围匹配正则表达式,则返回 true,否则返回 false。
示例代码:

std::string input = "12345";
std::regex pattern("\\d+");

std::smatch matches;
if (std::regex_match(input, matches, pattern)) {
    std::cout << "Input is a number." << std::endl;
} else {
    std::cout << "Input is not a number." << std::endl;
}

在这里插入图片描述

std::regex_search

函数原型:

template <class BiIter, class Alloc, class CharT, class Traits>
bool regex_search(BiIter first, BiIter last, std::match_results<BiIter, Alloc>& m, const std::basic_regex<CharT, Traits>& e, std::regex_constants::match_flag_type flags = std::regex_constants::match_default);

参数:

first,last:迭代器范围,指定要搜索的字符串。
m:用于存储匹配结果的 std::match_results 对象。
e:要匹配的正则表达式对象。
flags:匹配标志,控制匹配的方式。
返回值:

如果字符串中的任何部分匹配正则表达式,则返回 true,否则返回 false。
示例代码:

std::string text = "The cat is on the mat.";
std::regex pattern("cat");

std::smatch matches;
if (std::regex_search(text, matches, pattern)) {
    std::cout << "Pattern found in the text." << std::endl;
} else {
    std::cout << "Pattern not found in the text." << std::endl;
}

在这里插入图片描述

regex_search 和 regex_match 的区别

std::regex_search 和 std::regex_match 是 C++ 标准库中用于正则表达式匹配的两个函数,它们之间有一些重要的区别:

全文匹配 vs. 部分匹配:

std::regex_match 要求整个输入字符串完全匹配正则表达式。如果整个字符串与正则表达式匹配,它返回 true;否则,返回 false。
std::regex_search 则在输入字符串中查找任意匹配项。只要找到字符串中的任意子串与正则表达式匹配,就返回 true;否则,返回 false。
匹配的起始位置:

std::regex_match 从字符串的起始位置开始匹配,直到整个字符串结束。如果正则表达式没有匹配整个字符串,它返回 false。
std::regex_search 可以在字符串的任意位置找到匹配项。它会尝试在整个字符串中查找匹配,而不仅仅是从起始位置开始。
下面是一个简单的例子来说明它们之间的区别:

#include <iostream>
#include <regex>

int main() {
    std::string text = "Hello world";

    // 正则表达式匹配整个字符串
    std::regex pattern_match("Hello world");
    std::regex pattern_search("world");

    // 使用 std::regex_match
    if (std::regex_match(text, pattern_match)) {
        std::cout << "regex_match: Entire string matches." << std::endl;
    } else {
        std::cout << "regex_match: Entire string does not match." << std::endl;
    }

    // 使用 std::regex_search
    if (std::regex_search(text, pattern_search)) {
        std::cout << "regex_search: Substring found." << std::endl;
    } else {
        std::cout << "regex_search: Substring not found." << std::endl;
    }

    return 0;
}

在这里插入图片描述

在这个例子中,std::regex_match 尝试匹配整个字符串,而 std::regex_search 只需找到字符串中的任意子串与正则表达式匹配即可。

std::regex_replace

功能:用于替换字符串中与正则表达式匹配的部分。

示例:

#include <iostream>
#include <regex>

int main() {
    std::string text = "The price is $10.50";
    std::regex pattern("\\$[0-9]+\\.[0-9]{2}");

    std::string result = std::regex_replace(text, pattern, "*****");
    std::cout << "Modified string: " << result << std::endl;

    return 0;
}

在这里插入图片描述

std::regex_iterator 和 std::sregex_iterator:

功能:允许你迭代遍历一个字符串中所有匹配正则表达式的子串。

示例:

#include <iostream>
#include <regex>

int main() {
    std::string text = "The cat and the hat";

    std::regex pattern("\\b\\w+at\\b");
    std::sregex_iterator iter(text.begin(), text.end(), pattern);
    std::sregex_iterator end;

    while (iter != end) {
        std::cout << "Match: " << iter->str() << std::endl;
        ++iter;
    }

    return 0;
}

在这里插入图片描述

std::regex_constants::match_flag_type:

功能:提供了一些匹配标志,例如 std::regex_constants::match_default 和 std::regex_constants::match_not_bol,可用于修改匹配的行为。

示例:

#include <iostream>
#include <regex>

int main() {
    std::string text = "apple orange banana";
    std::regex pattern("orange");

    // 使用 match_not_bol 避免从行首开始匹配
    std::regex_constants::match_flag_type flags = std::regex_constants::match_not_bol;

    if (std::regex_search(text, pattern, flags)) {
        std::cout << "Substring found." << std::endl;
    } else {
        std::cout << "Substring not found." << std::endl;
    }

    return 0;
}

在这里插入图片描述

这些函数和特性可以帮助你更灵活地处理正则表达式,适应不同的匹配和替换需求。请注意,正则表达式的语法和使用可能因实际需求而有所不同。


总结

C++的 <regex> 库为处理正则表达式提供了强大的工具。通过学习和理解正则表达式的基础知识以及regex库的函数,我们能够更加高效地在字符串中进行搜索、匹配和替换操作。不同的正则表达式函数提供了灵活的方式来满足不同的匹配需求,而对于更复杂的模式匹配,我们可以利用具体的匹配结果对象进行更深入的分析和处理。正则表达式在文本处理领域有着广泛的应用,掌握这一部分知识将对C++开发者有着重要的意义。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。