- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【数据结构与算法】之深入解析“正则表达式匹配”的求解思路与算法示例

Serendipity·y 发表于 2022/02/17 01:00:19 2022/02/17

【摘要】一、题目要求给你一个字符串 s 和一个字符规律 p，请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配： ‘.’ 匹配任意单个字符； ‘*’ 匹配零个或多个前面的那一个元素。所谓...

一、题目要求

给你一个字符串 s 和一个字符规律 p，请你来实现一个支持 ‘.’ 和 ‘*’ 的正则表达式匹配：
- ‘.’ 匹配任意单个字符；
- ‘*’ 匹配零个或多个前面的那一个元素。
所谓匹配，是要涵盖整个字符串 s 的，而不是部分字符串。
示例 1：

输入：s = "aa" p = "a"
输出：false
解释："a" 无法匹配 "aa" 整个字符串。

  
 
  1
  2
  3

示例 2:

输入：s = "aa" p = "a*"
输出：true
解释：因为 '*' 代表可以匹配零个或多个前面的那一个元素, 在这里前面的元素就是 'a'。因此，字符串 "aa" 可被视为 'a' 重复了一次。

  
 
  1
  2
  3

示例 3：

输入：s = "ab" p = ".*"
输出：true
解释：".*" 表示可匹配零个或多个（'*'）任意字符（'.'）。

  
 
  1
  2
  3

示例 4：

输入：s = "aab" p = "c*a*b"
输出：true
解释：因为 '*' 表示零个或多个，这里 'c' 为 0 个, 'a' 被重复一次。因此可以匹配字符串 "aab"。

  
 
  1
  2
  3

示例 5：

输入：s = "mississippi" p = "mis*is*p*."
输出：false

  
 
  1
  2

提示：
- 1 <= s.length <= 20；
- 1 <= p.length <= 30；
- s 只含小写英文字母；
- p 只含小写英文字母，以及字符 . 和 *；
- 保证每次出现字符 * 时，前面都匹配到有效的字符。

二、求解算法

① 动态规划

明确状态 dp[i][j] 的含义：

dp[i][j]: 表示s的前i个字符与p的前j个字符是否匹配，结果用boolean类型表示。

  
 
  1

分析状态转移方程：
- 对于 p，其只可能有三种情况：
- - 小写字母a-z；
- - 点号’.’；
- - 星号’*’；
- p 是小写字母，那么只需要判断 s[i] 是否等于 p[j]：
- - dp[i][j] = dp[i - 1][j - 1]; (s[i] == p[j])
- - dp[i][j] = false; (s[i] != p[j])
- 由于 p == ‘.’，因此 p 可以匹配任一字符，所以：dp[i][j] = dp[i - 1][j - 1]；
- p 是’ * '，对于 ‘x*’ 意思是：匹配零次或多次 x，因此也是最复杂的情况，对于 s[i] 和 p[j-1]，可以再细分为两种情况：
- - s[i] 与 p[j-1] 不匹配：
- - - 对于不匹配来讲，也就是 ‘x*’ 匹配零次，即不使用 ‘x*’，所以此时的状态转移方程为： dp[i][j] = dp[i][j - 2]。
- - - 不匹配条件表示为 s[i] != p[j-1]，但是只是如此吗？不是的，如果 p[j-1] 是点号’.'的话，那也是匹配的，所以：dp[i][j] = dp[i][j - 2]; (s[i] != p[j-1] && p[j-1] != ‘.’)；
- - s[i] 与 p[j-1] 匹配：
- - - 对于匹配的情况而言，可以是匹配多次（dp[i][j] = dp[i-1][j]），也可以是匹配一次（dp[i][j] = dp[i][j-1]），但是匹配多次是包含了匹配一次的情况，例如：s = “afs”，p = “afs*”，匹配多次：dp[3][4] = dp[2][4]，匹配一次：dp[3][4] = dp[3][3]；
- - - 其实结果上是一样的，都是 true，只不过这里 dp[2][4] 表示不使用 “s*” 时，s 与 p 匹配，而 dp[3][3] 是直接匹配。所以由上得到此种情况下的结论：dp[i][j] = dp[i-1][j]？
- - - 显然漏掉一种情况，这里也是最重要的地方，也就是如果 p[j-1] 是 ‘.’ 呢，那既然 '.’ 可以表示任意一段字符串，有什么问题呢？例如：s = “ab”，p = "ab."，dp[2][4] 应该是 true，但是按照上面的写法的话 dp[2][4] = dp[1][4] 就是 false，这里应该匹配零次 “.*”，即：dp[2][4] = dp[2][2]。因此，正确的结论是：dp[i][j] = dp[i-1][j] || dp[i][j - 2];
明确基本情况：

dp[0][0] = true;
dp[i][0] = false; (i > 0)
dp[0][j](j > 0)可能为true
	  如：s = "", p = "a*"是匹配的

dp[0][0] = true;
for (int j = 1; j <= n; j++) {
	// dp[0][j]有可能为true，即有x*的时候可以省略
	if (p.charAt(j - 1) == '*')
		dp[0][j] = dp[0][j - 2];
	}   

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11

Java 示例：

    public boolean isMatch(String s, String p) {
        int m = s.length(), n = p.length();
        boolean[][] dp = new boolean[m + 1][n + 1];
        // base case
        // dp[i][0] = false;
        dp[0][0] = true;
        for (int j = 1; j <= n; j++) {
            // dp[0][j]有可能为true，即有x*的时候可以省略
            if (p.charAt(j - 1) == '*')
                dp[0][j] = dp[0][j - 2];
        }

        for (int i = 1; i <= m; i++) {
            for (int j = 1; j <= n; j++) {
                char si = s.charAt(i - 1), pj = p.charAt(j - 1);
                if ('a' <= pj && pj <= 'z'){
                    if (si == pj)
                        dp[i][j] = dp[i - 1][j - 1];
                } else if (pj == '.'){
                    dp[i][j] = dp[i - 1][j - 1];
                } else {
                    char pre_pj = p.charAt(j - 2);
                    if (si != pre_pj && pre_pj != '.'){
                        dp[i][j] = dp[i][j - 2];
                    } else {
                        // 这里要加上dp[i][j - 2]是针对于p[j]前一个是'.'的情况
                        // 如：s = “af”，p = "af.*"，dp[2][4]应该是true，所以此时dp[2][4] = dp[2][2];
                        // 如：s = “afs”，p = "af.*"，dp[3][4]也是true，但是此时dp[3][4] = dp[2][4];
                        dp[i][j] = dp[i - 1][j] || dp[i][j - 2];
                    }
                }
            }
        }
        return dp[m][n];
    }

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35

② 动态规划（LeetCode 官方解法）

题目中的匹配是一个「逐步匹配」的过程：每次从字符串 p 中取出一个字符或者「字符 + 星号」的组合，并在 s 中进行匹配。对于 p 中一个字符而言，它只能在 s 中匹配一个字符，匹配的方法具有唯一性；而对于 p 中字符 + 星号的组合而言，它可以在 s 中匹配任意自然数个字符，并不具有唯一性。因此可以考虑使用动态规划，对匹配的方案进行枚举。
用 f[i][j] 表示 s 的前 i 个字符与 p 中的前 j 个字符是否能够匹配，在进行状态转移时，考虑 p 的第 j 个字符的匹配情况：
- 如果 p 的第 j 个字符是一个小写字母，那么必须在 s 中匹配一个相同的小写字母，也就是说，如果 s 的第 i 个字符与 p 的第 j 个字符不相同，那么无法进行匹配；否则可以匹配两个字符串的最后一个字符，完整的匹配结果取决于两个字符串前面的部分：

- 如果 p 的第 j 个字符是 *，那么就表示可以对 p 的第 j−1 个字符匹配任意自然数次，在匹配 0 次的情况下有：

- - 也就是「浪费」了一个字符 + 星号的组合，没有匹配任何 s 中的字符。在匹配 1,2,3,⋯ 次的情况下，类似地有：

- - 如果通过这种方法进行转移，那么就需要枚举这个组合到底匹配了 s 中的几个字符，会增导致时间复杂度增加，并且代码编写起来十分麻烦。不妨换个角度考虑这个问题：字母 + 星号的组合在匹配的过程中，本质上只会有两种情况：
- - - 匹配 s 末尾的一个字符，将该字符扔掉，而该组合还可以继续进行匹配；
- - - 不匹配字符，将该组合扔掉，不再进行匹配。
- - 如果按照这个角度进行思考，可以写出很精巧的状态转移方程：

- 在任意情况下，只要 p[j] 是 .，那么 p[j] 一定成功匹配 s 中的任意一个小写字母。
最终的状态转移方程如下：

- 其中 matches(x,y) 判断两个字符是否匹配的辅助函数。只有当 y 是 . 或者 x 和 y 本身相同时，这两个字符才会匹配。
动态规划的边界条件为 f[0][0]=true，即两个空字符串是可以匹配的。最终的答案即为 f[m][n]，其中 m 和 n 分别是字符串 s 和 p 的长度。由于大部分语言中，字符串的字符下标是从 0 开始的，因此在实现上面的状态转移方程时，需要注意状态中每一维下标与实际字符下标的对应关系。
在上面的状态转移方程中，如果字符串 p 中包含一个「字符 + 星号」的组合（例如 a*），那么在进行状态转移时，会先将 a 进行匹配（当 p[j] 为 a 时），再将 a* 作为整体进行匹配（当 p[j] 为 * 时）。然而，在题目描述中，我们必须将 a* 看成一个整体，因此将 a 进行匹配是不符合题目要求的。
C++ 示例：

class Solution {
public:
    bool isMatch(string s, string p) {
        int m = s.size();
        int n = p.size();

        auto matches = [&](int i, int j) {
            if (i == 0) {
                return false;
            }
            if (p[j - 1] == '.') {
                return true;
            }
            return s[i - 1] == p[j - 1];
        };

        vector<vector<int>> f(m + 1, vector<int>(n + 1));
        f[0][0] = true;
        for (int i = 0; i <= m; ++i) {
            for (int j = 1; j <= n; ++j) {
                if (p[j - 1] == '*') {
                    f[i][j] |= f[i][j - 2];
                    if (matches(i, j - 1)) {
                        f[i][j] |= f[i - 1][j];
                    }
                }
                else {
                    if (matches(i, j)) {
                        f[i][j] |= f[i - 1][j - 1];
                    }
                }
            }
        }
        return f[m][n];
    }
};

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36

Java 示例：

class Solution {
    public boolean isMatch(String s, String p) {
        int m = s.length();
        int n = p.length();

        boolean[][] f = new boolean[m + 1][n + 1];
        f[0][0] = true;
        for (int i = 0; i <= m; ++i) {
            for (int j = 1; j <= n; ++j) {
                if (p.charAt(j - 1) == '*') {
                    f[i][j] = f[i][j - 2];
                    if (matches(s, p, i, j - 1)) {
                        f[i][j] = f[i][j] || f[i - 1][j];
                    }
                } else {
                    if (matches(s, p, i, j)) {
                        f[i][j] = f[i - 1][j - 1];
                    }
                }
            }
        }
        return f[m][n];
    }

    public boolean matches(String s, String p, int i, int j) {
        if (i == 0) {
            return false;
        }
        if (p.charAt(j - 1) == '.') {
            return true;
        }
        return s.charAt(i - 1) == p.charAt(j - 1);
    }
}

  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34

复杂度分析：
- 时间复杂度：O(mn)，其中 m 和 n 分别是字符串 s 和 p 的长度，需要计算出所有的状态，并且每个状态在进行转移时的时间复杂度为 O(1)。
- 空间复杂度：O(mn)，即为存储所有状态使用的空间。

文章来源: blog.csdn.net，作者：Serendipity·y，版权归原作者所有，如需转载，请联系作者。

原文链接：blog.csdn.net/Forever_wj/article/details/122494532

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【数据结构与算法】之深入解析“正则表达式匹配”的求解思路与算法示例

一、题目要求

二、求解算法

① 动态规划

② 动态规划（LeetCode 官方解法）

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【数据结构与算法】之深入解析“正则表达式匹配”的求解思路与算法示例

一、题目要求

二、求解算法

① 动态规划

② 动态规划（LeetCode 官方解法）

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品