全网最详细,从一堆字符串,精确抓取想要日期时间的实战2.0

举报
他们叫我技术总监 发表于 2024/11/02 18:49:18 2024/11/02
【摘要】 全网最详细,从一堆字符串,精确抓取想要日期时间

前言:

        前面我们知道了,怎么从一堆带有中文、英文、日期时间的字符串里面抓取需要的日期时间,但是我们实现的只是抓取第一个日期时间,那我们怎么实现,抓取第二个,或者任一一个日期时间呢?

一、思路分析


        1、数据清洗、匹配


        因为字段里面的内容比较杂,因此我们需要从杂乱的数据里面找到我们需要的数据,即日期时间如2024-06-10 10:39  2024-06-10 10:59  这种。具体怎么匹配就不再阐述,可以参考以前的文章。

全网最详细,从一堆字符串,精确抓取日期时间的实战_日期字符串截取时间-CSDN博客

        因此,这是我们还是需要通过REGEXP_SUBSTR来匹配,正则表达式在这里介绍两种方法,即regexp_substr( your_column,'\d{4}-\d{2}-\d{2} \d{2}:\d{2}')或者REGEXP_SUBSTR(your_column,'([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2})',一个是匹配按日期规则匹配的正整数,一个是按日期规则匹配的0-9的整数,效果都是一样的。

        2、实战


        代码:

SELECT   
 field0044 ddate,
regexp_substr(field0044,'\d{4}-\d{2}-\d{2} \d{2}:\d{2}') second_datetime,
regexp_substr(field0044,'([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2})') second_datetime_V2
FROM   
    BI.oa_cpbhg a
WHERE   
     field0044  is  not  null and rownum=1 --只是案例,按实际需求更改


        效果:


二、获取任一位置日期时间


        从上面我们知道怎么去快速获取字符串中,匹配到的第一个日期时间,如果我们要获取任一个该怎么弄呢?

        接下来我们可以参考,获取第二个日期时间的案例,来理解实现过程。

        1、代码:

SELECT   
  field0044,REGEXP_SUBSTR(field0044,'([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2})',1,2, NULL,1 ) AS second_datetime  
FROM   
   BI.oa_cpbhg
WHERE   
    field0044 is  not null --只是案例,具体按实际情况更改,获取第二个日期时间,按需求可以把2改成任一需要的数字如 2 3 4 5..n


      2、 效果:


       3、解析:
        这里的REGEXP_SUBSTR函数:

第一个参数是你要搜索的列名(your_column)。
第二个参数是正则表达式,匹配日期时间格式(例如 'YYYY-MM-DD HH24:MI:SS')。
第三个参数是搜索的起始位置(这里从1开始)。
第四个参数指定返回第几个匹配项(这里为2,即第二个匹配项)。
第五个参数是匹配项的子串编号(对于REGEXP_SUBSTR来说,这个参数通常用于捕获组,但在这里我们不需要,所以设置为NULL)。
第六个参数是标志,用于控制函数的行为(这里我们不需要特别的行为,所以设置为1)。
   注意,如果我们的日期格式是2024-08-15 09:23:23,相应的正式表达式要更改成\d{4}-\d{2}-\d{2} \d{2}:\d{2}:\d{2} 或者([0-9]{4}-[0-9]{2}-[0-9]{2} [0-9]{2}:[0-9]{2}:[0-9]{2})。希望对你有用,有问题欢迎留言讨论~

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。