time date datetme timestamp 傻傻分不清楚

举报
Tracy 发表于 2019/11/06 23:41:10 2019/11/06
【摘要】 前言时间格式对于任何一个工程师来说都是绕不开的知识,爬虫工程师同样如此。爬虫工程师要将不同网站的相同类型内容存放在同一个数据表当中,常见的有:* 站点 A 的时间格式为 “2018-5” * 站点 B 的时间格式为 “3天前” * 站点 C 的时间格式为 “5-10 8:25” 复制代码在数据库存储的时候,应该选用哪种时间格式合适呢?新建字段的时候是选择 DATE 格式还是 DATETIME...

前言

时间格式对于任何一个工程师来说都是绕不开的知识,爬虫工程师同样如此。爬虫工程师要将不同网站的相同类型内容存放在同一个数据表当中,常见的有:

* 站点 A 的时间格式为 “2018-5” * 站点 B 的时间格式为 “3天前” * 站点 C 的时间格式为 “5-10 8:25” 复制代码


在数据库存储的时候,应该选用哪种时间格式合适呢?新建字段的时候是选择 DATE 格式还是 DATETIME 格式?YEAR 又是什么?

Python 内置时间函数有 time 和 datetime,什么时候适合用 time ?什么时候选择 datetime 呢?

Mysql 时间类型

在数据库建表的时候,通常有5中字段类型让人选择: TIME、DATE、DATETIME、TIMESTAMP、YEAR

每种类型的存储空间和时间格式如下:

- TIME类型 :存储空间[3 bytes] - 时间格式[HH:MM:SS] - 时间范围[-838:59:59  到  ~ 838:59:59] - DATE类型 :存储空间[3 bytes] - 时间格式[YYYY-MM-DD] - 时间范围[1000-01-01 到 9999-12-31] (可以理解为年月日) - DATETIME类型 :存储空间[8 bytes] - 时间格式[YYYY-MM-DD HH:MM:SS] - 时间范围[1000-01-01 00:00:00 到 9999-12-31 23:59:59] (可以理解为年月日时分秒) - TIMESTAMP类型 :存储空间[4 bytes] - 时间格式[YYYY-MM-DD HH:MM:SS] - 时间范围[1970-01-01 00:00:01 到 2038-01-19  03:14:07] (以秒为计算) - YEAR类型 :存储空间[1 bytes] - 时间格式[YYYY] - 时间范围[1901  到  2155](按年计算) 复制代码


YEAR 这样的时间格式用的是比较少的,而 TIME 用的也不多,常见的还是 DATE、DATETIME 和时间戳 TIMESTAMP。

Python 的 time

Python提供了三种时间函数,时间模块 time、基本时间日期模块 datetime 和日历模块 Calendar。Python 的 time 模块下有很多函数可以转换常见日期格式。如函数 time.time() 用于获取当前时间戳:

import time timestamp = time.time() print(timestamp, type(timestamp)) 复制代码

输出的时间戳是 float 类型:

1544788687.041193 <class 'float'> 复制代码

时间戳单位最适于做日期运算。但是1970年之前的日期就无法以此表示了。太遥远的日期也不行,UNIX和Windows只支持到2038年。Time 模块包含了以下内置函数,既有时间处理的,也有转换时间格式的:



Python 的日历

Calendar 函数都是日历相关的,星期一是默认的每周第一天,星期天是默认的最后一天。更改设置需调用calendar.setfirstweekday()函数。模块包含了以下内置函数:



日历模块 Calendar 是用的次数比较少的(在爬虫和Django开发的实际应用较少)。出现较多的是 time 模块和 dateteime 模块。那 time 和 datetime 是什么关系呢?

- time模块  --  比较接近底层的 - datetime模块  --  基于time新增了很过功能,提供了更多函数 复制代码


使用对比

1、获取当前时间

import datetime, time """ 崔庆才丨静觅、韦世东丨奎因 邀你关注微信公众号【进击的Coder】 """ print(time.time()) print(datetime.datetime.now()) 复制代码

得到的输出结果是:

1544789253.025471 2018-12-14 20:07:33.025502 复制代码

2、当前时间格式化

import datetime, time """ 崔庆才丨静觅、韦世东丨奎因 邀你关注微信公众号【进击的Coder】 """ """ time当前时间 """ localtime = time.localtime(time.time()) print("当前时间元组 :", localtime) print("不格式化:", time.time()) res1 = time.strftime('%Y-%m-%d', localtime) print("strftime 可以把时间格式化为日期形式 :", res1) res2 = time.strftime('%Y-%m-%d %H:%M:%S', localtime) print("strftime 可以把时间转换为日期和时间 :", res2) # ------------------------------------------------ """ datetime当前时间 """ time_now = datetime.datetime.now() res3 = datetime.datetime.now().strftime("%Y-%m-%d") res4 = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") print("不格式化的当前时间:", time_now) print("datetime 也可以这样用:", res3) print("datetime 也可以这样用:", res4) 复制代码

得到的结果是:

当前时间元组 : time.struct_time(tm_year=2018, tm_mon=12, tm_mday=14, tm_hour=20, tm_min=18, tm_sec=11, tm_wday=4, tm_yday=348, tm_isdst=0) 不格式化: 1544789891.681039 strftime 可以把时间格式化为日期形式 : 2018-12-14 strftime 可以把时间转换为日期和时间 : 2018-12-14 20:18:11 不格式化的当前时间: 2018-12-14 20:18:11.681079 datetime 也可以这样用: 2018-12-14 datetime 也可以这样用: 2018-12-14 20:18:11 复制代码

这里可以看出这两个模块获得的时间都不是人类容易阅读的,都需要通过strftime函数进行格式化。

3、文本时间转换

这里我指的是爬虫获取的其他网站的时间,通常有几种格式:

  • 长时间 -- 2018-01-06 18:35:05、2018-01-06 18:35

  • 日期 --  2018-01-06

  • 月时间 -- 2018-01

  • 时间 --  18:35:05

爬虫得到的时间都是给人阅读的,只不过分隔符不同。在入库的时候,爬虫工程师希望他们的时间格式是统一的,年月日时分秒或者年月日,如果可以就用时间戳,方便计算(年月日时分秒对应年月日时分秒,年月日不可直接转换为年月日时分秒)。

遇到日期类型 2018-01-06 的时间格式,是不可以用函数直接转成长时间 (比如 2018-01-06 18:35:05) 格式的,强行操作会报错。当遇到这种需要将时间格式统一的情况,没有直接操作的办法,只能对时间进行转换。转换又分为两种,相同时间格式转换与不同时间格式转换:

第一种情形

目标:2018-01-06 18:35:05 转换为2018/01/06 18:35:05

它有两种方法可以满足

方法一的逻辑是不同格式的时间转换要先转成时间数组,然后再由时间数组格式化成想要的类型:

import datetime,time a = "2013-10-10 23:40:00"  # 想要转换成 a = "2013/10/10 23:40:00" timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S") otherStyleTime = time.strftime("%Y/%m/%d %H:%M:%S", timeArray) print(timeArray) print(otherStyleTime) 复制代码

从输出结果:

time.struct_time(tm_year=2013, tm_mon=10, tm_mday=10, tm_hour=23, tm_min=40, tm_sec=0, tm_wday=3, tm_yday=283, tm_isdst=-1) 2013/10/10 23:40:00 复制代码

可以看到,先通过 time.strptime 把它转换成时间数组,然后通过 time.strftime 把时间数组格式化成我想要的格式。

方法二,由于最终格式化的时间也是字符串 str,所以当遇到这种情况的时候,还可以直接用 replace 来进行转换:

a = "2013-10-10 23:40:00"  # 想要转换成 a = "2013/10/10 23:40:00" print(a.replace("-", "/")) 复制代码

输出结果为:

2013/10/10 23:40:00 复制代码

第二种情形

目标:2018-01-06  转换为2018-01-06 18:35:05

它也有两种方法可以满足

它的逻辑是将年月日的字符串拼接上时分秒,然后再按照上面的两种方法进行转换,比如:

a = "2013-10-10 "  # 想要转换成 a = "2013/10/10 23:40:00" ac = a + "00:00:00" print(ac.replace("-", "/")) 复制代码

得到输出结果

2013/10/10 00:00:00 复制代码

第三种情形

目标:2018-01-06 18:35:05 转换为2018-01-06

思路与第一种一致,先转换为时间数组,然后再由时间数组进行格式化:

import datetime,time a = "2013-10-10 23:40:00"  # 想要转换成 a = "2013/10/10" timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S") otherStyleTime = time.strftime("%Y/%m/%d", timeArray) print(type(timeArray)) print(otherStyleTime) 复制代码

得到结果输出为(可以看到 timeArray 的类型是 time.struct_time):

<class 'time.struct_time'> 2013/10/10 复制代码

4、时间的比较运算

都知道字符串是不可以进行比较计算的,那么我们就需要用到其他的格式进行。time 的 strptime 转换成时间数组是不可以进行运算的,但是 datetime 可以。

第一种 ,时间格式相同

import datetime,time d1 = datetime.datetime.strptime('2012-03-05 17:41:20', '%Y-%m-%d %H:%M:%S') d2 = datetime.datetime.strptime('2012-03-05 16:41:20', '%Y-%m-%d %H:%M:%S') delta = d1 - d2 print(type(d1)) print(delta.seconds) print(delta) 复制代码

得到的输出是:

<class 'datetime.datetime'> 3600 1:00:00 复制代码

从结果上可以看到,格式相同的两种时间,可以通过datetime.datetime.strptime进行转换后再运算,在结果中还可以通过.seconds来计算 相差秒数 和通过.days来计算 相差天数

第二种 ,如果时间格式不一样,但是转换后的类型一样,也是可以比较的:

import datetime,time d1 = datetime.datetime.strptime('2012/03/05 17:41:20', '%Y/%m/%d %H:%M:%S') d2 = datetime.datetime.strptime('2012-03-05 16:41:20', '%Y-%m-%d %H:%M:%S') delta = d1 - d2 print(delta.seconds) print(delta) 复制代码

这段代码里面时间的字符串形式就不一样,但是通过同样的函数进行转换后就可以比较计算了。

第三种 ,年月日时分秒与年月日的计算,其实原理是一样的,转换后他们的格式都一样,所以也是可以计算的,2012/03/05 17:41:20与2012-03-05的时间相差:

import datetime,time d1 = datetime.datetime.strptime('2012/03/05 17:41:20', '%Y/%m/%d %H:%M:%S') d2 = datetime.datetime.strptime('2012-03-01', '%Y-%m-%d') delta = d1 - d2 print(delta.days,delta.seconds) print(delta) print(type(delta)) 复制代码

输出结果是

4 63680 4 days, 17:41:20 <class 'datetime.timedelta'> 复制代码

通过print的结果可以得到几点信息: 不同格式的时间在转化后是可以进行比较运算的 可以通过.days和.seconds来进行天数与时分秒的展示 计算后得到的数据类型是 'datetime.timedelta' 而不是str类型

比如计算3天后的时间:

import datetime,time now = datetime.datetime.now() delta = datetime.timedelta(days=3) n_days = now + delta print(type(n_days)) print(n_days.strftime('%Y-%m-%d %H:%M:%S')) 复制代码

得到的结果是:

<class 'datetime.datetime'> 2018-01-21 10:26:14 复制代码

用 datetime.timedelta 取得3天时间,然后将当前时间加上3天,得到的是 'datetime.datetime' 类型数据,变成人类阅读的格式则需要 strftime 函数进行格式化,最终得到想要的 2018-01-21 10:26:14。


5、时间戳

把字符串时间转换为时间戳:

import datetime,time a = "2013-10-10 23:40:00" # 转换为时间数组 timeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S") # 转换为时间戳: timeStamp = time.mktime(timeArray) print(timeArray) print(timeStamp) 复制代码

输出结果为:

time.struct_time(tm_year=2013, tm_mon=10, tm_mday=10, tm_hour=23, tm_min=40, tm_sec=0, tm_wday=3, tm_yday=283, tm_isdst=-1) 1381419600.0 复制代码

可以看到time的时间数组与时间戳并不是同一样东西,他们是有区别的


6、strftime与strptime

这两个是 python 中常用的

strftime 函数:

  • 函数接收以时间元组,并返回以可读字符串表示的当地时间,格式由参数 format 决定。

  • time.strftime(format[, t])

  • format -- 格式字符串。t -- 可选的参数t是一个 struct_time 对象。

  • 返回以可读字符串表示的当地时间。

import time t = (2009, 2, 17, 17, 3, 38, 1, 48, 0) t = time.mktime(t) print(time.strftime("%Y-%m-%d %H:%M:%S", time.gmtime(t))) 复制代码

得到结果输出:

2009-02-17 09:03:38 复制代码

strptime() 函数根据指定的格式把一个时间字符串解析为时间元组。 time.strptime(string[, format]) string -- 时间字符串。format -- 格式化字符串。 返回 struct_time 对象。

import datetime,time d1 = datetime.datetime.strptime('20120305 17:41:20', '%Y%m%d %H:%M:%S') d2 = datetime.datetime.strptime('2012-03-01', '%Y-%m-%d') print(d1) print(d2) 复制代码

得到结果:

2012-03-05 17:41:20 2012-03-01 00:00:00 复制代码

时间格式与入库

前面铺垫了这么多,最终的目的还是需要入库。这里以4种数据库时间类型为例:

  • 字段名 => 数据类型

  • r_time       =>        time

  • r_date         =>     date

  • r_datetime  =>    datetime

  • r_timestamp  => timestamp

根据最上方所写的 Mysql 时间类型,可以得出对应的时间格式为:

  • 时间格式 => 数据类型

  • 17:35:05      =>        time

  • 2018-3-1         =>     date

  • 2018/3/1 17:35  =>    datetime

  • 2018/3/1 17:35  => timestamp

time类型

time 类型的格式指定为 17:35:05,不可替换为(17-35-05 或者 17/35/05),会报错

可以简写成 17:35,数据库会自动补全后面的 00,入库后最终数据 17:35:00

如果简写成 17,则入库后变成 00:00:17

当然,如果更奇葩的写法 17:,17:35: 这种是会报错的


date类型

date 类型的格式指定为 2018-3-1 与 2018/3/1,最终入库格式是(2018-03-01),它会自动补全

可以简写成 [18/3/1]、[17/3/1]、[07/3/1]、[97/3/1],数据库会自动补全前面的年份,入库后最终数据 2018-03-01、2017-03-01、2007-03-01、1997-03-01

不可简写成 [2017]、[2017/3],会报错,必须是完整的日期格式


datetime类型

datetime 类型的格式指定为 2018-3-1 17:35:00 和 2018/3/1 17:35:00,最终入库格式是 2018-03-01 17:35:00

它是 date 与 time 的结合,有很多共同特性

可以简写成 [18/3/1 17:35:05]、[17/3/1 17:35]、[07/3/1 17]、[97/3/1 17],数据库会自动补全前面的年份,入库后最终数据 2018-03-01 17:35:05、2017-03-01 17:35:00、2007-03-01  17:00:00、1997-03-01 17:00:00。可以看到它自动将时间格式补全成统一格式,这里与 time 不同的是,如果只写 17 不写分秒,time 会默认将 17 当成秒,这里则是默认当成小时。

与 date 一样,年月日不可省略,必须以年月日格式出现


timestamp类型

根据上面的描述,timestamp的入库格式与datetime是一样的,不同的是时间范围和存储空间,它的格式与用法跟datetime一致

看到这里,相信你有很多的问题想问,可以在下方评论区留言一起讨论



作者:夜幕韦世东
链接:https://juejin.im/post/5c13960bf265da6134384ae5
来源:掘金
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

转载声明: 

原文链接:

https://juejin.im/post/5c13960bf265da6134384ae5

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。