- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python内存数据序列化到硬盘上哪家强

红皮橘子发表于 2019/05/07 16:21:19 2019/05/07

【摘要】 1. 闲扯一下：文件磁盘上的数据，我们一般称为 “文件” ，一般不同的文件都有各自的后缀名，比如 .txt .docx .xlsx .jpg .mp3 .avi 。这些不同类型的文件一般分为两大类：文本文件：用记事本打开看到的是英文、发文、中文等字符；二进制文件：用记事本打开看到的可能就是一堆乱码；平日里，大家接触到的更多的是二进制文件，比如word文档，图片，视频，音频等。为了保存和读...

1. 闲扯一下：文件

磁盘上的数据，我们一般称为 “文件” ，一般不同的文件都有各自的后缀名，比如 .txt .docx .xlsx .jpg .mp3 .avi 。这些不同类型的文件一般分为两大类：

文本文件：用记事本打开看到的是英文、发文、中文等字符；
二进制文件：用记事本打开看到的可能就是一堆乱码；

平日里，大家接触到的更多的是二进制文件，比如word文档，图片，视频，音频等。为了保存和读取这些不同文件，各自都规定了各自的文件格式，这些格式是各自存储的规范。同时为了让保存的文件更小便于传输（比如，视频通过网络传输），各自还通过一些算法对文件数据进行压缩，尤其是图片、视频和音频都各自有很多压缩算法，比如图片的jpg，音频的mp3，视频的mkv这些即代表了相应的文件格式，还代表了其背后的压缩算法。这些多媒体数据的压缩算法的原则是，在保证媒体质量的前提下尽量使得数据存储量小。

除了文件本身的一些压缩算法，我们还经常使用一些通用的压缩软件对文件进行打包和压缩，比如zip，WinRAR等。

2. 回到原题：Python序列化

我们使用python时，经常用到的数据就是int，float，string，list， dict，tuple这些内置的数据类型和结构。写程序时，我们很可能希望把这些基本数据存储到硬盘，即保存存储结果。这个过程，我们称之为“序列化”

Python里面常用的序列化工具有：

json
pickle
marshal

cPickle是pickle的C语言实现，速度更快，但Python3里面的pickle就是C语言实现的，因此不再包含cPickle模块。

json在web中使用更为广泛，是各种web API的首选数据格式。

以上三种工具，哪一个更快呢？

#!/usr/bin/env pythonimport timeimport jsonimport pickleimport marshaldef test(data, method):
    if method == 'json':
        dumps = json.dumps
        loads = json.loads
    elif method == 'pickle':
        dumps = pickle.dumps
        loads = pickle.loads
    elif method == 'marshal':
        dumps = marshal.dumps
        loads = marshal.loads

    b = time.time()
    s = ''
    loop = 10000                                                                                                                                                                                             
    for i in range(loop):
        s = dumps(data)
    print('{} dumps time cost: {}'.format(method, time.time() - b)) 

    b = time.time()
    for i in range(loop):
        loads(s)
    print('{} loads time cost: {}'.format(method, time.time() - b)) 



def main():
    # generate test data
    data = {}
    count = 80
    for i in range(10000):
        k = '%05d' % (i % count)
        if k in data:
            data[k].append(i / count)
        else:
            data[k] = [i/count]

    print('data:', len(data))
    # test
    test(data, 'json')
    test(data, 'pickle')
    test(data, 'marshal')if __name__ == '__main__':
    main()

以上代码的测试过程是，对一个有80个key的字典进行序列化和反序列化操作，每个模块各循环10000次，统计各自的耗时。用Python3.6跑出的结果如下：

json dumps time cost: 30.436348915100098json loads time cost: 10.900368928909302pickle dumps time cost: 1.7617356777191162pickle loads time cost: 2.8096134662628174marshal dumps time cost: 1.8232548236846924marshal loads time cost: 1.991441011428833

由此看出，pickle的性能最好，json最慢。

文章来源于：猿人学网站的python教程。

版权申明:若没有特殊说明，文章皆是猿人学原创，没有猿人学授权，请勿以任何形式转载。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python内存数据序列化到硬盘上哪家强

1. 闲扯一下：文件

2. 回到原题：Python序列化

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python内存数据序列化到硬盘上哪家强

1. 闲扯一下：文件

2. 回到原题：Python序列化

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品