- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

一日一技：如果你非要把HTML存到数据库，那么你应该…

未闻Code 发表于 2022/01/23 14:52:03 2022/01/23

【摘要】多次强调爬虫不要把网页源代码存入数据库，但还是有很多同学这样做。源代码动辄几十KB甚至几MB，存放到数据库里面会严重拖慢性能。如果你非要储存源代码，那么你可以使用 Hive 或者对象储存来存放。

在粉丝群里面，我多次强调爬虫不要把网页源代码存入数据库，但还是有很多同学这样做。源代码动辄几十KB甚至几MB，存放到数据库里面会严重拖慢性能。

如果你非要储存源代码，那么你可以使用 Hive 或者对象储存来存放。

如果你被逼无奈，必须用数据库来存放，那么你至少应该对HTML 进行压缩。平时我们常常听说使用 winrar/7zip/tar 这些压缩工具来压缩文件或者文件夹，那么我们如何压缩字符串呢？

Python 自带了两种压缩方式：zlib和gzip。

我们先来看看我的博客首页有多大：

import requests

html = requests.get('https://www.kingname.info').text

with open('kingname.html', 'w') as f:
    f.write(html)

生成的kingname.html文件，有82KB，如下图所示：

现在，我们使用zlib来对 HTML 进行压缩，然后把压缩后的内容写到文件，我们来看看数据有多大：

import zlib
import requests

html = requests.get('https://www.kingname.info').text
html_compressed = zlib.compress(html.encode())
with open('kingname_zlib', 'wb') as f:
    f.write(html_compressed)

生成的文件大小只有16KB，如下图所示：

压缩以后体积变成了原来的五分之一，节约了大量的磁盘空间。需要注意的是，zlib.compress的输入参数是bytes型的数据，输出也是bytes型的数据。并且，输出的数据是不能解码成字符串的，所以在写文件的时候，必须使用wb方式写入。如果你用的 MySQL 的话，需要把字段的类型设置成blob。

要解压缩也非常简单，使用zlib.decompress就可以了：

import zlib
with open('kingname_zlib', 'rb') as f:
    html_compressed = f.read()
html = zlib.decompress(html_compressed).decode()

除了zlib外，我们还可以使用gzip这个自带的模块来压缩字符串。用法几乎一模一样：

import gzip
import requests

html = requests.get('https://www.kingname.info').text
html_compressed = gzip.compress(html.encode())
with open('kingname_gzip', 'wb') as f:
    f.write(html_compressed)

压缩以后，文件大小也是16KB：

在生产项目中，除了Python自带的这两个压缩模块，还有可能会使用Snappy进行压缩。他的压缩速度非常快，比zlib和gzip都快。压缩率也很高。但安装起来比较麻烦，首先需要安装Snappy程序，然后再安装python-snappy库才能使用。有兴趣的同学可以搜索了解一下。

总结：强烈不建议使用数据库来存放网页整个源代码。如果非要使用，要压缩以后再存。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

一日一技：如果你非要把HTML存到数据库，那么你应该…

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

一日一技：如果你非要把HTML存到数据库，那么你应该…

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品