- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

[python基础]关于中文编码和解码那点事儿

~大鱼~ 发表于 2021/05/28 03:25:11 2021/05/28

【摘要】我们在用python处理中文的时候，或多或少会遇到这样一些错误   常见错误1: SyntaxError: Non-ASCII character '\xe4' in file C 1 SyntaxError: Non-ASCII character '\xe4' in file C 常见错误2: UnicodeE...

我们在用python处理中文的时候，或多或少会遇到这样一些错误

常见错误1:

SyntaxError: Non-ASCII character '\xe4' in file C

1	SyntaxError: Non-ASCII character '\xe4' in file C

常见错误2:

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

1	UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

毫无疑问，我们在用python2.7.x的时候都会遇到这种问题，我们常规的解法又是怎么样的呢

# coding:utf-8 import requests def print_text(): url = 'http://www.cnblogs.com/' print requests.get(url).text.encode('utf-8') print_text()

# coding:utf-8

import requests

def print_text():

url = 'http://www.cnblogs.com/'

print requests.get(url).text.encode('utf-8')

print_text()

首先在文件py文件的头部加上标识coding:utf-8 ，然后使用encode(‘utf-8’)，一般这样处理，文字都可以正常显示到我们的控制台了。那有没有想过我们为什么要这样做？如果你不仅是对写code感兴趣，更想了解其中的原因的话，那我们接着往下看

说起字符的编码与解码，那就不得不提字符集了

如图所示，我们所知的英文编码都是采用ansi编码，随着中国的崛起，国家也开始信息化，但是计算机不认识中国汉字，怎么办呢，我们制定自己统一的字符集，这就是GB2312，

后来更新的字符集，GBK,GB18030,BIG5 ，都是在原来的基础之上增加一些新的元素的识别，比如一些生僻字，繁体字认识。

这样一来不是中文一套，英文一套，那后来的一些其它的国家文字不就都不能互相通用了，那干脆一锅端，将这些英文，中文，各国的语言文字大一统，Unicode就出现了，不仅兼容了这些文字，与方便了各国的信息交流.

在Unicode编码方式下，又存在 utf-8,utf-16,utf-32的编码方式

通过上面的一些例子，我们可以大致对于编码和解码有一个大概的印象，那接下来我们看看python2.7.x对于编码是怎么处理的,还是先上一个图

basestring下面有两个对象，unicode,str 那这两者的关系是怎么样的？

unicode ==encode==> str

str ==decode==> unicode

我们先看python的输出

# coding:utf-8 s = '中文' print type(s)

# coding:utf-8

s = '中文'

print type(s)

输出:

'str'>

在看看decode之后的处理方式

# coding:utf-8 s = '中文'.decode('utf-8') print type(s)

# coding:utf-8

s = '中文'.decode('utf-8')

print type(s)

输出:

'unicode'>

1	'unicode'>

这样实验我们可以很直观的感受到，当我们要输出一个中文的时候：我们输出的是一个经过unicode原始对象encode后的str，那当我们拿到一个返回对象，最常见的在爬虫里面得到返回字符串的时候我们怎么处理呢？

首先我们要在py文件头部声明处理编码，因为我们的py文件默认采用的是ascii编码，当返回的字符串写回到文档时就与文档编码相冲突，这里就会报销:

#coding:utf-8

一般我们加上coding:utf-8就够了，或者coding:gbk也可以

然后对于返回对象我们可以查看一下类型type(response.text)

如果是unicode ，那这response.text.encode(‘utf-8’)就可以得到我们要的str对象，如果是str，我们可以直接print出来，或者先解码，在按你需要的方式编码.

参考文章:

中文编码杂谈

python进阶-编码处理小结

文章来源: brucedone.com，作者：大鱼的鱼塘，版权归原作者所有，如需转载，请联系作者。

原文链接：brucedone.com/archives/43

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

[python基础]关于中文编码和解码那点事儿

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

[python基础]关于中文编码和解码那点事儿

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品