- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python模拟锟斤拷等各类乱码

小小明-代码实体发表于 2022/07/06 23:34:24 2022/07/06

【摘要】锟拷码和口字码说到乱码问题就不得不提到锟斤拷，这算是非常常见的一种乱码形式，那么它到底是经过何种错误操作产生的呢？下面我们一步步探究。看一个基本示例： "��".encode("u8").dec...

锟拷码和口字码

说到乱码问题就不得不提到锟斤拷，这算是非常常见的一种乱码形式，那么它到底是经过何种错误操作产生的呢？下面我们一步步探究。

看一个基本示例：

"��".encode("u8").decode("gbk")

  
 
  1

'锟斤拷'

  
 
  1

我们将�字符以UTF-8编码后，以GBK编码解码就可以得到锟斤拷的乱码。

那么为什么 锟斤拷 为什么如此常见呢？这是因为大部分编程语言在使用UNICODE系列的编码去解码时，会将不识别的字节编码为0xFFFD(65533)即�字符表示未知字符进行占位：

"\uFFFD"

  
 
  1

'�'

  
 
  1

注意：UNICODE系列包括UTF-8、UTF-16、UTF-32编码，一般UNICODE编码指UTF-16编码。在python中unicode_escape编码表示UNICODE编码的的转义形式：
"\uFFFD".encode("unicode_escape").decode()

   
  
   1
  
'\\ufffd'

   
  
   1
  

对于Python，默认情况下解码碰到未知字符时会直接抛出异常，但是如果设置errors参数为replace时，则会将未知字符解码为�占位。

将汉字用GBK编码：

"小小明".encode("gbk")

  
 
  1

b'\xd0\xa1\xd0\xa1\xc3\xf7'

  
 
  1

将上述编码结果用UTF-8编码解码，并设置为替换模式：

"小小明".encode("gbk").decode("u8", "replace")

  
 
  1

'СС��'

  
 
  1

0xd0a1被解码成С，但是0xc3和0xf7无法被UTF-8编码识别，只能用占位符�替换，于是就得到了上面的结果。

此时我们再编码并解码：

"小小明".encode("gbk").decode("u8", "replace") \
    .encode("u8").decode("gbk", "replace")

  
 
  1
  2

'小小锟斤拷'

  
 
  1

这是因为�被编码成了0xEFBFBD

"��".encode("u8")

  
 
  1

b'\xef\xbf\xbd\xef\xbf\xbd'

  
 
  1

而0xEFBFBDEFBFBD被GBK解码时，正好就是锟（0xEFBF），斤（0xBDEF），拷（0xBFBD）。

上述以�为主的乱码字符就是口字码，原因是以UTF-8编码读取了GBK编码的中文。

而锟拷体则是大部分都是锟斤拷的全中文字符，原因是用GBK编码读取了UTF-8编码的口字码中文。

古文码与问句码

问句码产生的核心原因在于GBK对于无法编码的字符会使用?填充：

"�😑".encode("gbk", "replace")

  
 
  1

b'??'

  
 
  1

古文码则与前面的口字码产生原因相反，使用GBK编码读取以UTF-8编码的中文：

"小小明".encode("u8").decode("gbk", "replace")

  
 
  1

'灏忓皬鏄�'

  
 
  1

此时的 灏忓皬鏄 就非常像古文，gbk解码对于不识别的字节也使用�占位。

此时gbk编码对于�编码失败，使用?替代：

'灏忓皬鏄�'.encode("gbk", "replace")

  
 
  1

b'\xe5\xb0\x8f\xe5\xb0\x8f\xe6\x98?'

  
 
  1

此时再用UTF-8解码就得到了问句码：

b'\xe5\xb0\x8f\xe5\xb0\x8f\xe6\x98?'.decode("u8", "ignore")

  
 
  1

'小小?'

  
 
  1

不过问句码只在原始字符串为奇数时产生，如果原始字符串长度为偶数，使用上述编码方式则可以原样还原字符串：

"小小明月".encode("u8").decode("gbk", "replace") \
    .encode("gbk", "replace").decode("u8", "ignore")

  
 
  1
  2

'小小明月'

  
 
  1

这样说明只要我们将原始汉字字符串填充到偶数，就可以使用古文码实现可逆的数据传输，而锟拷体则是一种不可逆的乱码。

符号码和拼音码

还有两种可逆的乱码，我们先看看符号码：

"小小明".encode("u8").decode("iso8859-1")

  
 
  1

'å°\x8få°\x8fæ\x98\x8e'

  
 
  1

像这种大部分字符为各种符号的乱码就称为符号码，符号码可以直接还原为原始的文本：

'å°\x8få°\x8fæ\x98\x8e'.encode("iso8859-1").decode("u8")

  
 
  1

'小小明'

  
 
  1

再看看拼音码：

"小小明".encode("gbk").decode("iso8859-1")

  
 
  1

'Ð¡Ð¡Ã÷'

  
 
  1

这种大部分字符都是带有声调的字母称为拼音码，同样可以直接还原：

'Ð¡Ð¡Ã÷'.encode("iso8859-1").decode("gbk")

  
 
  1

'小小明'

  
 
  1

总结

名称	示例	特点	原因
口字码	СС��	大部分字符是问号小方块	UTF-8解码GBK编码的中文
锟拷体	锟斤拷小小锟斤拷学习锟斤拷	全中文字符，大部分都是"锟斤拷"这几个字符	GBK解码UTF-8编码的口字码
古文码	灏忓皬鏄庢湀	大部分都是生僻字，像古文	GBK解码UTF-8编码的中文汉字
问句码	小小?	字符串长度为奇数时，结尾为问号	GBK遇到不能编码的字符时填充
符号码	å¥½å¥½å\xad¦å¤©å¤©å\xad¦	大部分字符为各种符号	ISO8859-1编码解码UTF-8编码的中文汉字
拼音码	ºÃºÃÑ§Ï°ÌìÌìÏòÉÏ	大部分字符都是带有声调的字母	ISO8859-1编码解码GBK编码的中文汉字

文章来源: xxmdmst.blog.csdn.net，作者：小小明-代码实体，版权归原作者所有，如需转载，请联系作者。

原文链接：xxmdmst.blog.csdn.net/article/details/125646802

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python模拟锟斤拷等各类乱码

锟拷码和口字码

古文码与问句码

符号码和拼音码

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python模拟锟斤拷等各类乱码

锟拷码和口字码

古文码与问句码

符号码和拼音码

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品