- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

Python 解析中文文件时遇到错误 'gbk' codec can't decode byte 0xab in positio

汪子熙发表于 2025/02/01 21:19:54 2025/02/01

【摘要】错误截图：代码遇到的错误是 UnicodeDecodeError，这是一个非常常见的问题，尤其是在处理非 UTF-8 编码的文本文件时。这个错误消息表明 Python 在尝试读取文件时遇到编码问题，具体来说是 gbk 编码无法解码某个特定的字节。错误原因分析在 Python 中，默认的文件读取编码方式是根据系统的语言环境来选择的。例如，在 Windows 系统中，Python 默认会使用 ...

错误截图：

代码遇到的错误是 UnicodeDecodeError，这是一个非常常见的问题，尤其是在处理非 UTF-8 编码的文本文件时。这个错误消息表明 Python 在尝试读取文件时遇到编码问题，具体来说是 gbk 编码无法解码某个特定的字节。

错误原因分析

在 Python 中，默认的文件读取编码方式是根据系统的语言环境来选择的。例如，在 Windows 系统中，Python 默认会使用 gbk 编码来打开文件。而在其他系统中，可能会选择 UTF-8 作为默认编码。你的错误消息是：

UnicodeDecodeError: 'gbk' codec can't decode byte 0xab in position 198: illegal multibyte sequence

这表明 Python 试图使用 gbk 编码来读取文件，但在文件中的第 198 个字节位置遇到一个非法的字节序列，无法成功解码。原因很可能是文件实际上是以 UTF-8 编码保存的，因此 gbk 无法正确解析这些字符。

解决方案：指定文件编码

要解决这个问题，我们可以明确地指定文件编码为 UTF-8。UTF-8 是一种支持多语言字符集的通用编码方式，特别适合处理包含中文字符的文件。可以通过在 open() 函数中添加 encoding='utf-8' 参数来解决这个问题。

这里是调整后的代码：

import json

with open(json_file_path, 'r', encoding='utf-8') as json_file:
    data = json.load(json_file).get('data', [])

在这一调整中，通过添加 encoding='utf-8'，我们明确告诉 Python 以 UTF-8 编码方式打开文件，这样就避免了 gbk 解码错误的问题。

实现需求的完整步骤和代码举例

接下来，我们一步步拆解如何正确读取一个包含中文字符的 JSON 文件。

确认文件编码：在处理包含中文字符的文件时，首先要确认文件的实际编码格式。一般情况下，文本编辑器（如 VSCode 或 Sublime）会显示文件的编码格式。通常，UTF-8 是最适合处理多种语言字符集的通用编码。
明确编码来读取文件：在 Python 中，使用 open() 函数时，可以通过 encoding 参数来明确指定读取的编码格式。对于包含中文字符的文件，通常推荐使用 UTF-8。示例代码如下：

import json

json_file_path = 'example.json'

# 指定编码为 utf-8 来打开文件
with open(json_file_path, 'r', encoding='utf-8') as json_file:
    data = json.load(json_file).get('data', [])
    print(data)

这个代码块中的 encoding='utf-8' 是解决编码错误的关键。这样可以避免 Python 在处理包含中文的 JSON 文件时，错误地使用系统默认的 gbk 编码，从而导致 UnicodeDecodeError。

处理不同编码的兼容性：如果你在处理多个文件，并且文件可能有不同的编码格式，可以使用 chardet 库来检测文件编码。这样可以保证程序的通用性，自动检测文件的编码格式。

首先，可以安装 chardet 库：
```
pip install chardet
```
然后，使用 chardet 库来检测文件编码：
```
import chardet

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read())
        return result['encoding']

file_encoding = detect_encoding(json_file_path)

with open(json_file_path, 'r', encoding=file_encoding) as json_file:
    data = json.load(json_file).get('data', [])
    print(data)
```
这个示例代码展示了如何使用 chardet 自动检测文件编码，然后再以正确的编码格式打开文件。

实现功能的步骤分析

以下是实现正确读取 JSON 文件的几个关键步骤：

1. 准备 JSON 文件

你需要有一个包含中文字符的 JSON 文件作为示例。以下是一个简单的 JSON 文件内容示例，保存为 example.json：

{
    "data": [
        "苹果",
        "香蕉",
        "橘子"
    ]
}

这个文件包含了中文字符，所以我们需要以正确的编码方式读取。

2. 编写 Python 代码读取 JSON 文件

在 Python 中读取这个 JSON 文件的代码可以如下：

import json

json_file_path = 'example.json'

with open(json_file_path, 'r', encoding='utf-8') as json_file:
    data = json.load(json_file).get('data', [])
    print(data)

这里，我们使用了 open() 函数来打开文件，并指定编码为 utf-8，这样确保不会遇到 UnicodeDecodeError。

3. 更加通用的解决方案

为了保证代码在不同系统环境下的兼容性，特别是在处理大量文件时，编码可能不统一的情况下，使用 chardet 库自动检测编码格式会是一个不错的选择。使用 chardet 可以大大提高代码的健壮性。

import chardet
import json

def detect_encoding(file_path):
    with open(file_path, 'rb') as f:
        result = chardet.detect(f.read())
        return result['encoding']

json_file_path = 'example.json'
file_encoding = detect_encoding(json_file_path)

with open(json_file_path, 'r', encoding=file_encoding) as json_file:
    data = json.load(json_file).get('data', [])
    print(data)

在这个代码中，首先我们使用 chardet.detect() 来检测文件的编码格式，然后以检测到的编码方式打开文件，这样就可以确保文件能够被正确读取，无论它的编码是什么。

4. 处理 JSON 文件中的中文字符

如果你要处理的 JSON 文件中包含中文字符，不仅仅是在文件读取阶段需要考虑编码问题，在之后对数据进行处理或写入其他文件时，也需要考虑正确处理编码。例如，如果你想将读取的内容再次写入到一个新的 JSON 文件中，你需要确保写入时使用 UTF-8 编码：

output_file_path = 'output.json'

with open(output_file_path, 'w', encoding='utf-8') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)

在这个代码中，ensure_ascii=False 参数确保了写入的中文字符不会被转义为 ASCII 格式（即不会出现类似 \uXXXX 的转义字符），这样可以保持文件中的中文字符的可读性。

进一步扩展：错误处理

在处理文件操作时，增加错误处理是一个良好的编程实践，特别是在涉及到编码问题时。以下是添加了错误处理的代码示例：

import json
import chardet

def detect_encoding(file_path):
    try:
        with open(file_path, 'rb') as f:
            result = chardet.detect(f.read())
            return result['encoding']
    except Exception as e:
        print(f"无法检测文件编码：{e}")
        return 'utf-8'

json_file_path = 'example.json'
try:
    file_encoding = detect_encoding(json_file_path)

    with open(json_file_path, 'r', encoding=file_encoding) as json_file:
        data = json.load(json_file).get('data', [])
        print(data)
except UnicodeDecodeError as e:
    print(f"编码错误：{e}")
except FileNotFoundError:
    print(f"文件 `{json_file_path}` 未找到。")
except json.JSONDecodeError as e:
    print(f"JSON 解码错误：{e}")
except Exception as e:
    print(f"发生未知错误：{e}")

在这个代码中，我们对文件编码检测、文件读取和 JSON 解析等操作都添加了错误处理，以便能够更加优雅地处理各种可能出现的异常情况。这对于提高代码的健壮性和可维护性是非常有帮助的。

文件写入及中文字符的处理

当你需要将含有中文字符的数据写回到一个 JSON 文件中，确保数据能够正常保存而不出现乱码，同样需要指定编码为 utf-8。此外，通过设置 ensure_ascii=False 来保存文件，以便能够直观地看到中文字符，而不是类似 \u4e2d\u6587 的 Unicode 编码。

import json

# 假设 data 是要写入的 Python 对象
data = {
    "fruits": ["苹果", "香蕉", "橘子"]
}

output_file_path = 'output.json'

with open(output_file_path, 'w', encoding='utf-8') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)

上述代码通过指定 encoding='utf-8' 和 ensure_ascii=False，可以正确地将包含中文的 Python 对象保存到 JSON 文件中。

总结

要避免 UnicodeDecodeError，关键在于确保文件读取和写入的编码方式与文件实际的编码一致。特别是在处理包含中文字符的文件时，推荐使用 UTF-8 编码，这是一种广泛支持的编码方式，能够正确处理中文等非 ASCII 字符。

在编码问题上，以下是一些建议：

在打开文件时明确指定 encoding='utf-8'，尤其是在处理非英文文本时。
使用诸如 chardet 这样的库自动检测文件编码，以增加程序的通用性和健壮性。
在写入 JSON 文件时，设置 ensure_ascii=False 以保持中文字符的可读性。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

Python 解析中文文件时遇到错误 'gbk' codec can't decode byte 0xab in positio

错误原因分析

解决方案：指定文件编码

实现需求的完整步骤和代码举例

实现功能的步骤分析

1. 准备 JSON 文件

2. 编写 Python 代码读取 JSON 文件

3. 更加通用的解决方案

4. 处理 JSON 文件中的中文字符

进一步扩展：错误处理

文件写入及中文字符的处理

总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

Python 解析中文文件时遇到错误 'gbk' codec can't decode byte 0xab in positio

错误原因分析

解决方案：指定文件编码

实现需求的完整步骤和代码举例

实现功能的步骤分析

1. 准备 JSON 文件

2. 编写 Python 代码读取 JSON 文件

3. 更加通用的解决方案

4. 处理 JSON 文件中的中文字符

进一步扩展：错误处理

文件写入及中文字符的处理

总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品