- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

HWDB1.1数据集 | 手写汉字数据集 |.gnt 转换 .png格式图片| 【❤️有效转换❤️】

墨理学AI 发表于 2022/01/11 01:31:12 2022/01/11

【摘要】 ❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】 👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀 ❤️ 如果文章对你有帮助、欢迎一键三连 ...

❤️【专栏：数据集整理】❤️ 之【有效拒绝假数据】

👋 Follow me 👋，一起 Get 更多有趣 AI、冲冲冲 🚀 🚀

❤️ 如果文章对你有帮助、欢迎一键三连

我这里对其代码做分析和使用说明：

这里是原作者代码链接，感谢原作者PeppaPeppaPeppa

文章目录

📔 .gnt 转换 .png 教程如下

项目目录结构如下：

请点击这个链接查看 ——alz 文件解压方法教程，If you need…
或者浏览最下方 HWDB1.1数据集 .gnt格式数据快速获取途径，后台回复，即可直接获取 gnt 文件

运行命令：

python gnt2png.py 

  
 
  1

📕 gnt2png.py 文件代码

只需替换 train_data_dir 和 test_data_dir 的路径即可运行

import os
import numpy as np
import struct
from PIL import Image
# data文件夹存放转换后的.png文件
data_dir = 'data'
# 路径为存放数据集解压后的.gnt文件
train_data_dir = os.path.join('', 'wordDatas/trn_gnt')
test_data_dir = os.path.join('', 'wordDatas/tst_gnt')


def read_from_gnt_dir(gnt_dir=train_data_dir):
    def one_file(f):
        header_size = 10
        while True:
            header = np.fromfile(f, dtype='uint8', count=header_size)
            if not header.size: break
            sample_size = header[0] + (header[1] << 8) + (header[2] << 16) + (header[3] << 24)
            tagcode = header[5] + (header[4] << 8)
            width = header[6] + (header[7] << 8)
            height = header[8] + (header[9] << 8)
            if header_size + width * height != sample_size:
                break
            image = np.fromfile(f, dtype='uint8', count=width * height).reshape((height, width))
            yield image, tagcode

    for file_name in os.listdir(gnt_dir):
        if file_name.endswith('.gnt'):
            file_path = os.path.join(gnt_dir, file_name)
            with open(file_path, 'rb') as f:
                for image, tagcode in one_file(f):
                    yield image, tagcode


char_set = set()
for _, tagcode in read_from_gnt_dir(gnt_dir=train_data_dir):
    tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')
    char_set.add(tagcode_unicode)
char_list = list(char_set)
char_dict = dict(zip(sorted(char_list), range(len(char_list))))
print(len(char_dict))
print("char_dict=", char_dict)

import pickle

f = open('char_dict', 'wb')
pickle.dump(char_dict, f)
f.close()
train_counter = 0
test_counter = 0
for image, tagcode in read_from_gnt_dir(gnt_dir=train_data_dir):
    tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')
    im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹，train为存放训练集.png的文件夹
    dir_name = 'data/train/' + '%0.5d' % char_dict[tagcode_unicode]
    print(dir_name)
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    im.convert('RGB').save(dir_name + '/' + str(train_counter) + '.png')
    print("train_counter=", train_counter)
    train_counter += 1
print('Train transformation finished ...')
for image, tagcode in read_from_gnt_dir(gnt_dir=test_data_dir):
    tagcode_unicode = struct.pack('>H', tagcode).decode('gb2312')
    im = Image.fromarray(image)
# 路径为data文件夹下的子文件夹，test为存放测试集.png的文件夹
    dir_name = 'data/test/' + '%0.5d' % char_dict[tagcode_unicode]
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
    im.convert('RGB').save(dir_name + '/' + str(test_counter) + '.png')
    print("test_counter=", test_counter)
    test_counter += 1
print('Test transformation finished ...')


  
 
  1
  2
  3
  4
  5
  6
  7
  8
  9
  10
  11
  12
  13
  14
  15
  16
  17
  18
  19
  20
  21
  22
  23
  24
  25
  26
  27
  28
  29
  30
  31
  32
  33
  34
  35
  36
  37
  38
  39
  40
  41
  42
  43
  44
  45
  46
  47
  48
  49
  50
  51
  52
  53
  54
  55
  56
  57
  58
  59
  60
  61
  62
  63
  64
  65
  66
  67
  68
  69
  70
  71
  72
  73
  74

📗 HWDB1.1数据集 .gnt格式数据快速获取途径如下

我下载 HWDB1.1数据之后，把里面的 alz 格式的训练数据压缩包，进行解压之后得到内部 .gnt 文件；

搜索关注本博客同名公号，公号后台，回复

【 20201101 】获取本博文中的 HWDB1.1数据集解压后的 gnt 文件云盘下载链接，下载之后，便可以直接使用上面代码把 .gnt 转换 .png格式：

Game Over ，感谢三连

文章来源: positive.blog.csdn.net，作者：墨理学AI，版权归原作者所有，如需转载，请联系作者。

原文链接：positive.blog.csdn.net/article/details/109477806

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

HWDB1.1数据集 | 手写汉字数据集 |.gnt 转换 .png格式图片| 【❤️有效转换❤️】

文章目录

📔 .gnt 转换 .png 教程如下

📕 gnt2png.py 文件代码

📗 HWDB1.1数据集 .gnt格式数据快速获取途径如下

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品