- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

学习笔记|文字识别之cnocr（一）

darkpard 发表于 2021/08/03 21:58:49 2021/08/03

【摘要】前几天分享了ddddocr热点复现|验证码识别，但发现这个包没有提供个性化训练接口，底层又是用C++写的，作为一名只懂python的伪算法工程师，止步应用不甘心，修改底层没能力，只好另请高明，于是找到了cnocr。1. cnocr预训练模型试用首先安装cnocr。！pip install cnocr开源贡献者提供了预训练模型，我们将对预训练模型的效果进行一些验证。from cnocr imp...

前几天分享了ddddocr热点复现|验证码识别，但发现这个包没有提供个性化训练接口，底层又是用C++写的，作为一名只懂python的伪算法工程师，止步应用不甘心，修改底层没能力，只好另请高明，于是找到了cnocr。

1. cnocr预训练模型试用

首先安装cnocr。

！pip install cnocr

开源贡献者提供了预训练模型，我们将对预训练模型的效果进行一些验证。

from cnocr import CnOcr
ocr = CnOcr()
res = ocr.ocr('images/t1.jpg')
p = plt.imread('images/t1.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t2.jpg')
p = plt.imread('images/t2.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t3.jpg')
p = plt.imread('images/t3.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t4.jpg')
p = plt.imread('images/t4.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t5.jpg')
p = plt.imread('images/t5.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t6.jpg')
p = plt.imread('images/t6.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t7.jpg')
p = plt.imread('images/t7.jpg')
plt.imshow(p)
print(res)

显然，cnocr对验证码的识别率远不如ddddocr（ddddocr试用见热点复现|验证码识别），那么对于标准的文字呢？

res = ocr.ocr('images/t12.jpg')
p = plt.imread('images/t12.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t17.jpg')
p = plt.imread('images/t17.jpg')
plt.imshow(p)
print(res)

res = ocr.ocr('images/t20.jpg')
p = plt.imread('images/t20.jpg')
plt.imshow(p)
print(res)

可以看到，cnocr对标准文字的识别率还是可以的。那么它对于其他不同字体的支持率如何呢？我们随便准备了几个微软雅黑字体。

res = ocr.ocr('images/t23.jpg')
p = plt.imread('images/t23.jpg')
plt.imshow(p)
print(res)

发现效果并不是很好。

总的来说，cnocr自带预训练模型的准确率不及ddddocr，cnocr的运行效率也明显不如ddddocr，但cnocr提供了个性化训练的方法，并且cnocr完全是用python实现的，我们试图通过自定义训练来提高cnocr对微软雅黑字体的识别率。

2. 个性化训练尝试

2.1. 个性化训练必须clone cnocr项目。

!git clone https://gitee.com/cyahua/cnocr.git

2.2. 准备训练样本。

由于水平有限，不会有服务器上生成微软雅黑字体，我们在windows上准备训练需要的样本。

2.2.1. 在cnocr下新建文件夹datasets。

2.2.2. 在datasets文件夹下再新建文件夹dataset2_002。

2.2.3. 在dataset2_002文件夹下新建test.txt文件，将我们刚刚打的那行字分成两行，加上.jpg（如下图）。

2.2.4. 在dataset_002文件夹下新建train.txt文件，将我们刚刚那行字打乱后加上.jpg，写成三行（如下图）。

2.2.5. 将test.txt和train.txt里的文字转化为微软雅黑字体的图片，同时生成每个字在字表中的位置。

2.2.5.1. 从windows里找到微软雅黑字体，一般在C:\Windows\Fonts文件夹下，将msyh.ttc复制到datasets文件夹下面。

2.2.5.2. 在cnocr项目下的examples文件夹下找到label_cn.txt，将其复制到datasets下面。

2.2.5.3. 在datasets文件夹下新建data_generator.py文件，代码如下：

import os
import pygame

pygame.init()
font = pygame.font.Font('msyh.ttc', 64)

def writing(txt, pth):
    r_txt = font.render(txt, True, (0, 0, 0), (255, 255, 255))
    pygame.image.save(r_txt, os.path.join(pth, txt+'.jpg'))

def indexing(txt):
    res = []
    for i in range(len(txt)):
        try:
            res.append(standards.index(txt[i]+'\n')+1)
        except:
            new_chrs.append(txt[i])
            res.append(len(standards)+len(new_chrs)+1)
    return res

if __name__ == '__main__':
    pth = 'self_dataset_002'

    f_tr = open(os.path.join(pth, 'train.txt'), encoding='utf-8-sig')
    f_ts = open(os.path.join(pth, 'test.txt'), encoding='utf-8-sig')
    f_st = open('label_cn.txt', 'r', encoding='utf-8-sig')

    f_tr2 = open(os.path.join(pth, 'train2.txt'), 'w', encoding='utf-8-sig')
    f_ts2 = open(os.path.join(pth, 'test2.txt'), 'w', encoding='utf-8-sig')

    train_items = f_tr.readlines()
    test_items = f_ts.readlines()
    standards = f_st.readlines()
    new_chrs = []

    f_tr.close()
    f_ts.close()
    f_st.close()

    for i in range(len(train_items)):
        txt = train_items[i].split(".")[0]
        idxes = indexing(txt)
        img = writing(txt, pth)

        cnt = "train_%06d.jpg" % i
        os.rename(os.path.join(pth, txt + '.jpg'), os.path.join(pth, cnt))
        for idx in idxes:
            cnt = cnt + " {}".format(idx)
        f_tr2.write(cnt + '\n')

    for i in range(len(test_items)):
        txt = test_items[i].split(".")[0]
        idxes = indexing(txt)
        img = writing(txt, pth)

        cnt = "test_%06d.jpg" % i
        os.rename(os.path.join(pth, txt + '.jpg'), os.path.join(pth, cnt))
        for idx in idxes:
            cnt = cnt + " {}".format(idx)
        f_ts2.write(cnt + '\n')

    fh = open('label_cn.txt', 'a', encoding='utf-8-sig')
    for nw in new_chrs:
        fh.write(nw + '\n')
    fh.close()

上面的样本准备过程参考了萧班的博客，代码基本来自于该博客，局部有所调整。由于代码比较长，此处不再具体解释，在此感谢萧班CNOCR重训练_WinerChopin的博客-CSDN博客_cnocr训练。

2.2.5.4. 运行以上代码。在运行以上代码后可以将test.txt和train.txt下的XXX.jpg分别生成微软雅黑字体的文字图片（见下图）

同时生成test2.txt和train2.txt，生成每个字在字表中的位置（见下图）。

2.2.6. 生成.lst文件。在项目下运行如下代码

python scripts/im2rec.py --list --num-label 20 --chunks 1 --train-idx-fp ./datasets/dataset_002/train2.txt --test-idx-fp ./datasets/dataset_002/test2.txt --prefix ./datasets/dataset_002/d002

生成d002_test.lst和d002_train.lst（见下图）

2.2.7. 生成.rec文件。在项目下运行如下代码

python scripts/im2rec.py --pack-label --color 1 --num-thread 1 --prefix ./datasets/dataset_002/d002 --root ./datasets/dataset_002

生成d002_test.rec和d002_train.rec（见下图）

至此，样本准备完成。

2.3. 个性化训练

运行以下代码

python scripts/cnocr_train.py --gpu 0 --emb_model_type "densenet-lite" --seq_model_type "fc" --optimizer adam --epoch 20 --lr 1e-4 --train_file ./datasets/dataset_002/d002_train --test_file ./datasets/dataset_002/d002_test

可以看到20次训练结果并不是很理想

实际识别结果也说明了同样的问题，20epoch训练的结果完全无效

问题是一模一样地再训练一次，得到的结果却并不一样：

为什么会这样呢？我也还没来得及深入分析原因。如果同学们有知道原因的，或者有做OCR个性化训练更好的方法，欢迎留言。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

学习笔记|文字识别之cnocr（一）

1. cnocr预训练模型试用

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

学习笔记|文字识别之cnocr（一）

1. cnocr预训练模型试用

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品