CRNN英文字符识别代码运行测试 | 论文理解 | 【OCR】

举报
墨理学AI 发表于 2022/01/11 00:09:23 2022/01/11
【摘要】 CRNN英文字符识别代码运行测试 | 论文理解 论文理解环境搭建运行过程如下模型准备项目目录结构测试图片代码运行 论文地址 https://arxiv.org/abs/15...


  • 论文地址

https://arxiv.org/abs/1507.05717

  • 所测试代码

https://github.com/meijieru/crnn.pytorch


论文理解


摘要:

基于图像的序列识别一直是计算机视觉领域的一个长期研究课题。在本文中,我们研究了场景文本识别问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种新的神经网络架构,将特征提取、序列建模和转录集成到一个统一的框架中。与之前的场景文本识别系统相比,所提出的架构具有四个独特的特性:
(1)与大多数现有算法的组件分别训练和调整相比,它是端到端可训练的。
(2) 它自然地处理任意长度的序列,不涉及字符分割或水平尺度归一化。
(3) 它不限于任何预定义的词典,并且在无词典和基于词典的场景文本识别任务中都取得了卓越的性能。
(4) 它生成了一个有效但更小的模型,这对于现实世界的应用场景更实用。
(5) 泛化能力强,可用于其它不同的任务
在标准基准上的实验,包括 IIIT-5K、街景文本和 ICDAR 数据集,证明了所提出的算法优于现有技术。此外,所提出的算法在基于图像的乐谱识别任务中表现良好,这显然验证了其通用性。

CRNN 网络结构图

6-0

特征序列 和 感受野的 直观理解

6-1

认识双向LSTM

6-2

原本 Network configuration summary.

6-4


环境搭建


  • 参照: requirements.txt 文件
lmdb==0.97
numpy==1.17.2
Pillow==6.1.0
six==1.12.0
torch==1.2.0
torchvision==0.4.0


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 一个普通的 pytorch1.2 环境搭建操作,实测 安装 torch1.4 一样可以运行:
conda create -n torch14 python=3.6.6

conda activate torch14

conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit=10.0 -c pytorch

pip install opencv-python

pip install scipy

pip install thop


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12

运行过程如下


模型准备

0-0

项目目录结构

0-3

测试图片

0-4

代码运行


# 运行命令如下:
CUDA_VISIBLE_DEVICES=2 python demo.py 


# 输出效果如下

loading pretrained model from ./data/crnn.pth
a-----v--a-i-l-a-bb-l-e--- => available           


  
 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

日常水文,多谢查阅

9-9


文章来源: positive.blog.csdn.net,作者:墨理学AI,版权归原作者所有,如需转载,请联系作者。

原文链接:positive.blog.csdn.net/article/details/115962104

【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。