CRNN英文字符识别代码运行测试 | 论文理解 | 【OCR】
- 论文地址
https://arxiv.org/abs/1507.05717
- 所测试代码
https://github.com/meijieru/crnn.pytorch
论文理解
摘要:
基于图像的序列识别一直是计算机视觉领域的一个长期研究课题。在本文中,我们研究了场景文本识别问题,这是基于图像的序列识别中最重要和最具挑战性的任务之一。提出了一种新的神经网络架构,将特征提取、序列建模和转录集成到一个统一的框架中。与之前的场景文本识别系统相比,所提出的架构具有四个独特的特性:
(1)与大多数现有算法的组件分别训练和调整相比,它是端到端可训练的。
(2) 它自然地处理任意长度的序列,不涉及字符分割或水平尺度归一化。
(3) 它不限于任何预定义的词典,并且在无词典和基于词典的场景文本识别任务中都取得了卓越的性能。
(4) 它生成了一个有效但更小的模型,这对于现实世界的应用场景更实用。
(5) 泛化能力强,可用于其它不同的任务
在标准基准上的实验,包括 IIIT-5K、街景文本和 ICDAR 数据集,证明了所提出的算法优于现有技术。此外,所提出的算法在基于图像的乐谱识别任务中表现良好,这显然验证了其通用性。
CRNN 网络结构图
特征序列 和 感受野的 直观理解
认识双向LSTM
原本 Network configuration summary.
环境搭建
- 参照: requirements.txt 文件
lmdb==0.97
numpy==1.17.2
Pillow==6.1.0
six==1.12.0
torch==1.2.0
torchvision==0.4.0
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 一个普通的 pytorch1.2 环境搭建操作,实测 安装 torch1.4 一样可以运行:
conda create -n torch14 python=3.6.6
conda activate torch14
conda install pytorch==1.4.0 torchvision==0.5.0 cudatoolkit=10.0 -c pytorch
pip install opencv-python
pip install scipy
pip install thop
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
运行过程如下
模型准备
项目目录结构
测试图片
代码运行
# 运行命令如下:
CUDA_VISIBLE_DEVICES=2 python demo.py
# 输出效果如下
loading pretrained model from ./data/crnn.pth
a-----v--a-i-l-a-bb-l-e--- => available
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
日常水文,多谢查阅
文章来源: positive.blog.csdn.net,作者:墨理学AI,版权归原作者所有,如需转载,请联系作者。
原文链接:positive.blog.csdn.net/article/details/115962104
- 点赞
- 收藏
- 关注作者
评论(0)