OCR图像识别(二)发展
OCR经过多年的发展经历了从机器学习到深度学习的迁移我们将对此进行梳理
基于机器学习的OCR
在OCR探索的初期将打印字符转换为文本为主要诉求如今已经延伸到各种语言手写字符等各种复杂场景。初期的OCR主要使用机器学习方法对输入图像进行预处理字符分割和特征提取后进行字符识别处理。在特征提取时OCR经历了从统计特征到结构特征的演变。
统计特征
选取同类字符中的共同特征作为统计特征例如 字符二维平面的位置特征水平或垂直防线的投影等。
这种特征提取方式在字符细分类中表现差强人意然后提出了结构特征提取。
结构特征
汉字由不同的偏旁部首笔划组成字符可以提取出笔划字根笔划也可以提取出跟小的单元结构特征提取实际上是对字符的基本组成单元进行提取。算法准确率较高但是比较统计特征实现上更复杂识别速度较慢。
基于机器学习的OCR整体流程如下图所示首先对图片进行预处理对图像进行去噪灰度化等操作然后将文字行切分出来最后对文字根据特征进行识别将识别出的文字信息输出。
基于机器学习的OCR识别解决了对印刷体字符的识别问题但是这种方法对输入图像的要求较高通常需要将图片统一成背景部分单一文字集中的情况应用场景也十分单一局限在书籍文件等的扫描上。在面对实际生活中中复杂的应用场景例如手写字体的识别街景图片中的文字识别等传统的机器学习表现不够出众OCR逐渐开始探索利用深度学习技术解决文字识别问题。
基于深度学习的OCR
OCR是图像识别中较早使用深度学习技术的领域比较于基于机器学习的OCR深度学习在复杂场景中有更优秀的表现。在本案例中我们将重点讲解基于深度学习的OCR技术。
OCR 流程
大部分的基于深度学习技术的OCR识别将识别过程分为两部分文字区域检测和字符识别。文字区域检测负责将图片中的文字区域检测出来可以看做检测文本的目标识别问题字符识别则是将文字区域中的字符进行识别。
- 点赞
- 收藏
- 关注作者
评论(0)