建议使用以下浏览器,以获得最佳体验。 IE 9.0+以上版本 Chrome 31+ 谷歌浏览器 Firefox 30+ 火狐浏览器
请选择 进入手机版 | 继续访问电脑版
设置昵称

在此一键设置昵称,即可参与社区互动!

确定
我再想想
选择版块
直达楼层
标签
您还可以添加5个标签
  • 没有搜索到和“关键字”相关的标签
  • 云产品
  • 解决方案
  • 技术领域
  • 通用技术
  • 平台功能
取消

采纳成功

您已采纳当前回复为最佳回复

yzx

发帖: 11粉丝: 3

发消息 + 关注

发表于2020年11月30日 14:16:59 134 3
直达本楼层的链接
楼主
显示全部楼层
[AI人工智能全栈成长计划] 【问答管3阶段】OCR有哪些算法?

ocr有哪些算法,可以举例说明一下吗?

举报
分享

分享文章到朋友圈

分享文章到微博

采纳成功

您已采纳当前回复为最佳回复

Felix666

发帖: 51粉丝: 2

发消息 + 关注

发表于2020年11月30日 14:25:09
直达本楼层的链接
沙发
显示全部楼层

文字检测算法近几年发展迅速,可以分为水平文字检测(四个自由度,类似物体检测)和倾斜文字检测(文字框是不规则四边形,八个自由度),水平文字检测比较好的算法是2016 ECCV乔宇老师团队的CTPN,倾斜文字检测比较好的方法是2017 CVPR的EAST和Seglink,感兴趣可以看论文继续了解。

文字识别近两年没有太大进展,有两种方法,一种是CNN+RNN+CTC,白翔老师团队的CRNN写的比较清楚,还有一种是CNN+RNN基于Attention的方法。


点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复
发表于2020年11月30日 16:05:20
直达本楼层的链接
板凳
显示全部楼层

1、Arbitrary-Oriented Scene Text Detection via Rotation Proposals

2、Deep Direct Regression for Multi-Oriented Scene Text Detection

3、Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection

4、DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images

5、Detecting Oriented Text in Natural Images by Linking Segments


点赞 评论 引用 举报

采纳成功

您已采纳当前回复为最佳回复
发表于2020年11月30日 23:48:07
直达本楼层的链接
地板
显示全部楼层

1、Arbitrary-Oriented Scene Text Detection via Rotation Proposals

主要思想

介绍了一种基于旋转的新颖网络框架,用于自然场景图像中面向任意方向的文本检测。论文的主要思想为旋转区域提案网络(RRPN),该网络旨在生成带有文本方向角度信息的倾斜proposal,并将角度信息用于边界框回归,以使proposal在方向方面更准确地适合文本区域。除此之外,还提出了旋转兴趣区域(RRoI)池化层,以将任意方向的proposal投影到feature map上供分类器进行分类。与以前的文本检测系统相比,基于region proposal的体系结构确保了面向任意方向的文本检测的计算效率。

2、Deep Direct Regression for Multi-Oriented Scene Text Detection

主要思想

提出了一种基于深度直接回归的多方向场景文本检测方法。检测框架简单有效,具有全卷积网络和后处理。对全卷积网络进行端到端的优化,实现了文本与非文本像素级分类和直接回归文本边界顶点坐标的双任务输出。

3、Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection

主要思想

由于文本的多方向性、透视失真以及文本大小、颜色和比例的变化,对incidental scene文本的检测是一项具有挑战性的任务。前期的研究主要集中在使用矩形包围盒或水平滑动窗口进行文本定位,这可能会导致冗余的背景噪声、不必要的重叠甚至信息丢失。针对这些问题,本文提出了一种新的基于卷积神经网络(CNNs)的文本检测方法,称为深度匹配先验网络(DMPNet)。首先在多个特定的中间卷积层中使用四边形滑动窗口对重叠区域较大的文本进行粗略的检测,然后提出一种共享蒙特卡罗方法,用于快速准确地计算多边形区域。在此基础上,设计了一个相对回归的序贯协议,该协议能够精确地预测具有紧凑四边形的文本。此外,还提出了一种辅助平滑LN Loss以进一步恢复文本的位置,在鲁棒性和稳定性方面比L2损失和smooth L1损失具有更好的整体性能。

4、DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images

主要思想

本文提出了一种基于完全卷积神经网络(CNN)的文本区域建议生成和文本检测的统一框架DeepText。首先,提出了初始区域提议网络(Inception RPN),并设计了一组具有文本特征的先验包围盒,以达到只有100个候选提议的高单词召回率。接下来,提出了一个功能强大的文本检测网络,该网络嵌入了模糊文本类别(ATC)信息和多级兴趣区域池(MLRP),用于文本和非文本分类和精确定位。最后,应用一个迭代包围盒投票方案来追求高以互补的方式回忆并引入过滤算法以保留最合适的边界框,同时为每个文本实例移除多余的内部和外部框。

5、Detecting Oriented Text in Natural Images by Linking Segments

主要思想

大多数最先进的文本检测方法都是针对水平拉丁语文本的,并且对于实时应用来说速度不够快。介绍了一种面向文本检测的方法——分段链接(SegLink)。其主要思想是将文本分解为两个局部可检测的元素,即片段和链接。段是覆盖单词或文本行一部分的定向框;链接连接两个相邻的段,指示它们属于同一个单词或文本行。通过端到端训练的全卷积神经网络在多个尺度上密集地检测这两个元素。

最后的检测是通过组合链接连接的片段来产生的。与以前的方法相比,SegLink在准确性、速度和易训练性方面都有所提高。它在标准ICDAR 2015附带(挑战4)基准上实现了75.0%的f指标,以较大幅度超越了之前的最佳水平。它在512×512个图像上以超过20 FPS的速度运行。而且,SegLink不需要修改就可以检测到非拉丁语文本行,比如中文。

6、Detecting Text in Natural Image with Connectionist Text Proposal Network

主要思想

论文提出了一种新的连接主义文本提议网络(CTPN),该网络能够准确地定位自然图像中的文本行,CTPN直接在卷积特征映射中检测一系列精细尺度文本建议中的文本行。论文开发了一个垂直anchor机制,可以联合预测每个固定宽度方案的位置和文本/非文本分数,大大提高了定位精度。序列方案自然地由递归神经网络连接,递归神经网络与卷积网络无缝结合,形成端到端的可训练模型,这使得CTPN能够探索图像的丰富上下文信息,能够检测到非常模糊的文本。CTPN在多尺度、多语言文本上能够可靠工作,无需进一步的后处理,与以往自下而上的多步后滤波方法不同。


点赞 评论 引用 举报

游客

富文本
Markdown
您需要登录后才可以回帖 登录 | 立即注册

结贴

您对问题的回复是否满意?
满意度
非常满意 满意 一般 不满意
我要反馈
0/200