- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

论文解读系列四：实时端到端场景文字检测识别网络ABCNet（CVPR 2020论文）

谷雨润一麦发表于 2020/05/12 16:43:35 2020/05/12

9.5k+ 0 0

【摘要】文本检测算法的一个核心问题就是文本行的形状表征形式，很多文字检测算法都是通过提出新的文本框、行的形状表征方法来优化文本检测精度，包括最早由回归水平框到倾斜矩形框的textboxes系列、将文本行看做部分组件组成的seglink、textsnakes、以及最近一系列基于分割的方法cornertext、PSENet等。而本文提出了通过贝塞尔曲线来表征文本框。

摘要:文本检测算法的一个核心问题就是文本行的形状表征形式，很多文字检测算法都是通过提出新的文本框、行的形状表征方法来优化文本检测精度，包括最早由回归水平框到倾斜矩形框的textboxes系列、将文本行看做部分组件组成的seglink、textsnakes、以及最近一系列基于分割的方法cornertext、PSENet等。而本文提出了通过贝塞尔曲线来表征文本框，同时基于贝塞尔曲线更完美贴合曲形文本的特点对文本特征进行矫正，结合嵌入到网络中的基于CTC的文本识别模块组成一个端到端的检测、识别网络。

基本思路

一个常见文本框可以由水平框、倾斜框等表示，而对于曲形的等不规则文本倾斜框等无法完美表征，现有一些基于分割的方法可以通过预测文本框的分隔结果然后通过后处理得到多边形框来尽量贴合曲形文本，而本文提出通过连续平滑的贝塞尔曲线来对曲形文本进行更加贴合的覆盖。

算法框架：

该算法骨干网络为常用的ResNet50加FPN来融合多尺度特征，检测分支为在多个尺度上的特征图上进行类似于EAST的anchor free的密集预测文本的外接矩形框，然后通过RoIAlign对于文本框特征进行提取然后预测回归其对应的贝塞尔曲线控制点(这里论文讲的不是非常清楚，感兴趣可以等代码开源)，之后由该文提出的BezierAlign对预测的文本框即相应的贝塞尔曲线系数在特征图上进行矫正然后输入到后接的基于CTC的识别网络，实现端到端的检测、识别。

贝塞尔曲线

该文的一个核心贡献在于提出通过贝塞尔曲线来更好的表征文本框尤其是曲形文本框，贝塞尔曲线的核心思想是通过多项式去逼近连续函数，而具体的工程应用在于通过一系列控制点去绘制平滑的曲线。

（1）

（1）为贝塞尔曲线公式，P0~Pn为相应的控制点，略去数学证明，一个三阶的贝塞尔曲线绘制过程如下

选定四个控制点

在AB上选定一个点E，t = AE / AB，然后在BC上选择点F使得BF / BC = t，以此类推找到点J，将t从A到D的点j连接起来即为相应的贝塞尔曲线。

而现在常用的文字检测识别数据集都是用角点标注的，该文将原标注的角点当做贝塞尔曲线上的点，然后通过最小二乘法求解相应的贝塞尔控制点作为训练用的GT。

BezierAlign

对于曲形文本的识别已有一些方法，基于一些控制点来对于文本特征进行矫正来识别，如ASTER等，而该文针对文本框的曲形形状表征提出了BezierAlign 来对文本特征进行矫正。

具体如下，设我们经过BezierAlign输出得到的特征图大小为Wout X Hout，将输出特征图上的一个像素点映射回原特征图上，则对应的控制系数t应该是不变的即

而上下两条长边分别为两条贝塞尔曲线，再根据输出像素点的高对映射回去的控制点进行插值得到最终要在特征图上进行插值的坐标点。

最后将矫正的特征图输入到后接的基于CTC的识别网络中，实现端到端的训练。

结果

该文提出了用贝塞尔曲线表征曲形文本，并提出了相应的BezierAlign进行特征矫正，实现了一个端到端的文本检测、识别网络。在一些曲形文本数据集上都取得了较好的结果。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务