- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

论文解读系列二十一：自然场景文字检测与识别系列--端到端文字识别算法Mask TextSpotter系列解读-上

Hint 发表于 2021/08/20 15:18:35 2021/08/20

【摘要】端到端文字识别算法Mask TextSpotter系列论文分为Mask TextSpotter v1（MTS V1），Mask TextSpotter v2（MTS V2）和Mask TextSpotter v3（MTS V3），分别发表于ECCV 2018，TPAMI 2021和ECCV 2020，其中V2是V1的期刊扩展版。限于篇幅，该系列将分为“上”、“下”两篇博客连载。

端到端文字识别算法Mask TextSpotter系列论文分为Mask TextSpotter v1（MTS V1），Mask TextSpotter v2（MTS V2）和Mask TextSpotter v3（MTS V3），分别发表于ECCV 2018，TPAMI 2021和ECCV 2020，其中V2是V1的期刊扩展版。限于篇幅，该系列将分为“上”、“下”两篇博客连载。

[MTS V1] Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, Xiang Bai, Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes, ECCV 2018, pp. 67-83

[MTS V2] Minghui Liao, Pengyuan Lyu, Minghang He, Cong Yao, Wenhao Wu, Xiang Bai, Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 2, pp. 532-548

[MTS V3] Minghui Liao, Guan Pang, Jing Huang, Tal Hassner, Xiang Bai, Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting, ECCV 2020, pp. 706–722

1. 引言

自然场景端到端文字识别旨在同时检测和识别自然场景图像中的文字。该任务已经有大量的研究工作。传统的方法 [35,59] 将文字检测和文字识别任务分离，使用一个训练好的文字检测器来检测文字候选区域，再使用文字识别模型识别这些文字区域。这种框架看起来简单且直接，但是可能导致次优的检测和识别精度，因为文字检测和文字识别这两个任务是相关和互补的。一方面，文字识别结果高度依赖检测出的文字候选区域的精度；另一方面，文字识别结果有助于移除假阳性检测样本。

最近，一些研究者开始将文字检测和文字识别结合到一个可端到端训练的网络中。该网络主要由两部分组成：一个用来提取文字实例的检测网络和一个用来预测每个文字实例的序列标签的序列到序列的识别网络。这些方法取得了显著的性能提升，表明文字检测模型和文字识别模型是互补的，尤其是当它们采用端到端的训练模式时。然而，这些方法有两个局限性。

第一个局限性是它们不是完全的可端到端训练。它们采用了课程学习（ Curriculum Learning ）策略 [109] ，或者交替训练计划，或者使用文字区域的真值而非检测模块的预测结果来训练识别模块。它们无法做到平滑地端到端训练的原因有两个：一是文字识别的训练要求准确的文字位置，然而训练早期的文字检测的预测结果是不准确的；二是它们采用了循环神经网络 [110] 或者联结时序分类（ Connectionist Temporal Classification, CTC ）损失函数，这些比普通的卷积神经网络更难优化的模块也给联合训练带来了困难。第二个局限性是这些方法聚焦在水平或者多方向文字识别。然而，真实的自然场景下的文字实例的形状是复杂多样的，包括水平的、多方向的、不规则形状的等。

针对以上两个局限性，本章提出了一个新的端到端文字识别算法 MTS V2 。它能够检测和识别各种复杂形状的文字，如图 1 所示。它的检测模块受启发于 Mask R-CNN [111] 算法，通过实例分割来得到准确的文字区域。因此，它能够检测任意形状的文字。此外，与之前的序列到序列的文字识别方法不同，它的文字识别部分通过一个字符分割模块和一个空间注意力模块在二维空间中来解码不规则形状的文字序列。一方面，空间注意力模块在训练时只需要单词级别的文字识别监督信息；另一方面，作为一个全局性的文字识别模块，空间注意力模块和基于局部预测的字符分割模块是非常互补的。

MTS V2 相比大多数场景文字检测、文字识别、端到端文字识别方法具有以下明显的优势：（ 1 ） MTS V2 使用实例分割来处理文字检测问题，因此它可以检测任意形状文字；（ 2 ） MTS V2 的识别模型更加通用，能够在二维空间中处理规则形状和不规则形状的文字，并同时考虑了局部和全局的上下文信息；（ 3 ）与之前的只能处理水平文字或者多方向文字的端到端文字识别算法相比， MTS V2 能够端到端地识别任意形状的文字；（ 4 ） MTS V2 是首个可以完全端到端训练的端到端文字识别算法，享有简单平滑的训练流程。因此，它的检测模型和识别模型能够更好地从特征共享和联合优化中受益。（ 5 ） MTS V2 在多个英文数据集和多语种数据集上验证了方法的有效性。实验表明 MTS V2 在文字检测和端到端文字识别均超越了之前的方法。具体地， MTS V2 在 IC15 数据集的通用词汇表的端到端文字识别任务上比之前最好的方法的精度高 10.5% 。从 MTS V2 中分离出来的独立的文字识别模型也显著超越了之前的文字识别算法。

图 1 不同的端到端文字识别算法的结果

左图是水平文字端到端文字识别算法的结果；中图是多方向文字端到端文字识别算法的结果；右图是 MTS V2 的结果。绿色框表示检测结果；绿色背景中的红色文字表示识别结果。

在 MTS V2 之后， Qin 等人 [112] 直接应用了 Mask R-CNN 进行文字检测，同样也使用了区域候选网络来生成候选框。这些方法在旋转鲁棒性和不规则形状鲁棒性上取得了巨大的进步。然而，这些方法的框架并不是完全对旋转、长宽比和形状鲁棒。虽然这些方法能够处理离散的各种方向和不同形状的文字实例，但是它们受限于区域候选网络，难以正确处理密集的多方向文字实例或者极端长宽比的文字行。

区域候选网络的局限性体现在两个方面：（ 1 ）预先手工设计的水平矩形框的默认框难以很好地匹配极端长宽比的问题；（ 2 ）当文字较为密集时，生成的单个水平矩形候选框可能包含多个文字实例。如图 2 所示， MTS V2 产生的候选框互相重叠且它的感兴趣区域特征包含多个相邻的文字实例，导致了文字检测和文字识别的错误。从图中可以看出，这种错误通常是局部的一个或者多个字符的错误，而非单词整体的错误。如果有一个很强的词汇表，这种错误难以在最终的精度上体现出来。因此，没有词汇表或者通用词汇表的评估结果更有说服力。

本章提出了分割候选网络来解决区域候选网络的上述问题。分割候选网络是无默认框的设计，并且对于候选框提供了精确的多边形的表示。没有预定义的默认框的限制，分割候选网络可以很好地处理极端长宽比和不规则形状的文字。然后，本章提出的硬感兴趣区域掩码可以充分利用精确的候选框来提取感兴趣区域特征，排除相邻文字实例和背景噪声的干扰。这对于密集多方向文字或者不规则形状文字是有好处的。于是，本章将 MTS V2 中的区域候选网络替换为分割候选网络，提出了 MTS V3 。

图 2 区域候选网络和分割候选网络的对比

左图是基于区域候选网络的 MTS V2 ；右图是基于分割候选网络的 MTS V3 。

实验结果表明 MTS V3 在旋转鲁棒性、长宽比鲁棒性和不规则形状鲁棒性三个方面取得了巨大的提升。在所有图片经过不同角度的旋转的 Rotated IC13 数据集上， MTS V3 在文字检测和端到端文字识别任务上的 F 1 分数超过之前最好的方法 21.9% 。在曲型文字数据集 Total -Text 上， MTS V3 在端到端文字识别任务上的 F1 分数超过之前最好的方法 5.9% 。 MTS V3 同样在包含大量极端长宽比文字的 MSRA -TD500 数据集和包含大量低分辨率的小尺度文字的 IC 15 数据集上取得了最好的性能。该方法的贡献如下：（ 1 ） MTS V3 提出了分割候选网络以产生精准的任意形状的候选框。无默认框的分割候选网络克服了区域候选网络处理极端长宽比或者不规则形状文字的局限性，并且提供了更精确的候选框以提升文字检测和文字识别的鲁棒性。（ 2 ） MTS V3 提出了硬感兴趣区域掩码，将多边形候选框精确地转化为对应的感兴趣区域特征，有效地抑制了相邻文字实例和背景噪声。（ 3 ） MTS V3 显著地提高了旋转鲁棒性、长宽比鲁棒性和不规则形状鲁棒性，并在多个具有挑战的自然场景文字数据集上取得了最好的端到端文字识别结果。

2. 相关工作

近期的自然场景端到端文字识别算法大致可以分为两类：（ 1 ）检测器和识别器分别训练的多模型端到端文字识别算法；（ 2 ）将文字检测和文字识别集成到一个统一的模型中的单模型的端到端文字识别算法。

多模型的端到端文字识别算法 使用两个分离的文字检测模块和文字识别模块分别进行文字检测和文字识别。 Jaderberg 等人提出了一个端到端文字识别算法，其由候选生成模块、过滤候选的随机森林分类器、改善候选的基于卷积神经网络的回归模块和一个基于卷积神经网络的单词分类器组成。 TextBoxes ++ 算法将其提出的文字检测器与文字识别算法 CRNN 结合来完成端到端文字识别任务。 Zhan 等人 [113] 提出了在文字检测和文字识别系统中采用多模态学习。

单模型的端到端文字识别算法 受益于文字检测和文字识别的互补性，在近期占据了主导地位。 Li 等人[60]将一个水平文字检测器和一个序列到序列的文字识别算法集成到一个统一的网络中。同时， Deep TextSpotter [61] 提出了一个相似的框架，不过其中的检测器能处理多方向文字实例。之后， Liu 等人 [63] 和 He 等人 [62] 分别通过采用更好的文字检测和文字识别方法来进一步提升端到端文字识别的性能。 Qin 等人 [112] 提出了使用一个 Mask R-CNN [111] 检测器和一个基于注意力的识别器来处理任意形状文字。 Xing 等人 [114] 提出了在文字实例中同时检测和识别字符，再使用文字实例的检测结果来分组字符。 TextDragon [115] 通过分组和解码一系列基于中心线的局部区域来检测和识别文字实例。

3. MTS 算法

M TS 算法由 ResNet- 50 的骨架网络，产生候选区域的候选网络，改善候选区域的 Fast R-CNN模块，用来精确检测的文字实例分割模块，和结合字符分割和空间注意力的文字识别模块组成。该算法有两个变种： MTS V2 和 MTS V3 。两者的主要区别在于候选网络的不同。前者采用的是传统的区域候选网络而后者采用的是本章提出的分割候选网络。分割候选区域提供精确的多边形表示可以抑制感兴趣区域的噪声，以达到更加精准的文字检测和文字识别。

3.1. 框架

MTS V2 的总体框架如图 3 所示。整个框架有三个组成部分：一个区域候选网络 [76] 来产生候选框，一个 Fast R-CNN [75] 模块用来进行包围框的回归，一个掩码分支用于进行文字的精确检测和识别。其中掩码分支包括文字实例分割、字符分割、以及文字序列识别三个任务。 MTS V3 相比 MTS V2 ，使用分割候选网络取代了区域候选网络，同时引入了硬感兴趣区域掩码，如图 4 所示。 MTS 系列方法采用了基于 ResNet -50 的骨架网络。

图 3 MTS V2 的整体框架图

图 4 MTS V3 的框架图

“ F ”为用于分割的融合特征图。

（ 1 ） 候选网络

候选网络的作用是为后续文字检测和文字识别模块产生文字区域候选框。 MTS V2 的候选网络直接使用了 Mask R-CNN [111] 中的区域候选网络并沿用了其默认框的设置。区域候选网络采用了特征金字塔 [116] 结构。 MTS V3 采用的是 3.2 小节中提出的分割候选网络并配合 3.3 小节中提出的硬感兴趣区域掩码，来得到更加精确的候选框和更加鲁棒的特征。 MTS 系列算法均采用了 M ask R-CNN 中提出的 RoI Align [111] 来提取文字候选区域的特征。

（ 2 ） Fast R-CNN

该分支包含一个框分类任务和一个框回归任务。框分类任务即对候选网络产生的感兴趣区域特征进行文字区域和非文字区域的分类；框回归任务即对于候选网络产生的候选框进行进一步的回归。它的主要作用是进一步提高包围框的准确程度以及滤去部分非文字区域。

（ 3 ） 掩码分支

掩码分支的作用是基于候选网络产生的文字候选区域检测和识别任意形状的文字实例。它包含三个子任务：基于掩码的文字实例分割任务、字符分割任务和文字序列识别任务。文字实例分割即在感兴趣区域特征中对文字实例进行分割得到精确的文字检测结果；字符分割即在感兴趣区域特征中分割出字符的多类别分割，以得到文字识别结果；文字序列识别则基于一个空间注意力模块，对感兴趣区域特征进行序列解码，以得到文字识别结果。字符分割的文字识别结果和空间注意力模块的识别结果两者中置信度更高的结果作为最终的文字识别结果。

3.2. 分割候选网络

表 1 分割候选网络的分割预测模块的配置

“ Conv ”表示卷积算子；“ BN ”表示批归一化；“ DeConv ”表示反卷积算子；“ k ”，“ s ”，和“ p ”分别表示核大小，步长和填白。

类型	配置	输入 / 输出通道数
Conv	k: 3; s: 1; p: 1	256/64
BN	momentum: 0.1	64/64
ReLU	-	64/64
DeConv	k: 2 , s: 2, p: 0	64/64
BN	momentum: 0.1	64/64
ReLU	-	64/64
DeConv	k: 2, s: 2 , p: 0	64 / 1
Sigmoid	-	1 /1

如图 4 所示，分割候选网络采用了一个 U-Net 的结构来增强尺度鲁棒性。与基于特征金字塔结构的区域候选网络在多个尺度的特征图上产生候选框不同，分割候选网络从分割图中生成候选区域，其中分割图由一个融合特征图预测得到。的分辨率为，其中和是输入图片的高度和宽度。分割预测模块的配置如表 1 所示。预测的文字分割图的尺寸为，其取值的范围为。

（ 1 ） 分割标签生成

为了分离相邻的文字实例，常用的做法是将文字实例区域进行收缩。受 PSENet [86] 和 DBNet 算法的启发，分割候选网络采用了 Vatti clipping 算法 [96] 来收缩文字区域。标签生成的示意图如图 5 所示。

图 5 分割标签生成的示意图

左图：红色和绿色的多边形分别表示原始的标注和收缩后的区域。右图为分割标签：黑色和白色分别表示值为 0 和 1 。

（ 2 ） 候选区域生成

给定一个由分割网络产生的文字分割的概率图。分割候选网络首先将其转化为二值图。然后，分割候选网络在二值图中搜索出连通的文字区域。这些连通区域实际上就是收缩过的文字区域。因此，分割候选网络使用 Vatti clipping 算法将其膨胀回文字区域。

分割候选网络能够精确地产生多边形的候选区域。因此，它能够为极端长宽比的文字行和密集多方向 / 不规则形状文字生成合适的候选区域，也为后续的硬感兴趣区域掩码模块提供了精确的多边形位置信息。

3.3. 硬感兴趣区域掩码

由于感兴趣区域对齐算子 [111] （ RoI Align ）仅支持水平矩形的包围框， MTS V3 使用包围多边形的最小水平矩形来产生感兴趣区域特征，以保持感兴趣区域对齐算子的高效和简洁。

Qin 等人 [112] 提出了感兴趣区域掩码，将掩码概率图和感兴趣区域特征进行乘积操作，其中掩码概率图是 Mask R-CNN [111] 检测模块产生的。然而，该掩码概率图可能是不准确的，因为它们是通过区域候选网络产生的候选框生成的。比如，对于密集多方向文字，该掩码概率图中可能包含多个文字实例。得益于分割候选网络产生的精确的多边形候选区域， MTS V3 可以直接通过本小节提出的硬感兴趣区域掩码将多边形应用到感兴趣区域特征上，以获得无干扰的特征。

硬感兴趣区域掩码将二值多边形掩码图与感兴趣区域特征相乘得到新的特征，以抑制背景噪声和相邻的文字实例。在实验部分，硬感兴趣区域掩码和其他相关算子包括 Qin 等人 [112] 提出感兴趣区域掩码进行了对比。在采用硬感兴趣区域掩码之后，特征中的背景噪声和相邻文字实例被抑制了。这显著地降低了之后的文字检测和文字识别模块的难度。

3.4. 文字实例分割和字符分割

如图 3 所示，给定一个由 RoI Align 产生的分辨率的感兴趣区域特征，其通过 4 个卷积核的卷积层和 1 个卷积核和步长的反卷积层，再输入到文字实例分割和字符分割模块。文字实例分割模块的输出是一个表示文字分割概率的通道数为 1 的掩码图。该掩码图能提供像素级别精确的文字位置信息。

3.5. 空间注意力模块

字符分割模块有一定的局限性。首先，字符分割模块需要字符位置的标注来监督它的训练；其次，它需要一个特殊设计的后处理算法从分割图中生成文字序列；最后，字符顺序没有显示地体现在字符分割图上。尽管通过一些规则可以将字符转为文字序列，但它的通用性依然受限。

为了克服这些局限性，受最近的空间注意力模型 [117,118] 启发， MTS 系列方法引入了一个空间注意力模块以直接从二维的特征图中解码文字序列。与之前的方法 [53] 先将特征编码成一维的特征序列再进行解码不同，空间注意力模块直接对二维的特征图进行解码，以更好地表示各种形状的文字。它的流程图如图 5 6 中红色虚线框内所示。首先，给定的特征图通过双线性插值缩放到一个固定的尺度；然后，缩放后的特征图通过一个卷积层、一个最大池化层和一个卷积层，并嵌入位置信息；最后，基于循环神经网络的空间注意力模块用来解码文字序列。

（ 1 ） 位置嵌入

由于空间注意力模块中的算子都不是位置敏感的，受 Geh r ing 等人 [119] 和 Wojna 等人 [118] 启发， MTS 系列方法引入了位置嵌入模块。如图 6 所示，位置嵌入置于基于 RNN 的空间注意力之前。位置嵌入特征图的表示如下：

（ 2 ） 基于循环神经网络的空间注意力

MTS 系列方法的注意力机制基于 Bah danau 等人 [120] 。但是， MTS 系列方法将其扩展到更通用的形式：在二维空间中学习注意力权重。假定本模块迭代运行T次，预测的字符序列类别为。在第t步，有三个输入：（ 1 ）前文提到的输入特征图F ；（ 2 ）上一步的隐状态S_t-1 ；（ 3 ）上一次预测的字符类别y_t-1。

首先，上一步的隐状态S_t-1从一个向量通过复制扩展为一个特征图 :

然后，注意力权重计算如下：

接下来，本模块将注意力权重应用到原始特征图，以计算第t步的 glimpse 特征：

循环神经网络的输入计算如下：

将循环神经网络的输入和上一时刻的循环神经网络的隐状态输入给当前时刻的循环神经网络单元：

最后，第t步的条件概率可以通过一个线性变换和一个 softmax 函数得到：

图 6 独立识别模型框架图

3.6. 独立的识别模型

为了更好地验证 MTS 系列方法识别部分的优越性， MTS 系列方法构建了一个独立的识别模型。独立识别模型的整体框架如图 6 所示。该模型采用了基于 ResNet -50 的特征金字塔结构和一个金字塔池化模块 [121] （ Pyramid Pooling Module ， PPM ）以增加感受野。此外，与原始的特征金字塔不同，该模型没有对网络的最后两级做下采样处理而是使用膨胀卷积 [122] 来保持它们的分辨率。字符分割和空间注意力模块使用的共享特征是通过对金字塔特征进行上采用和串联得到的。

独立的识别模型由两个识别模块组成。一是在像素级别预测字符的字符分割模块。其结合一个像素投票算法来分组和排列像素以得到最终的文字序列结果。二是在二维空间以端到端的形式预测文字序列的空间注意力模块。

3.7. 标签生成

文字实例分割模块和字符分割模块的标签如图 7 所示。对于一个包含输入图片和对应的真值的训练样本， MTS 系列方法需要为区域候选网络（分割候选网络）、 Fast R-CNN 、文字实例分割、字符分割和空间注意力模块生成目标标签。其中前三者的标签生成与 Mask R-CNN 保持一致。

对于字符分割标签的生成， MTS 系列方法首先对所有的字符包围框进行从固定中心点到四边的距离的收缩；其次，收缩框内的值置为对应字符类别的索引值，外部置为 0 。对于没有字符位置信息的数据，其全部置为 - 1 ，将在训练中被忽略。对于空间注意力模块，其标签是一个字符索引的序列，无需字符的位置信息。

图 7 文字实例分割模块和字符分割模块的标签示意图

左图：蓝色框表示区域候选网络生成的文字区域候选框；红色多边形和黄色包围框分别表示真值多边形文字实例框和字符框；绿色框表示覆盖多边形的最小水平矩形区域。右图：上图表示文字实例分割的真值；下图表示字符分割的真值。

3.8. 优化

MTS 系列算法的损失函数的介绍详见论文，在此不再赘述。

3.9. 推理

与训练阶段采用候选网络生成的候选框不同，在推理阶段 MTS 系列方法使用更准确的 Fast R-CNN 模块的输出结果作为掩码分支的输入。具体地，推理的流程如下：（ 1 ）给定一个输入测试图片，得到 Fast R-CNN 模块的结果，通过非最大值抑制滤去冗余的结果；（ 2 ）保留的候选区域特征输入掩码分支以生成文字实例分割图，字符分割图和空间注意力模块的输出序列；（ 3 ）通过计算文字区域的轮廓直接得到文字区域的多边形表示，同时，通过解码字符分割图和空间注意力模块的结果得到文字序列。此外，若推理时存在词汇表， MTS 系列方法采用一个加权的编辑距离算法以找到最合适的匹配单词。

（ 1 ） 字符分割的解码

MTS 系列方法使用如图 8 所示像素投票算法来将字符分割模块预测的字符分割图转化为字符序列的文字识别结果。字符分割图共有 3 7 个通道，可以分解为通道数为 1 的背景图和通道数为 3 6 的字符图。像素投票算法的流程如下：（ a ）对背景图（值范围为 [ 0,1] ）进行二值化，阈值设置为 0 .75 ；（ b ）根据背景图中的连通区域得到所有字符区域；（ c ）在字符图上计算每个字符区域内的均值，该值可以看作该区域的字符类别的概率；（ d ）该区域内均值最大的字符类别判定为该区域对应的字符；（ e ）将所有字符按照英文的书写习惯，从左到右排列得到字符序列。

图 8 像素投票算法流程图

此处使用原图表示感兴趣区域特征以达到更好的可视化效果。

（ 2 ） 空间注意力模块的解码

对于序列识别模型，一般有两种解码方式。一种是贪心解码策略。它每一步都选取概率最高的类别。另一种是限定范围搜索（ Beam Search ）。它每一步都保留概率最高的 k 个类别。遵循以往的文字识别算法 [58] ， MTS 系列方法采用了限定范围搜索并且将 k 设置为 6 。

由于 MTS 系列方法可以产生两组识别结果。字符分割模块的结果的置信度可以通过计算像素投票算法中所有字符的概率均值得到；空间注意力模块的结果的置信度可以通过计算所有字符概率的均值得到。自然地， MTS 系列方法动态地选取置信度更高的结果作为最终的识别结果。

（ 3 ） 加权编辑距离

编辑距离可以用来查找给定词汇表中与预测文字序列最匹配的单词。但是，其容易出现词汇表中的多个单词与预测文字的编辑距离均为最小值的情况。这是因为所有的操作算子（删除、插入、替代）在原始的编辑距离中都享有相同的代价，这实际上是不合理的。

图 9 编辑距离和加权编辑距离计算方式的示意图

受 Yao 等人 [58] 启发， MTS 系列方法提出了一个动态调整不同操作算子的代价的权重的加权编辑距离算法。如图 9 所示，与普通的编辑距离算法给不同的操作算子分配相同的代价不同，加权编辑距离的代价取决于像素投票算法中或者限定范围搜索算法中的字符概率。具体计算方式如下：

参考文献

[58] Yao C, Bai X, Liu W. A Unified Framework for Multioriented Text Detection and Recognition[J]. IEEE Transactions on Image Processing, IEEE, 2014, 23(11): 4737–4749.

[59] Liao M, Shi B, Bai X, et al. TextBoxes: A Fast Text Detector with a Single Deep Neural Network[C]//Proceedings of the Association for the Advance of Artificial Intelligence. 2017: 4161–4167.

[60] Li H, Wang P, Shen C. Towards End-to-End Text Spotting with Convolutional Recurrent Neural Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017(2): 5248–5256.

[61] Busta M, Neumann L, Matas J. Deep TextSpotter: An End-to-End Trainable Scene Text Localization and Recognition Framework[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017, 2017-Octob: 2223–2231.

[62] He T, Tian Z, Huang W, et al. An End-to-End Textspotter with Explicit Alignment and Attention[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5020–5029.

[63] Liu X, Liang D, Yan S, et al. FOTS: Fast Oriented Text Spotting with a Unified Network[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 5676–5685.

[102] Liu Z, Lin G, Yang S, et al. Towards Robust Curve Text Detection with Conditional Spatial Expansion[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2019: 7269–7278.

[103] Hu H, Zhang C, Luo Y, et al. WordSup: Exploiting Word Annotations for Character Based Text Detection[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 4950–4959.

[104] Lyu P, Yao C, Wu W, et al. Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 7553–7563.

[105] Liu Z, Lin G, Yang S, et al. Learning Markov Clustering Networks for Scene Text Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2018: 6936–6944.

[106] Xie E, Zang Y, Shao S, et al. Scene Text Detection with Supervised Pyramid Context Network[C]//Proceedings of the Association for the Advance of Artificial Intelligence. 2019, 33: 9038–9045.

[107] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Trans. Multim., IEEE, 2017, 20(11): 3111–3122.

[108] Deng D, Liu H, Li X, et al. PixelLink: Detecting Scene Text via Instance Segmentation[C]//Proceedings of the Association for the Advance of Artificial Intelligence. 2018: 6773–6780.

[109] Bengio Y, Louradour J, Collobert R, et al. Curriculum Learning[C]//Proceedings of the International Conference on Machine Learning. 2009: 41–48.

[110] Hochreiter S, Schmidhuber J. Long Short-Term Memory[J]. Neural Computation, 1997, 9(8): 1735–1780.

[111] He K, Gkioxari G, Dollár P, et al. Mask R-CNN[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 2980–2988.

[112] Qin S, Bissaco A, Raptis M, et al. Towards Unconstrained End-to-End Text Spotting[C]//Proceedings of the IEEE International Conference on Computer Vision. 2019: 4703–4713.

[113] Zhan F, Xue C, Lu S. GA-DAN: Geometry-Aware Domain Adaptation Network for Scene Text Detection and Recognition[C]//Proceedings of the IEEE International Conference on Computer Vision. IEEE, 2019: 9104–9114.

[114] Xing L, Tian Z, Huang W, et al. Convolutional Character Networks[C]//Proceedings of the IEEE International Conference on Computer Vision. IEEE, 2019: 9125–9135.

[115] Feng W, He W, Yin F, et al. Textdragon: An End-to-End Framework for Arbitrary Shaped Text Spotting[C]//Proceedings of the IEEE International Conference on Computer Vision. IEEE, 2019: 9075–9084.

[116] Lin T-Y, Doll P, Girshick R B, et al. Feature Pyramid Networks for Object Detection[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 936–944.

[117] Donahue J, Hendricks L A, Guadarrama S, et al. Long-Term Recurrent Convolutional Networks for Visual Recognition and Description[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2015: 2625–2634.

[118] Wojna Z, Gorban A N, Lee D S, et al. Attention-Based Extraction of Structured Information from Street View Imagery[C]//Proceedings of the International Conference on Document Analysis and Recognition. 2017, 1: 844–850.

[119] Gehring J, Auli M, Grangier D, et al. Convolutional Sequence to Sequence Learning[C]//Proceedings of the International Conference on Machine Learning. 2017: 1243–1252.

[120] Bahdanau D, Cho K H, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[C]//Proceedings of the International Conference on Learning Representations. 2015.

[121] Zhao H, Shi J, Qi X, et al. Pyramid Scene Parsing Network[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2017: 6230–6239.

[122] Yu F, Koltun V. Multi-Scale Context Aggregation by Dilated Convolutions[C]//Proceedings of the International Conference on Learning Representations. 2016.

想了解更多的AI技术干货，欢迎上华为云的AI专区，目前有AI编程Python等六大实战营（http://su.modelarts.club/qQB9）供大家免费学习。

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

论文解读系列二十一：自然场景文字检测与识别系列--端到端文字识别算法Mask TextSpotter系列解读-上

1. 引言

2. 相关工作

3. MTS 算法

3.1. 框架

3.2. 分割候选网络

3.3. 硬感兴趣区域掩码

3.4. 文字实例分割和字符分割

3.5. 空间注意力模块

3.6. 独立的识别模型

3.7. 标签生成

3.8. 优化

3.9. 推理

参考文献

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

论文解读系列二十一：自然场景文字检测与识别系列--端到端文字识别算法Mask TextSpotter系列解读-上

1. 引言

2. 相关工作

3. MTS 算法

3.1. 框架

3.2. 分割候选网络

3.3. 硬感兴趣区域掩码

3.4. 文字实例分割和字符分割

3.5. 空间注意力模块

3.6. 独立的识别模型

3.7. 标签生成

3.8. 优化

3.9. 推理

参考文献

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品