论文解读系列二十二:自然场景文字检测与识别系列--端到端文字识别算法Mask TextSpotter系列解读-下

Hint 发表于 2021/08/20 15:48:16 2021/08/20
【摘要】 端到端文字识别算法Mask TextSpotter系列论文分为Mask TextSpotter v1(MTS V1),Mask TextSpotter v2(MTS V2)和Mask TextSpotter v3(MTS V3),分别发表于ECCV 2018,TPAMI 2021和ECCV 2020,其中V2是V1的期刊扩展版。限于篇幅,该系列将分为“上”、“下”两篇博客连载。

端到端文字识别算法Mask TextSpotter系列论文分为Mask TextSpotter v1(MTS V1),Mask TextSpotter v2(MTS V2)和Mask TextSpotter v3(MTS V3),分别发表于ECCV 2018,TPAMI 2021和ECCV 2020,其中V2是V1的期刊扩展版。限于篇幅,该系列将分为“上”、“下”两篇博客连载。

[MTS V1] Pengyuan Lyu, Minghui Liao, Cong Yao, Wenhao Wu, Xiang Bai, Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes, ECCV 2018, pp. 67-83

[MTS V2] Minghui Liao, Pengyuan Lyu, Minghang He, Cong Yao, Wenhao Wu, Xiang Bai, Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes, IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 43, no. 2, pp. 532-548

[MTS V3] Minghui Liao, Guan Pang, Jing Huang, Tal Hassner, Xiang Bai, Mask TextSpotter v3: Segmentation Proposal Network for Robust Scene Text Spotting, ECCV 2020, pp. 706–722

4. MTS V2 实验结果及分析

为了验证 MTS V2 算法的有效性,本小节将讨论和对比 5 个标准数据集上的文字检测和端到端文字识别结果,包括一个水平文字数据集 IC 13 、两个多方向文字数据集 IC 15 和 COCO-Text 、一个不规则形状文字数据集 Total-Text 和一个多语种数据集 MLT- 2017 。此外,本小节还在多个自然场景文字识别的标准数据集上验证了独立的识别模型的有效性。一些端到端文字识别可视化的结果在图 10 中展示。从中可以看出, MTS V2 能处理各种复杂形状的文字,包括水平文字、多方向文字和曲型文字。

 10 MTS V2 的可视化结果展示

第一列来自 IC 13 数据集;第二列来自 IC 15 数据集;第三列来自 Total-Text 数据集。红色虚线框表示错误负样本。

4.1. 实现细节

1 MTS V2 算法的实现细节

MTS V2 模型的所有模块都可以同步端到端训练。训练主要包括使用合成数据集预训练和使用真实数据集微调。实验中模型的批大小设置为 8 。区域候选网络、 Fast R-CNN 和掩码分支的批大小分别设置为256 、 512 和 64 。在微调阶段, MTS V2 采用了数据增强和多尺度训练。数据增强包括随机旋转和色彩变化等。多尺度训练时,输入图片以保持长宽比的模式将短边随机缩放到 5 个尺度 。对于每一批图片数据, MTS V2 从多个数据集中按照固定比例采样,其中 SynthText 、 IC 13 、 IC 15 、 Total-Text 和 SCUT 的采样比例设置为 2:2:2:1:1 。

MTS V2 模型使用带有权重衰减为 0.001 和动量为 0.9 的随机梯度下降算法优化。 预训练 阶段 MTS V2 模型以 0.01 的初始学习率迭代了 2 7 万次,其中学习率在 10 万和 20 万迭代次数时分别下降为前一阶段的十分之一。在微调阶段,初始学习率被设置为 0.001 。之后,学习率在 10 万迭代次数时下降为初始学习率的十分之一。微调阶段共迭代 15 万次。

2 独立的识别模型的实现细节

该 独立的识别 模型仅使用合成数据进行训练。批处理大小设置为 128 。该模型使用带有 0.0001 权重衰减和 0.9 动量的 ADAM 算法进行优化。基础学习 率设置 为 0.0002 并且在 2 个迭代周期( epoch )之后将为原来的十分之一。训练共 3 个迭代周期。该模型在训练阶段使用了数据增强和多尺度训 练。其中多尺度训练时输入图片的尺度被随机缩放到 。在推理阶段,输入图片的高度设置为 64 ,宽度根据原图长宽比计算。为了防止图片宽度过小, MTS V2 将最小宽度设置为256 。

4.2. 水平文字

MTS V2 IC 13 数据集上验证其在水平文字数据集上的文字检测和端到端文字识别的优越性。在推理阶段,该数据集的输入图片大小缩放到短边 1 000 ,保持长宽比不变。

 2 IC 13 IC 15 数据集的检测结果

* ”表示该方法使用了多尺度测试。“ P ”,“ R ”,“ F 1 ”分别表示精确率、召回率和 F 1 分数。

方法


IC 13

IC15

P

R

F1

帧 / 秒

P

R

F1

帧 / 秒

Zhang 等人 [44]

88

78

83

0.5

71

43

54

0.5

CTPN [42]

93

83

88

7.1

74

52

61

-

SegLink [45] *

87.7

83.0

85.3

20.6

73.1

76.8

75

-

EAST [46] *

-

-

-

-

83.3

78.3

80.7

-

SSTD [89]

89

86

88

7.7

80

73

77

7.7

Word S up [103] *

93.3

87.5

90.3

2

79.3

77

78.2

2

Lyu 等人 [104]

93.3

79.4

85.8

10.4

94.1

70.7

80.7

3.6

RRD [90]

88

75

81

-

85.6

79.0

82.2

6.5

TextSnake [97]

-

-

-

-

84.9

80.4

82.6

1.1

Xue 等人 [93]

91.5

87.1

89.2

-

-

-

-

-

He 等人 [62]

91

88

90

-

87

86

87

-

FOTS [63]

-

-

88.3

23.9

91.0

85.2

88.0

7.8

MTS V2 - 检测

94.1

88.1

91

4.6

85.8

81.2

83.4

4.8

MTS V2

94.8

89.5

92.1

3

86.6

87.3

87.0

3.1


 3 IC 13 数据集上的端到端文字识别结果

S ”,“ W ”,“ G ”分别为强词汇表、弱词汇表和通用词汇表。“ * ”:多尺度测试。精度为 F 1 分数。“ Word Spotting ”和“ End -to-End ”分别表示不同的评价方式。

方法


Word Spotting

End-to-End

帧 / 秒


S

W

G

S

W

G

Jaderber 等人 [35]

90.5

-

76

86.4

-

-

-

Deep T extsPotter [61]

92

89

81

89

86

77

9

Li 等人 [60]

94.2

92.4

88.2

91.1

89.8

84.6

1.1

TextBoxes++*

96

95

87

93

92

85

-

He 等人 [62]

93

92

87

91

89

86

-

FOTS [63]

92.7

90.7

83.5

88.8

87.1

80.8

22

MTS V2

92.7

91.7

87.7

93.3

91.3

88.2

3.1

MTS V2 IC 13 数据集上的文字检测结果和端到 端文字 识别结果分别在  2  3 中。 MTS V2 在检测任务上取得了最好的结果,在端到 端文字 识别任务上取得了具有竞争力的结果。在端到 端文字 识别任务中,有些方法在通用词汇表情况下表现不佳,而 MTS V2 在通用词汇表情况下表现得更好,说明 MTS V2 对词汇表的依赖更低。

4.3. 多方向文字

MTS V2 在 IC 15 和 COCO-Text 数据集上验证了其在多方向文字检测及端到端文字识别上的优越性。

 4 IC 15 数据集上的端到端文字识别结果

S ”,“ W ”,“ G ”分别表示强词汇表,弱词汇表和通用词汇表。“ * ”表示多尺度测试。表中数值为 F 1 分数。括号中的数字表示输入图片的短边尺寸。“ Word Spotting ”和“ End -to-End ”分别表示不同的评价方式。

方法


Word Spotting

End-to-End

帧 / 秒


S

W

G

S

W

G

HUST_MCLAB [45]

70.6

-

-

67.9

-

-

-

Deep TextSpotter [61]

58

53

51

54

51

47

9

TextBoxes++*

76.5

69

54.4

73.3

65.9

51.9

-

He 等人 [62]

85

80

65

82

77

63

-

FOTS [63]

84.7

79.3

63.3

81.1

75.9

60.8

7.5

MTS V2 (720)

74.1

69.7

64.1

74.2

69.2

63.5

3.8

MTS V2 (1000)

81.4

76.8

71.5

82

76.6

71.1

3.1

MTS V2 (1600)

82.4

78.1

73.6

83

77.7

73.5

2


对于 IC 15 数据集,如 表 4 所示, MTS V2 在检测任务取得了具有竞争力的结果(最高的召回率,第二高的 F 1 分数),在端到端文字识别任务上当给定词汇表为通用词汇表时,超过之前的最好的方法 8 .6% 和 1 0.5% 。当给定词汇表为强词汇表或者弱词汇表时, MTS V2 亦取得了具有竞争力的结果。 实验结果表明 MTS V2 对词汇表用来矫正识别结果的依赖性更低。

为了验证 MTS V2 的通用性和泛化性, MTS V2 未使用 COCO-Text 的训练集进行训练或者微调,而是直接使用基于其他数据集训练出来的模型进行测试。如 表 5 所示, MTS V2 在文字检测和端到端文字识别均取得了最好的性能。

5  COCO-Text 数据集上的文字检测和端到端文字识别结果

MTS V2 采用 V 2.0 的标注进行测试。“ * * ”:使用 V 1.1 的标注进行测试的方法。“ * ”:多尺度测试。“ Word Spotting ”和“ End -to-End ”分别表示不同的评价方式。

方法


Detection

End-to-End

P

R

F1

P

R

F1

AP

Baseline A [64] **

83.8

23.3

36.5

68.4

28.3

40

-

Baseline B [64] **

59.7

10.7

19.1

9.97

54.5

16.9

-

Baseline C [64] **

18.6

4.7

7.5

1.7

4.2

2.4

-

EAST [46] **

50.4

32.4

39.5

-

-

-

-

S STD [89] **

46

31

37

-

-

-

-

RRD [90] *

64

57

61

-

-

-

-

Lyu 等人 [104]

72.5

52.9

61.1

-

-

-

-

MTS V2

66.8

58.3

62.3

65.8

37.3

47.61

23.9


4.4. 曲型文字

检测和识别任意形状文字(比如曲型文字)是 MTS V2 的一个巨大优势。 MTS V2 通过 Total-Text 数据集上的实验来验证其在检测和端到端识别不规则形状文字的优越性。此数据集的输入图片短边设置为 1000 ,保持图片的长宽比不变。

如 图 11 所示,相比 TextBoxes , MTS V2 在曲 型文字 检测和识别上具有明显的优势。此外, 表 6 中的定量结果表明 MTS V2 在检测任务超过 FTSN 的结果 3.9% ,在端到 端文字 识别任务超过TextBoxes至少28.5% 。

 11 Total -Text 部分结果可视化比较

第一行为 TextBoxes 的结果;第二行为 MTS V2 的结果。


 6 Total-Text 数据集的结果

None ”表示无词汇表;“ Full ”表示包含测试集所有单词的词汇表;“ Det _eval ”和“ P ASCAL ”是数据集官方提供的两种不同标准的评价方式。 P ”、“ R ”、“ F1 ”分别表示精确率、召回率和 F1 分数

方法



检测

端到端识别

Det_eval

PASCAL

None


Full


P

R

F1

P

R

F1

TextBoxes [59]

47.2

42.5

44.7

52.8

49.7

51.2

36.3

48.9

FTSN [124]

-

-

-

84.7

78

81.3

-

-

MTS V2

81.8

75.4

78.5

88.3

82.4

85.2

65.3

77.4


4.5. 多语种端到 端文字 识别

MTS V2 在 MLT- 2017 数据集上验证了其在字符类别数量非常大(超过 7 000 个字符类别)的情况下的鲁棒性。为了公平对比, MTS V2 在本实验中采用了与 E2E-MLT [125] 一样的 ResNet -34 骨架网络,一样的由 E2E-MLT [125] 提供的训练数据。因为该训练数据没有字符集别的标注,此实验中的字符分割分支被关闭。如表 7 所示, MTS V2 显著超过了 E2E-MLT [125] ,表明了其能够处理字符类别数较大的多语种文字。

 7 MLT-2017 数据集的结果

“Det-R” 表示检测的召回率; “E2E-R” 表示端到端文字识别的召回率; E2E-R ED1 表示编辑距离小于等于 1 的召回率; “P” 表示精确率 “2+” “3+” 表示单词长度大于 2 或者 3 才被计算。 “*” 表示在评估时忽略困难样本。

方法


MLT-2017 验证集

Det-R

E2E-R

E2E-R ED1

P

E 2E-MLT [125] 2+

68.4

42.9

55.5

53.7

Ours 2+

80

47.9

71.3

68.3

E 2E-MLT [34] 3+

69.5

43.3

59.9

59.7

Ours 3+

82.8

48.5

74.2

60.5

Ours 2+*

80

47.9

71.3

75.2

Ours 3+*

82.8

48.5

74.2

72.8


4.6. 速度

从 表 4 中的速度对比可以看出, MTS V2 不是最快的,但是与之前的方法速度相当。具体地,当输入图片的短边分别是 720 、 1000 和 1600 时, MTS V2 的推理速度分别为 3 .8 帧 / 秒、 3 .1 帧 / 秒 和 2 .0 帧 / 秒。

4.7. 消融实验

1 识别部分

如 表 2 所示,当移除识别部分时,“ MTS V2 - 检测”相比“ MTS V2 ”在 IC 13 和 IC 15 数据集上检测性能分别下降了 1 .1% 和 3 .6% 。该实验结果表明了文字检测的精度可以从文字检测模块和文字识别模块的联合优化中得到提升。

2 真实数据的字符标签

如 表 8 所示,虽然“ MTS V2 ( a )”未使用真实数据的字符标签,它仍然取得了具有竞争力的结果。具体地,对于水平文字( IC 13 数据集),它相比使用了少量真实数据字符标签的模型下降了 0 .1%~0.9% ;对于多方向文字( IC 15 ),它甚至在某些参数下取得了更好的结果。这说明 MTS V2 并没有高度依赖真实数据的字符标签。

 8 消融实验结果

“( a )”表示没有真实数据的字符标签;“( b )”表示没有使用加权编辑距离,而是使用标准编辑距离;Δ表示对应方法相比原方法的变化量。“ Word Spotting ”和“ End -to-End ”分别表示不同的评价方式。

不同设置



IC13

IC15

Word Spotting

End-to-End

Word Spotting

End-to-End

S

W

G

S

W

G

S

W

G

S

W

G

MTS V2

92.7

91.7

87.7

93.3

91.3

88.2

82.4

78.1

73.6

83.0

77.7

73.5

MTS V2 (a)

92.0

91.0

87.6

92.6

90.4

87.4

82.7

78.3

72.5

83.3

77.9

72.3

MTS V2 (b)

92.3

91.0

87.7

93.0

90.5

88.0

81.9

77.7

72.2

82.1

77.0

72.0

(a) Δ

-0.7

-0.7

-0.1

-0.7

-0.9

-0.8

0.3

0.2

-1.1

0.3

+0.2

- 1.2

(b ) Δ

-0.4

-0.7

0.0

-0.3

-0.8

-0.2

-0.5

-0.4

-1.4

-0.9

-0.7

- 1.5


3 加权编辑距离

如 表 8 所示,加权编辑距离在 MTS V2 中取得了最多 1 .5% 的提升。这说明 MTS V2 的识别模型本身足够鲁棒。即使这样,实验结果也足以说明加权编辑距离相比标准编辑距离的优越性。

4.8. 独立的识别模型的实验

独立的识别模型的实验是为了验证 MTS 系列方法中的识别模块相比之前的文字识别算法的优越性。一些字符分割和空间注意力权重的可视化展示在 图 12 中。从图中可以看出,每一步预测注意力都集中在对应的字符区域上。为了更公平地与之前的方法比较,本实验中未采用加权编辑距离。

1 与最新的文字识别方法的比较

如表 9 所示, MTS 系列方法的独立的识别模型在所有数据集上均超过了之前最好的文字识别方法 ASTER 。具体地,该模型的准确率在 SVTP 和 CUTE 数据集上分别超过 ASTER 算法 5.1% 和 9.0% 。这表明了该独立的识别模型对于不规则形状和透视变换的文字识别具有巨大的优势。实验结果强有力地表明了该模型在文字识别任务上的准确性和鲁棒性。

 12 字符分割和空间注意力权重的可视化展示

2 位置嵌入

本实验在“ MTS-SAM -w/o-PE ”中 移除了 位置嵌入模块,以验证位置嵌入的有效性。如 表 9 所示,“ MTS -SAM-A ”在所有数据集上均取得了比“ MTS -SAM -w/o-PE ”更好的结果,尤其在曲 型文字 数据集上( CUTE )。这充分说明了位置嵌入对于文字识别的作用。

3 单词级别标签

由于空间注意力模块( SAM )只要求单词级别的标签,它可以使用 Synth 90k 和 SynthText 一起训练(“ MTS -SAM-B ”)。相比只使用 SynthText 训练的“ MTS -SAM- A ”,它在所有数据集上均取得了更好的结果,如 表 9 所示。因此,能够直接利用单词级别标签进行训练是至关重要的。

4 互补性

本实验比较了单独使用字符分割模块(“ MTS - 字符分割”)和单独使用空间注意力模块(“ MTS -SAM - A ”)的准确率。从 表 5 9 中可以看出,“ M TS - 字符分割”在 IIIT 5k 和 IC 13 数据集上(大多数文字为常规形状)表现得更好,而“ MTS -SAM - A ”则在 CUTE 数据集(曲型文字)上表现得更好。这意味着这两个模块擅长不同的数据,具有互补性。该独立的识别模型的最终结构是两者的结合(“ MTS - 字符分割 -SAM ”),它在所有数据集上取得了最好的结果,充分验证了这两个模块的互补性。它们的互补性体现在:字符分割模块使用局部信息去预测字符,而空间注意力模块倾向于使用全局信息解码字符序列。

 9 自然场景文字识别的准确率结果

50 ”,“ 1 k ”,“ Full ”分别表示不同大小的词汇表;“ 90k ”和“ ST ”分别表示 Synth90k SynthText 合成数据。“ private ”表示私有数据。

方法


骨架网络

数据


IIIT5k

SVT

13

15

SP

CU

50

1k

0

50

0

0

0

0

0

CRNN [51]

VGG

90k

97.8

95

81.2

97.5

82.7

89.6

-

-

-

Lee 等人 [126]

VGG

90k

96.8

94.4

78.4

96.3

80.7

90

-

-

-

Yang 等人 [127]

VGG

Private

97.8

96.1

-

95.2

-

-

-

75.8

-

Cheng 等人 [128]

ResNet

90K+ST

99.3

97.5

87.4

97.1

85.9

93.3

70.6

-

-

Cheng 等人 [56]

self-design

90k+ST

99.6

98.1

87

96

82.8

-

68.2

73

76.8

Bai 等人 [55]

ResNet

90k+ST

99.5

979

88.3

96.6

87.5

94.4

73.9

-

-

ASTER-A [129]

ResNet

90k

98.7

96.3

83.2

96.1

81.6

89.7

68.9

75.4

67.4

ASTER-B [129]

ResNet

90k+ST

99.6

98.8

93.4

97.4

89.5

91.8

76.1

78.5

79.5

MTS -

字符分割

ResNet

ST

99.7

99.1

94

98

87.2

92.3

73.8

76.3

82.6

M TS -SAM

w/o-PE

ResNet

ST

99.2

97.8

90.1

97.1

86.1

88.4

72.5

75.5

78.1

M TS -

SAM-A

ResNet

ST

99.3

97.8

91.1

97.7

87

90.8

73

76.4

84

M TS -

SAM-B

ResNet

90k+ST

99.4

98.6

93.9

98.6

90.6

95.3

77.3

82.2

87.8

M TS -

字符分割 -SAM

ResNet

90k+ST

99.8

99.3

95.3

99.1

91.8

95.3

78.2

83.6

88.5


4.9. MTS V2 实验总结

本小节实验包括自然场景端到 端文字 识别,文字检测,文字识别等多个任务,涉及各种各样的数据集。实验分析总结如下:( 1 )相比之前只能处理水平或者多方向文字的端到 端文字 识别算法, MTS V2 能够检测和识别各种复杂形状文字,比如曲型文字。( 2 ) MTS V2 在没有词汇表或者大词汇表的情况下,端到 端文字 识别性能具有巨大的优势,说明 MTS V2 对词汇表的依赖很小。( 3 )空间注意力模块不仅带来了性能的提升,还极大地缓解了对字符集别标签的依赖。( 4 )独立的识别模型在文字识别任务上取得了最好的结果,显著超越了之前的文字识别方法。

4.10. MTS V2 失败样例

一些失败的样例在 图 13 中展示。一个失败样例是极端光照情形。另一个失败样例是将形似文字的图案识别字符。此外, MTS V2 针对密集的极端角度文字有较大的局限性,将在后文中进行详细讨论。

 13 MTS V2 失败样例(红色框内)展示

5. MTS V3 实验结果及分析

本小节通过不同的自然场景文字标准数据集实验来验证 MTS V3 的旋转鲁棒性,长宽比鲁棒性,不规则形状鲁棒性和小尺度文字鲁棒性。

5.1. 实现细节

为了与 MTS V2 公平对比, MTS V3 采用了和它一样的训练数据和训练设置,详见 4.1 小节。唯一的区别点在于数据增强的随机旋转角度范围设置为 。本实验中亦使用相同的随机旋转角度范围重新训练了 MTS V2 ,以在 Rotated IC 13 数据集上进行旋转鲁棒性的对比。

5.2 旋转鲁棒性

本小节通过对 IC 13 数据集进行旋转生成了 Rotated IC 13 数据集,以更好地验证旋转鲁棒性,旋转角度包括 。由于 IC 13 数据集大多数文字是水平的,因此有助于控制 Rotated IC 13 中的文字的旋转角度,更好地进行性能分析。

MTS V3 与最新的两个方法 MTS V2 和 CharNet 在 Rotated IC 13 数据集上进行旋转鲁棒性的对比。为了公平比较, MTS V2 采用了与 MTS V3 一样的训练数据和数据增强。 图 14 是一些可视化结果的对比。从中可以看出, MTS V2 在检测和识别密集极端角度文字实例效果不好而 MTS V3 能够较好地处理这些情况。

本实验使用 CharNet [114] 官方实现的训练好的模型来进行测试,因为其未公开训练代码。该模型拥有一个更大的骨架网络( Hourglass -88 [130] )并使用了不同的训练数据。因此,直接将其与 MTS V3 对比是不合适的。但是从 图 15 中可以看到,随着旋转角度增大, CharNet 的文字检测和端到端文字识别性能下降非常剧烈。

1 )文字 检测任务

如 图 15 所示,当旋转角度为 45、60 时, MTS V2 的性能急剧下降,而 MTS V3 的检测结果则更加稳定。如 表10 所示,当旋转角度为 时, MTS V3 的精确率、召回率、 F1 分数分别超过 MTS V2 的结果 26.8% 、 18.0% 和 2 2.0% 。更多的结果参见表11 。这充分说明了 MTS V3 在文字检测任务相对于 MTS V2 具有极大的旋转鲁棒性优势。

 10 Rotated IC13 数据集的定量结果

P ”、“ R ”、“ F1 ”分别表示精确率、召回率和 F1 分数

方法



RoIC13 ( 旋转角度 : 45°)

RoIC13 ( 旋转角度 : 60°)

检测

端到端识别

检测

端到端识别

P

R

F1

P

R

F1

P

R

F1

P

R

F1

CharNet [114]

57.8

56.6

57.2

34.2

33.5

33.9

65.5

53.3

58.8

10.3

8.4

9.3

MTS V2

64.8

59.9

62.2

66.4

45.8

54.2

70.5

61.2

65.5

68.2

48.3

56.6

MTS V3

91.6

77.9

84.2

88.5

66.8

76.1

90.7

79.4

84.7

88.5

67.6

76.6


2 端到 端文字 识别任务

如 图 15 所示,端到端文字识别结果的趋势和文字检测结果是相似的。 MTS V3 和 MTS V2 的性能差距在旋转角度为 45、60 时尤其显著。如表 10 所示,当旋转角度为 时, MTS V3 的精确率、召回率、 F1 分数分别超过 MTS V2 的结果 22.1% 、 21.0% 和 21.9% 。更多的结果参见表 12 。该实验结果表明 MTS V3 在端到端文字识别任务上亦具有显著的旋转鲁棒性的优势。

 14 Rotated IC 13 数据集上的一些可视化结果对比

第一行图片为 MTS V2 的结果;第二行图片为 MTS V3 的结果。

 15 不同旋转角度的 Rotated IC 13 数据集的文字检测和端到端文字识别结果

左图为文字检测结果;右图为端到端文字识别结果。


 11 Roteted IC 13 数据集上的更多检测结果

RA ”表示旋转角度。 P ”、“ R ”、“ F1 ”分别表示精确率、召回率和 F1 分数

RA(°)


CharNet

MTS V2

MTS V3

P

R

F1

P

R

F1

P

R

F1

0

82.3

81.7

82.0

89.9

85.3

87.5

90.5

84.4

87.4

15

88.1

82.2

85.1

84.6

77.4

80.7

91.8

82.3

86.8

30

85.7

79.4

82.5

75.2

66.0

70.3

91.3

78.9

84.6

45

57.8

56.6

57.2

64.8

59.9

62.2

91.6

77.9

84.2

60

65.5

53.3

58.8

70.5

61.2

65.5

90.7

79.4

84.7

75

58.4

41.1

48.3

77.1

77.7

77.4

89.3

80.8

84.8

90

63.0

40.4

49.2

89.8

76.8

82.8

89.8

77.2

83.0


 12 Rotated IC 13 数据集上的更多端到 端文字 识别结果

RA(°)


CharNet

MTS V2

MTS V3

P

R

F1

P

R

F

P

R

F1

0

61.7

61.2

61.4

86.3

75.2

80.3

89.0

73.0

80.2

15

66.3

61.9

64.0

78.4

53.5

63.6

87.2

69.8

77.5

30

60.9

56.5

58.6

73.9

54.7

62.9

87.8

67.5

76.3

45

34.2

33.5

33.9

66.4

45.8

54.2

88.5

66.8

76.1

60

10.3

8.4

9.3

68.2

48.3

56.6

88.5

67.6

76.6

75

0.3

0.2

0.2

77.0

59.2

67.0

86.9

67.6

76.0

90

0.0

0.0

0.0

82.0

56.9

67.1

85.9

57.9

69.1

5.3. 长宽比鲁棒性

因为 MSRA -TD500 数据集包含大量极端长宽比的文字行实例, MTS V3 通过在 MSRA -TD500 数据集的实验来验证其长宽比鲁棒性。由于该数据集没有识别标签,本实验中识别模块被冻结,只验证检测模块。

虽然 MTS V2 是当前最好的端到 端文字 识别方法之一,但是它由于区域候选网络的局限性,难以处理极端长宽比文字实例。实验的定量结果如 表 13 中所示。相比 MTS V2 , MTS V3 取得了 9.3% 的性能提升( F1分数)。这表明了 MTS V3 在处理极端长宽比文字实例上的优越性。而且, MTS V3 亦超过了近期的文字检测算法,进一步验证了其长宽比鲁棒性。

 13 MSRA -TD500 数据集的定量检测结果

方法

精确率

召回率

F1 分数

He等人 [62]

71

61

69

DeepReg [91]

77

70

74

RRD [90]

87

73

79

PixelLink [108]

83

73.2

77.8

Xue等人 [93]

83

77.4

80.1

CRAFT [101]

88.2

78.2

82.9

Tian等人 [87]

84.2

81.7

82.9

MSR [131]

87.4

76.7

81.7

DBNet (w / o DCN)

86.6

77.7

81.9

MTS V2

80.8

68.6

74.2

MTS V3

90.7

77.5

83.5


5.4. 不规则形状鲁棒性

由于 Total-Text 数据集包含了大量不同形状的文字,包括水平文字、多方向文字和不规则形状文字, MTS V3 通过在 Total-Text 数据集上的端到 端文字 识别结果来验证其不规则形状鲁棒性。从  16 中可以看出 MTS V3 相比 MTS V2 可以得到更加精确的检测和识别结果,尤其是不规则形状或者大字符间距的文字实例。如  14 所示, MTS V3 在没有词汇表的情形下的 F1 分数超过 MTS V2 算法 5.9% ,充分表明了 MTS V3 的不规则形状鲁棒性。

 16 Total - Text 数据集的一些可视化结果

第一行是 MTS V2 的结果;第二行是 MTS V3 的结果。


 14 Total-Text 数据集的端到端文字识别结果

None ”表示无词汇表;“ Full ”表示使用一个包含整个测试集单词的词汇表。精度为 F1 分数。

方法

None

Full

CharNet [114] Hourglass-57

63.6

-

Qin 等人 [112] Inc-Res

63.9

-

Boundary TextSpotter [132]

65 . 0

76.1

ABCNe t [133]

64.2

75.7

MTS V2

65.3

77.4

MTS V3

71.2

78.4


5.5. 小尺度文字实例鲁棒性

IC 15 数据集的挑战主要在于低分辨率和小尺度文字。如 表 15 所示, MTS V3 在不同词汇表的所有任务均超过了 MTS V2 ,表明了 MTS V3 处理低分辨率图片中的小尺度文字的优越性。

虽然 TextDragon [115] 在强词汇表和弱词汇表的情况下性能更好,但是 MTS V3 在没有词汇表的情况下显著超过它 7 .1% 和 9 .0% 。由于现实场景中几乎没有这样的仅仅包含数百个或者千余词的强词汇表或弱词汇表,因此,包含 9 万词的通用词汇表的结果是更有意义。这种现象的原因是 MTS V3 采用的基于注意力机制的文字识别器,比 TextDragon 使用的基于 CTC 的文字识别器能够学习到语义知识。对强词汇表的矫正的依赖性更低,也是 MTS V3 的一个优点。

 15 IC 15 数据集的端到端文字识别结果

S ”,“ W ”和“ G ”分别表示强词汇表,弱词汇表和通用词汇表。括号中的数值表示输入图片的短边尺寸。精度为 F1 分数。“ Word Spotting ”和“ End -to-End ”分别表示不同的评价方式。

方法


Word Spotting

End-to-End Recognition

帧 / 秒


S

W

G

S

W

G

TextBoxes++

76.5

69

54.4

73.3

65.9

51.9

-

H e 等人 [62]

85

80

65

82

77

63

-

TextDragon [115]

86.2

81.6

68.0

82.5

78.3

65.2

2.6

CharNet [114]

-

-

-

80.1

74.5

62.2

-

Boundary [132]

-

-

-

79.7

75.2

64.1

-

MTS V2 (1600)

82.4

78.1

73.6

83.0

77.7

73.5

2

MTS V3 (1440)

83.1

79.1

75.1

83.3

78.1

74.2

2.5


5.6. 局限性

虽然 MTS V3 相比之前的端到 端文字 识别算法在旋转文字实例上更加鲁棒,但是对于极端旋转角度比如 ,它仍然有少许的精度的下降,如 图 15 所示。这是因为这种极端角度可能让识别器难以判断文字的方向。

6. 小结

MTS 系列算法是首个可完全端到 端训练 的任意形状文字检测算法。该系列算法有 MTS V2 和 MTS V3 两个变种。不同于之前的将文字识别问题看作一个一维的序列预测问题的端到 端文字 识别方法, MTS V2 算法在二维空间中去解码文字序列,既降低了训练难度,又提升了检测和识别不规则形状文字的能力。 MTS V2 算法在水平文字数据集、多方向文字数据集、不规则形状文字数据集和多语种文字数据集等多个标准数据集的实验结果表明了它在文字检测、文字识别、端到 端文字 识别任务上的有效性。 MTS V3 算法在 MTS V2 算法的基础上,使用分割候选网络取代原有的区域候选网络。得益于分割候选网络精确的候选区域表示, MTS V3 算法极大地提升了模型针对复杂形状文字的鲁棒性。在不同旋转角度的 Rotated IC 13 数据集、极端长宽比文字 MSRA-TD 500 数据集和不规则形状文字的 Total - Text 数据集上的实验结果表明了 MTS V3 的旋转鲁棒性、长宽比鲁棒性和不规则形状鲁棒性。

参考文献

[123]  Milletari F, Navab N, Ahmadi S A. V-Net: Fully Convolutional Neural Networks for Volumetric Medical Image Segmentation[C]//International Conference on 3D Vision, 3DV. IEEE, 2016: 565–571.

[124]  Dai Y, Huang Z, Gao Y, et al. Fused Text Segmentation Networks for Multi-oriented Scene Text Detection[C]//Proceedings of the International Conference on Pattern Recognition. 2018: 3604–3609.

[125]  Bušta M, Patel Y, Matas J. E2e-Mlt-An Unconstrained End-to-End Method for Multi-Language Scene Text[C]//Proceedings of the Asian Conference on Computer Vision. 2018.

[126]  Lee C Y, Osindero S. Recursive Recurrent Nets with Attention Modeling for OCR in the Wild[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 2016: 2231–2239.

[127]  Yang X, He D, Zhou Z, et al. Learning to Read Irregular Text with Attention Mechanisms[C]//International Joint Conference on Artificial Intelligence. 2017: 3280–3286.

[128]  Cheng Z, Bai F, Xu Y, et al. Focusing Attention: Towards Accurate Text Recognition in Natural Images[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 5086–5094.

[129]  Shi B, Yang M, Wang X, et al. ASTER: An Attentional Scene Text Recognizer with Flexible Rectification[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, IEEE, 2019, 41: 2035–2048.

[130]  Newell A, Yang K, Deng J. Stacked Hourglass Networks for Human Pose Estimation[C]//Proceedings of the European Conference on Computer Vision. Springer, Cham, 2016: 483–499.

[131]  Xue C, Lu S, Zhang W. MSR: Multi-Scale Shape Regression for Scene Text Detection[C]//International Joint Conference on Artificial Intelligence. 2019: 989–995.

[132]  Wang H, Lu P, Zhang H, et al. All You Need Is Boundary: Toward Arbitrary-Shaped Text Spotting[J]. Proceedings of the Association for the Advance of Artificial Intelligence, 2020, 34(07): 12160–12167.

[133]  Liu Y, Chen H, Shen C, et al. ABCNet: Real-Time Scene Text Spotting with Adaptive Bezier-Curve Network[C]//Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition. IEEE, 2020: 9806–9815.


想了解更多的AI技术干货,欢迎上华为云的AI专区,目前有AI编程Python等六大实战营(http://su.modelarts.club/qQB9)供大家免费学习。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。