论文解读系列一:CVPR2019针对密集文本检测的算法PSENET
Shape Robust Text Detection with Progressive Scale Expansion Network (CVPR2019)
摘要:当前针对密集文本检测主要存在两个问题,首先是基于回归的算法得到的文字区域的表征形式都是四边形等形式,无法完美表征复杂形状的文字区域;然后是基于分割的方法无法有效的分隔出贴合较近的文字区域。该文通过将广度优先搜索联通区域的思想引入到基于分割的文字检测方法中,有效的解决了基于分割的方法中贴合较近的区域无法被分割开来的问题。
基本思路:
(a)图是原图,(b)是四边形表征的最好结果,但是相邻文字区域仍有较大重叠,(c)是基于分割的方法非常容易出现的错误,无法将相邻较近的区域分割开来。而(d)是基于该文提出的方法得到的结果,思路简单来讲就是一片连通区域可以由一个较小的区域不断合并相邻区域来扩展得到,文字区域也是如此。
算法框架:
首先网络的骨干网络是常见的FPN形式,将不同尺度的特征图进行融合来让最终进行回归的特征图获得不同尺度的特征信息和感受野以处理不同尺寸大小的文字实例。然后网络回归出不同尺寸的分隔图,这里不同尺寸的分隔图指的是回归对应的是一个文字实例不同尺度由小及大向外扩展的二值化分隔图,具体参考标注生成过程。
渐进式扩展算法
该文算法网络中输出的是每个文字实例不同尺寸的分隔图,但是最后对于每个文字实例而言得到的应该是一个单独的完整分隔图,该文采用了广度优先搜索联通区域的思路来进行后处理,得到最终的分隔结果。
简单而言就是首先在在网络输出的最小尺寸分隔图s1上采用广度优先搜索算法得到n个最小联通区域,然后基于该n个连通区域(该文称为kernels)在s2上继续进行连通区域搜索,一直迭代下去直到得到最大的连通区域作为一个文字区域的表征。
标注生成
标注生成过程如图,a中为正常标注得到的多边形,其正对应于最大尺寸分隔图的标注,然后对于原来多边形的各个角点向内收缩一定像素得到对应的层次的多边形,并填充作为对应层分隔图的标注。该文采用了Vatti clipping作为收缩算法计算di, 通过控制m和n两个超参数。
损失函数
损失函数如(1)所示,其中Lc为尺度最大的即每个完整文字实例的分隔图的损失函数,Ls对应于收缩过的文字实例的分隔损失函数
(1)
L主要借鉴于分割中常用的dice loss (2),该文作者对其中的dice系数做了一定修改(3),同时由于对于文字分割任务而言会存在一些非常容易混淆的干扰物如栅栏、网格等,这些都可以看做为难样本而在网络训练梯度回传时重点关注,该文采用了在线难样本选择(Online Hard Example Mining)的方式处理这种情况(3)中的M即为经过难样本选择的掩码。
(2)
(3)
而对于Ls而言,其仅关注文字区域的分割结果,所以(4)中W对非文字区域进行了忽略。
(4)
结果
该文借鉴宽度优先搜索连通区域的思路,将其引入到文字分割的任务中,有效解决了贴合较近的文本无法被分离开来的问题,在一些针对曲形文本的数据集上取得了很好的结果,同时在一些非曲形文本数据集上也取得了不错的结果,缺陷可能在于后处理理论上要对每个像素遍历、速度较慢,同时对于一些字符间隔较大的文本行处理结果较差。
- 点赞
- 收藏
- 关注作者
评论(0)