他的回复:
1、Arbitrary-Oriented Scene Text Detection via Rotation Proposals主要思想介绍了一种基于旋转的新颖网络框架,用于自然场景图像中面向任意方向的文本检测。论文的主要思想为旋转区域提案网络(RRPN),该网络旨在生成带有文本方向角度信息的倾斜proposal,并将角度信息用于边界框回归,以使proposal在方向方面更准确地适合文本区域。除此之外,还提出了旋转兴趣区域(RRoI)池化层,以将任意方向的proposal投影到feature map上供分类器进行分类。与以前的文本检测系统相比,基于region proposal的体系结构确保了面向任意方向的文本检测的计算效率。2、Deep Direct Regression for Multi-Oriented Scene Text Detection主要思想提出了一种基于深度直接回归的多方向场景文本检测方法。检测框架简单有效,具有全卷积网络和后处理。对全卷积网络进行端到端的优化,实现了文本与非文本像素级分类和直接回归文本边界顶点坐标的双任务输出。3、Deep Matching Prior Network: Toward Tighter Multi-oriented Text Detection主要思想由于文本的多方向性、透视失真以及文本大小、颜色和比例的变化,对incidental scene文本的检测是一项具有挑战性的任务。前期的研究主要集中在使用矩形包围盒或水平滑动窗口进行文本定位,这可能会导致冗余的背景噪声、不必要的重叠甚至信息丢失。针对这些问题,本文提出了一种新的基于卷积神经网络(CNNs)的文本检测方法,称为深度匹配先验网络(DMPNet)。首先在多个特定的中间卷积层中使用四边形滑动窗口对重叠区域较大的文本进行粗略的检测,然后提出一种共享蒙特卡罗方法,用于快速准确地计算多边形区域。在此基础上,设计了一个相对回归的序贯协议,该协议能够精确地预测具有紧凑四边形的文本。此外,还提出了一种辅助平滑LN Loss以进一步恢复文本的位置,在鲁棒性和稳定性方面比L2损失和smooth L1损失具有更好的整体性能。4、DeepText: A Unified Framework for Text Proposal Generation and Text Detection in Natural Images主要思想本文提出了一种基于完全卷积神经网络(CNN)的文本区域建议生成和文本检测的统一框架DeepText。首先,提出了初始区域提议网络(Inception RPN),并设计了一组具有文本特征的先验包围盒,以达到只有100个候选提议的高单词召回率。接下来,提出了一个功能强大的文本检测网络,该网络嵌入了模糊文本类别(ATC)信息和多级兴趣区域池(MLRP),用于文本和非文本分类和精确定位。最后,应用一个迭代包围盒投票方案来追求高以互补的方式回忆并引入过滤算法以保留最合适的边界框,同时为每个文本实例移除多余的内部和外部框。5、Detecting Oriented Text in Natural Images by Linking Segments主要思想大多数最先进的文本检测方法都是针对水平拉丁语文本的,并且对于实时应用来说速度不够快。介绍了一种面向文本检测的方法——分段链接(SegLink)。其主要思想是将文本分解为两个局部可检测的元素,即片段和链接。段是覆盖单词或文本行一部分的定向框;链接连接两个相邻的段,指示它们属于同一个单词或文本行。通过端到端训练的全卷积神经网络在多个尺度上密集地检测这两个元素。最后的检测是通过组合链接连接的片段来产生的。与以前的方法相比,SegLink在准确性、速度和易训练性方面都有所提高。它在标准ICDAR 2015附带(挑战4)基准上实现了75.0%的f指标,以较大幅度超越了之前的最佳水平。它在512×512个图像上以超过20 FPS的速度运行。而且,SegLink不需要修改就可以检测到非拉丁语文本行,比如中文。6、Detecting Text in Natural Image with Connectionist Text Proposal Network主要思想论文提出了一种新的连接主义文本提议网络(CTPN),该网络能够准确地定位自然图像中的文本行,CTPN直接在卷积特征映射中检测一系列精细尺度文本建议中的文本行。论文开发了一个垂直anchor机制,可以联合预测每个固定宽度方案的位置和文本/非文本分数,大大提高了定位精度。序列方案自然地由递归神经网络连接,递归神经网络与卷积网络无缝结合,形成端到端的可训练模型,这使得CTPN能够探索图像的丰富上下文信息,能够检测到非常模糊的文本。CTPN在多尺度、多语言文本上能够可靠工作,无需进一步的后处理,与以往自下而上的多步后滤波方法不同。