论文介绍—— 一种新的场景文本编辑方法RewriteNet

举报
松轩 发表于 2023/09/24 17:35:20 2023/09/24
【摘要】 本文介绍的论文是由韩国Upstage AI研究所7月发表的一篇论文。论文中提出了一种新的场景文本编辑方法RewriteNet,通过引入提取样式特征和文本内容的两个编码器,并利用自监督的方法将未标注的真实文本行数据加入训练中,解决了文本编辑任务中成对的真实文本行数据难以获取,以及只使用合成数据训练效果不佳的问题。 1. 简介文本编辑任务,是指输入一张风格图片和一张目标文本图片后,文本编辑的任务...

论文介绍——RewriteNet: Realistic Scene Text Image Generation via Editing with Implicit Decomposition of Text Contents and Styles

本文介绍的论文是由韩国Upstage AI研究所7月发表的一篇论文。论文中提出了一种新的场景文本编辑方法RewriteNet,通过引入提取样式特征和文本内容的两个编码器,并利用自监督的方法将未标注的真实文本行数据加入训练中,解决了文本编辑任务中成对的真实文本行数据难以获取,以及只使用合成数据训练效果不佳的问题。

1. 简介

文本编辑任务,是指输入一张风格图片和一张目标文本图片后,文本编辑的任务是将风格图片中的文本换成目标文本,而保留原来风格图片中的文字样式。场景文本编辑的用途主要有在虚拟现实的场景翻译中直接替代场景中的文字为翻译内容。同时也可以用于合成场景文本检测和识别的数据。

在这之前关于场景文本编辑的方法主要分为文本删除和文本转换两个阶段。文本删除将风格图片中的文本擦除掉,只留下背景;而文本转换模块先将目标文本迁移到风格图片中文本的样式,再将其与文本被擦除的背景进行融合,得到编辑好的图片。由百度提出的SRNet就是基本遵照这个pipeline,由背景擦除模块、文本风格迁移模块和融合模块组成;由华南理工大学提出的Mask-guided GAN则在文本风格迁移时考虑了文本的边框和阴影,生成的mask分为了文本、边框和阴影三个部分,其基本结构仍是前面提到的两个阶段。上述两阶段的方法除了推理速度较慢外,模型的训练也需要很多pair的数据,例如擦除、风格迁移和编辑前后pair的数据等,这些数据在现实场景中很难得到,因此上述的方法通常都是只用合成数据进行训练的。合成数据与真实数据之间的gap也导致了模型在编辑真实场景文本时效果不佳。

本文的主要贡献是提出了一种新的场景文本编辑模型RewriteNet,将编码器分为风格编码和文本内容编码两部分,这也是第一个利用文本内容信息进行文本编辑的方法。同时本文也提出了一种自监督的训练方法,能够将无标注的真实场景图片用于训练。

2. 方法介绍

如下图所示为RewriteNet的结构。

RewriteNet在推理阶段,风格编码器将风格图片编码为风格特征,文本内容编码器将目标文本图片编码为内容特征,生成器再利用这两个特征生成编辑后的图片。

模型训练分为使用合成数据进行训练和使用真实数据进行训练,两个步骤交替进行。在使用合成数据训练时,会引入一个attention机制的识别器。首先用文本内容编码器提取风格图像中的内容信息,并送入到识别器中进行训练。在随后的训练风格编码器、生成器和判别器时,我们需要将文本内容编码器的参数进行冻结。此处如果识别器不冻结的话,生成器会简单地通过文本内容编码器复制目标文本图片,从而导致训练失败。此时,我们通过风格编码器得到风格图片的风格特征,以及通过文本内容编码器得到目标文本图像中的文本特征后,将这两个特征送入生成器中得到被编辑的图片。此时通过L1 loss和对抗训练的loss来训练风格编码器和生成器,这里的对抗训练loss用的是鉴别器网络中各层特征的L1 loss。而在鉴别器进行训练时,会输入风格图像、目标文本的内容特征以及真伪的被编辑文本图片,通过Gan的loss进行对抗训练。

使用真实数据训练时,由于真实的文本行没有与其pair的被编辑的文本行图片,因此使用的风格图片和目标文本图片均为同一张图片。此时文本内容编码器的参数是冻结的,而风格编码器的参数是不冻结的。如果风格图片和编码器输出的目标图片完全一致的话,也会导致生成器简单地通过风格编码器复制编码器中的图片。因此在图片输入风格编码器前,我们对图片的一部分用黑块进行遮挡。用真实数据训练时,除了不需要训练文本内容编码器和识别器之外,其他部分训练的loss和使用合成数据训练时完全一致。

3. 实验

文本使用的评估指标有三个。首先是识别正确率,即引入训练好的识别器来识别已编辑的文本图片,得到其准确率。一般而言准确率越高越好,但是如果模型单纯地复制目标文本图片,识别正确率也会很高。另外两个指标LPIPS和FID都是衡量两张图片的相似度,这两个指标越低则两张图片的相似度越高。在文本编辑任务评估时,由于真实文本行图片是没有gt的,所以我们直接对比已编辑图片和原始风格图片的相似度,以衡量两张图片的风格相似度。但是如果模型简单地复制了风格图片时,这两个指标会很低。因此在评估文本编辑模型时,需要结合这三个指标一起参考。

在第一个实验中,作者与其他方法进行比较。可以看到,尽管本文提出的方法的LPIPS和FID两项指标没有达到SRNet的水平,但是识别正确率要远远高于SRNet。从可视化图片中可以看到SRNet的很多样本编辑后都比较模糊甚至文本完全没有变换,而RewriteNet则表现良好。

在第二个实验中,作者验证了目标文本图片中文字的风格变化是否会影响被编辑文本的风格。测试的三个指标均为比较不同生成图片之间的相似度。从可视化图片可以看出,目标文本图片中文字颜色的变化对生成图片的影响很小,而文本的字体会有较小的影响。我个人的猜想是RewriteNet中的文本内容编码不是完美的,仍然会保留一定的风格信息。而在训练时目标文本图片和生成的图片是一致的,因此生成器会参考内容编码的一些风格特征生成图片。

第三个实验是消融实验,作者先尝试去掉模型的识别器,则文本内容编码器完全无法训练;在训练时去掉真实数据时模型的性能不如原本的模型;而在真实数据训练时去掉黑块时,模型会趋向于直接复制风格图片,因此LPIPS和相对较高而识别准确率会降低不少。(图注:w/o R: training without recognizer, w/o Real: training without real data, w/o Noise: the input of style encoder is the raw image instead of the image with black block.)

在设计选择的实验中,作者尝试了在训练风格编码器、生成器和鉴别器时不冻结文本内容编码器,即表格中的Stop Gradient一项,生成的图片几乎和目标文本图片一致。同时,作者还尝试加入了一致性损失函数进行训练,即将生成的图片用于识别器的训练。从指标上看,识别正确率要比原来的模型要好,但是作者通过可视化图片发现加入了一致性损失函数训练后,模型会破坏掉背景中其他文本的干扰。

最后的实验是使用不同文本编辑模型合成文本行合成数据进行识别器训练实验。传统合成的数据在加入了RewriteNet合成的数据后性能都有了一定的提升,而在加入其他文本编辑模型合成的数据训练后,识别器性能反而下降了。这说明RewriteNet可以用于文本行识别数据的合成。

4. 总结

本文提出了一种文本编辑的方法,能够成功区分编码文本行图片的内容特征和风格特征,同时与其他文本编辑的方法相比性能更好。同时作者也通过实验说明了RewriteNet合成的图片可以用于场景文本识别的数据合成。

5. 附录

论文链接:https://arxiv.org/pdf/2107.11041.pdf

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。