论文介绍—— JokerGAN: 低参数量的具有文本行感知的手写文本生成模型

举报
松轩 发表于 2023/09/24 16:45:22 2023/09/24
【摘要】 本文简要介绍ACM MM录用的论文“JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line Awareness”的主要工作。本文的主要贡献有三点:①提出了Multi-Class Conditional Batch Normalization(MCCBN),使得模型能够输入任意长度的文本序列...

本文简要介绍ACM MM录用的论文“JokerGAN: Memory-Efficient Model for Handwritten Text Generation with Text Line Awareness”的主要工作。本文的主要贡献有三点:①提出了Multi-Class Conditional Batch Normalization(MCCBN),使得模型能够输入任意长度的文本序列来生成图片;②与ScrabbleGAN[1]相比,JokerGAN在生成字符集较大的语言的手写图片时,模型体积更小;③引入了文本行对齐的附加条件,使得JokerGAN生成的图片能够遵循像英文这样的文本在高度方向的对齐规则进行对齐。

一、研究背景

目前,训练深度学习模型来完成手写文本识别的任务都需要大量的图片-内容标签数据,才能得到优秀的识别器。而标记这些数据需要花费大量的代价。近年来,已有相关研究探究通过手写文本生成的方法来解决手写识别训练的识别问题。

作者认为,以前的相关工作ScrabbleGAN[1]主要有以下缺陷:①需要为字符集中所有字符都设计单独权重的滤波层,使得模型在生成字符集较大的手写文本图片时,模型体积会变得非常大;②如图1所示,人类在书写英文文本行时,不同字符在y轴方向的位置和高度是不同的,ScrabbleGAN[1]没有显式地告诉生成器这个信息,使得生成的图片有可能会对齐失败,如图2所示。

       
图1 英文文本行在y轴方向的对齐

       
图2 ScrabbleGAN部分生成的图片,有些图片会有y轴对齐的问题

本文的方法主要有三个亮点:①改变ScrabbleGAN[1]为每个种类的字符都提供单独权重的滤波层的做法,让所有字符都共用相同权重的滤波层,使得在字符集比较大的情况下模型体积不会急剧膨胀。②提出了一种y轴对齐的条件输入到生成器中,以改进英文生成文本行的y轴对齐问题。

二、方法原理简述

2.1 总体结构

JokerGAN的结构如图3所示。输入生成器的条件有三个:①内容编码(图中的 c 1 c_1 , …, c 5 c_5 ,对字符embedding得到);②风格编码(图中的z,高斯随机得到);③文本行对齐编码(图中的t,将在2.3中介绍)。生成器的训练由鉴别器(D)和识别器(R)进行监督,保证生成图片的真实性以及其中的内容与给定的内容一致。

       
图3 JokerGAN的整体结构

2.2 生成器设计与MCCBN

生成器将输入 c i c_i z z t t 拼接在一起后得到的ei输入到基础滤波层(base filter layer)中。在ScrabbleGAN[1]中,每个种类的字符使用的是独立权重的基础滤波层。这导致在字符集较大时,模型的体积会急剧膨胀。因此在JokerGAN中,所有种类的字符都共享基础滤波层的权重。

同时,作者还借鉴了cGAN中常用的Class-Conditional Batch Normalization(CBN)[2],提出了Multi-Class Conditional Batch Normalization(MCCBN)。CBN将Batch Normalization中的两个需要学习的参数 γ \gamma β \beta 改为由类别决定,公式如下:

x ^ = γ c x μ b σ b 2 ϵ + β c \hat{x}=\gamma^c \frac{x-\mu_b}{\sqrt{\sigma_b^2-\epsilon}}+\beta^c

CBN的做法适用于生成的图像整体属于同一类的情况,而文本行图片中不同部分对应的字符类型不同,因此不能简单地套用CBN。而作者提出的MCCBN则是将特征图沿 x x 轴方向切成 k k 等份( k k 为字符串长度),每等份单独进行CBN,其中第i等份的类别按照字符串中第i个字符的类别来定义。这一过程的数学表达式如下:

x ^ m n = γ i c x m n μ b σ b 2 ϵ + β i c , i = m k W \hat{x}_{mn}=\gamma_i^c \frac{x_{mn}-\mu_b}{\sqrt{\sigma_b^2-\epsilon}}+\beta_i^c,i=\lfloor\frac{mk}{W}\rfloor

其中 W W 为特征图的宽度, m m n n 分别为横坐标和纵坐标。

同时,作者还将风格编码的信息引入到MCCBN中,MCCBN的表达式被改写如下:

x ^ m n = θ z γ i c x m n μ b σ b 2 ϵ + β i c + δ z \hat{x}_{mn}=\theta^z\gamma_i^c \frac{x_{mn}-\mu_b}{\sqrt{\sigma_b^2-\epsilon}}+\beta_i^c+\delta^z

其中 θ z \theta^z δ z \delta^z 由风格编码z得到。

2.3 文本行对齐编码

针对ScrabbleGAN[1]在英文中可能出现y轴对齐失败的问题,JokerGAN在生成器的输入中引入了文本行对齐编码(Text Line Conditioning, TLC),以英文书写四线三格的中间一格为基准(如图1所示)。如果文本行中有字母向下超过这一格,则称为“below baseline”,向上超过这一格则称为“above mean line”。示例如表1所示。

    表1 文本行对齐编码示例    

2.4 训练步骤与loss

JokerGAN的训练步骤如算法1所示,识别器无须提前训练。

   

训练上,由GAN的Loss和识别器(CTC)的Loss进行监督。

三、方法原理简述

3.1 可视化效果

JokerGAN生成英文手写图片的可视化效果如图4所示。与ScrabbleGAN和无TLC相比,JokerGAN能够较好地解决英文手写图片中y轴方向对齐的问题。

同时,作者还使用了自己合成的日文手写数据集训练JokerGAN,生成的日文图片效果如图5所示。

       
图4 JokerGAN生成的图片与ScrabbleGAN[1]的比较

       
图5 JokerGAN生成日文图片

3.2 识别实验

作者先用识别实验来验证JokerGAN生成的数据对识别训练的帮助。识别实验均在词级别进行。作者首先在IAM[3]数据集中随机选取1/8的数据(数据量5k)作为baseline。随后分别加入ScrabbleGAN[1]、JokerGAN(无文本行对齐编码,w/o TLC)和JokerGAN生成的各10万张图片进行训练。在IAM[3]和CVL[4]测试集上评估的结果分别如表2和表3所示。实验结果表面JokerGAN生成的数据相较于ScrabbleGAN[1]对识别器帮助更大,同时也验证了TLC的有效性。

    表2 识别实验在IAM[3]测试集上的评估,oracle表示全量的IAM[3]训练数据(40k)    
   

    表3 识别实验在CVL[4]测试集上的评估    
   

3.3评估与消融实验

作者通过实验比较了ScrabbleGAN[1]和JokerGAN的性能,同时也将有无TLC以及不同TLC embedding尺寸的情况加入对比。评估指标使用了FID[5]、GAN-train[6]和GAN-test[6]。实验结果如表4所示。通过实验可知,JokerGAN的性能要优于ScrabbleGAN,且当TLC的embedding尺寸为4时,性能达到最优。

    表4 不同模型的评估结果    
   

3.4 模型体积对比

作者对比了ScrabbleGAN[1]和JokerGAN在不同字符集大小下的模型体积,如表5所示。通过对比可知,JokerGAN的模型体积明显小于ScrabbleGAN[1],特别是在字符集变大时,JokerGAN的模型体积不会急剧膨胀。

    表5 不同字符集大小情况下,ScrabbleGAN[1]和JokerGAN模型体积对比    

四、相关资源

论文地址:https://janzdenek.github.io/publication/jokergan/jokergan.pdf

参考文献

[1] Fogel S, Averbuch-Elor H, Cohen S, et al. ScrabbleGAN: Semi-Supervised Varying Length Handwritten Text Generation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4324-4333.
[2] Miyato T, Koyama M. cGANs with Projection Discriminator[J]. arXiv preprint arXiv:1802.05637, 2018.
[3] Marti U V, Bunke H. The IAM-database: An English Sentence Database for Offline Handwriting Recognition[J]. International Journal on Document Analysis and Recognition, 2002, 5(1): 39-46.
[4] Kleber F, Fiel S, Diem M, et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting[C]//2013 12th International Conference on Document Analysis and Recognition. IEEE, 2013: 560-564.
[5] Heusel M, Ramsauer H, Unterthiner T, et al. Gans Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium[J]. Advances in Neural Information Processing Systems, 2017, 30.
[6] Shmelkov K, Schmid C, Alahari K. How good is my GAN?[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 213-229.

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。