CVPR2023论文介绍—— 一种个性化联机手写轨迹生成方法

举报
松轩 发表于 2023/09/24 16:52:51 2023/09/24
【摘要】 本文介绍的论文是一篇CVPR 2023已录用的关于联机手写中文生成的文章,来自华南理工大学黄双萍教授团队。作者通过设置书写者风格和字符风格两个风格提取器,并通过对比学习的方法约束两个风格提取器提取特征的类型。作者发现通过这样的方法能够有效地提取风格图片的整体低频特征和局部高频特征,从而更有效地辅助文字生成任务。 1. 研究动机联机手写轨迹生成可广泛使用于字体设计、联机手写识别辅助训练和书法教...

论文介绍——Disentangling Writer and Character Styles for Handwriting Generation

本文介绍的论文是一篇CVPR 2023已录用的关于联机手写中文生成的文章,来自华南理工大学黄双萍教授团队。作者通过设置书写者风格和字符风格两个风格提取器,并通过对比学习的方法约束两个风格提取器提取特征的类型。作者发现通过这样的方法能够有效地提取风格图片的整体低频特征和局部高频特征,从而更有效地辅助文字生成任务。

1. 研究动机

联机手写轨迹生成可广泛使用于字体设计、联机手写识别辅助训练和书法教育当中。一般而言,该类任务都是通过将风格图片和内容分别输入风格编码器和内容编码器,解码器结合这两个编码生成符合指定风格和内容的手写轨迹。
作者通过回顾以往相关任务的pipeline时发现,以往的方法普遍都只使用单一的风格编码。作者认为单一的风格编码只能关注到整体的书写风格,而对于笔画长度、位置、倾斜习惯和连笔风格等细节信息缺乏关注。基于此motivation,作者设计了新的联机手写轨迹生成模型。该模型含有书写者风格和字符风格两个不同的风格提取分支,能够同时关注到整体的书写风格和细节的笔画风格。

2. 方法介绍

与传统的手写文字生成模型类似,本文提出的SDT模型需要输入风格图片和内容图片来约束模型的输出。如下图所示,风格图片输入风格编码器之后通过CNN提取特征,然后转化为patch输入到Transformer Encoder中,得到字形风格特征和书写者风格特征。而内容编码器也是由简单的CNN特征提取器和Transformer Encoder组成。最后,由一个Transformer Decoder来结合字形风格、书写者风格和内容编码,通过自回归的方式输出生成的联机字符轨迹。

在风格编码器中,与以往的单编码器不同,作者设置了字形风格编码和书写者风格编码两个不同的风格编码器。为了约束两个风格编码器所关注的特征的不同,作者使用了对比学习的方法对其进行监督。对于自行风格编码器,作者以同一个字符中两个不同部分的patch作为正样本,不同的字符之间的patch作为负样本,使用对比学习的NCELoss作为监督。训练书写者风格的时候也同理,以相同书写者的patch作为正样本,以不同书写者的patch作为负样本,使用NCELoss进行监督训练。训练loss与正负样本的说明如下图所示。

模型使用Transformer Decoder作为轨迹预测的输出。作者使用字形风格编码G和书写者风格编码E作为key/value向量,q作为query向量。在训练时,以ground truth的轨迹作为自回归的输入。对于联机手写生成,模型每个时间步的输出为123个参数,其中m1,m2和m3三个参数分别表示落笔、抬笔和轨迹结束这三个状态的概率,使用常见的多分类loss进行监督。而余下120个参数则是具有20组双变量正态分布的高斯混合模型的参数,每组有6个参数。而对于脱机手写图片的生成,作者则是先生成联机手写轨迹,再进行轨迹渲染成脱机图片。

3. 实验

实验数据集方面,作者使用了casia作为联机数据,以及ic13作为脱机数据。评估指标方面,作者使用了DTW作为衡量两个不同轨迹的匹配程度的指标,并训练了文本识别器和书写者识别器作为衡量内容分数和风格分数的指标。

首先,作者与其他几个主流的联机手写轨迹生成模型进行对比,从下表中可以看到作者提出的SDT在各方面的指标都优于以往的模型。

从可视化的效果来看,作者提出的SDT模型在中文的生成效果较好,相较于其他模型无论是在字形的结构、笔画的细节以及对书写者风格的模仿效果都更好。

作者对其在本文中提出的书写者和字形双风格编码器进行消融实验。通过消融实验,作者发现无论是单独使用其中一个使用对比学习训练的风格编码器还是两个风格编码器一起使用,都能够有效提升生成器的性能。

为了验证模型的两个风格提取器是否符合设计的初衷,作者可视化了两个风格提取器特征图的频率分量,如图所示,越亮表示频率越高。从图中可以看出,书写者风格提取器更倾向于提取低频信息,也就是整体的风格信息。而字符风格编码器则较为关注高频信息,即局部笔画风格等信息。

为了评估模型在输入同一个书写者的不同风格样本对模型输出风格的影响,作者将书写者们不同的书写样本分为AB两组,作为不同的风格输入图片。在得到每个书写者的不同两组生成轨迹后,作者将一组的每一个轨迹与另一组的每一个轨迹直接计算DTW,并绘制成如图所示的DTW矩阵。从矩阵中可以看出该矩阵的主对角线上的值特别小,这说明即使是输入同一个书写者的不同样本,SDT都能生成相似的图片,说明SDT能够很有效地提取风格图片的风格信息。

4. 总结

本文提出了一个新的联机手写生成模型,能够生成逼真且风格多样化的联机手写轨迹。该模型通过从手写样本中分离出书写者风格和文字风格的特征提取来提高生成的性能,并在多种语种的数据集上进行实验,结果均领先于以前的方法,证明了双风格提取器思路的有效性。

5. 附录

论文链接:https://openaccess.thecvf.com/content/CVPR2023/papers/Dai_Disentangling_Writer_and_Character_Styles_for_Handwriting_Generation_CVPR_2023_paper.pdf

论文开源代码:https://github.com/dailenson/SDT

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。