语音驱动视频口型匹配与局部编辑!华为云论文入选顶会ACM-MM 2024
近日,计算机多媒体领域顶级国际会议ACM International Conference on Multimedia (ACM MM) 公布了论文录用名单,华为云技术创新部-AI系统创新Lab的论文《SegTalker: Segmentation-based Talking Face Generation with Mask-guided Local Editing》被主会接受录用!
该论文重点研究了使用分割图作为中间表征实现口型和纹理的解耦,从而实现高质量的说话人视频生成,并且能无缝地实现前后景分离和细粒度的人脸编辑。
ACM MM创立于1993 年,是由计算机协会Association for Computing Machinery(ACM)的SIGMM多媒体特别兴趣小组主办的聚焦计算机多媒体领域的顶级国际会议,被中国计算机学会推荐为A类学术会议。ACM MM 2024将于2024年10月28日至11月1日在澳大利亚墨尔本召开,共收到4385 篇投稿,录用1149篇,录用率为26.2%。
说话人视频生成由于其在数字人、虚拟会议和视频配音的应用价值近年来在计算机视觉和多媒体领域受到巨大的关注和研究。然而,现有的生成方法在保留纹理细节(如牙齿)和保持人物面部ID面临挑战和难点,生成的视频往往会丢失很多细节,导致质量下降。
为解决这一挑战,本文提出了SegTalker,一种通过解耦口型生成和图像纹理信息,从而有效地实现高质说话人视频生成的算法。具体贡献如下:
- 提出了一个新颖的框架,使用分割图作为中间表征将口型生成和图像重建进行解耦,实现一致的口型运动和保留细粒度的纹理信息;
- SegTalker使用一个基于分割图引导的多级编码器和一个生成器来实现不同语义区域的局部控制。通过修改分割图或从给定参考图片中提取纹理信息并与源视频交换,使模型能够无缝地集成人脸部局部编辑和实现背景分离;
- 在HDTF和MEAD数据集上的效果上,SegTalker达到了最先进的性能,在视觉质量、ID信息保持和FVD时序质量上均优于其他模型。
本文提出的两阶段语音驱动说话人视频生成算法,解决了现有模型尤其在细节部分比如牙齿等区域生成质量不高的问题。
- 具体来说,第一阶段通过使用语音驱动分割图生成和语音匹配口型的分割图视频序列;
- 第二阶段使用一个基于分割图引导的多级编码器提取不同区域的不同尺度(large、medium、small)的细粒度特征,再将不同尺度的特征拼接得到不同区域的latent style codes;
- 最后,将style codes和生成的分割图视频序列注入到基于分割图引导的生成器中实现纹理生成。
通过这种方式,SegTalker能在保证口型生成的同时,更大限度地保留原视频的纹理细节。实验结果表明,在大部分关键指标上尤其是在图像质量上,优于目前的开源模型。
此外,利用分割图信息,SegTalker天然地能够实现前后景分离和细粒度的人脸编辑,这是目前其它说话人生成模型所不具备的。通过输入一段源视频和一张参考图像,SegTalker可以将参考图像中的细粒度特征比如头发、唇色、眉毛等属性迁移到源视频上,从而轻松实现源视频的局部编辑,生成具有不同妆造的数字形象。
- 点赞
- 收藏
- 关注作者
评论(0)