视觉发声实现零样本语音合成,华为云论文入选顶会ACL 2024

举报
华为云头条 发表于 2024/08/12 20:25:22 2024/08/12
【摘要】 加深对单模态音频数据在多模态任务中的理解和利用
近日,自然语言处理国际顶会ACL 2024公布投稿录用结果,华为云技术创新部—AI系统创新Lab的论文《Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation》被接受录用。

该论文重点探究了如何利用视觉发声实现零样本语音合成,该方法在多模态数据集的预训练阶段结合了模态对齐,通过在预训练权重中冻结视频模态特征提取器和编码器模块的过程,独特地促进了零样本泛化,从而实现了有效的跨模态和跨语言迁移。

1.jpg

国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)创立于1962年,距今有62年的历史,是自然语言处理(NLP)领域的顶级国际会议,ACL 2024于2024年8月11-16日在泰国曼谷举行。据官方资料显示,2024年ACL会议共收到4835篇投稿,主会议录用940篇,录用率约21.3%。

随着短视频和在线会议在日常生活和工作场景中的广泛应用,跨语言沟通的障碍已成为一个紧迫的问题,因此多模态技术引起了广泛关注。最近,在这一领域涌现了很多重要的研究成果,例如视频到文本的Lip Reading,视频到音频的Lip2Wav,以及基于口型进行目标语言直接转换的口型翻译。

在口型翻译领域,跨语言音视频匹配的训练数据是极度稀缺的,导致这一任务难以进行,亟待解决。此外,口型与语音之间的关系并非总是简单的一对一映射。因此,保持精准的跨语言音唇同步也是当前该领域的一个重大挑战。

2.png

基于以上原因,论文提出Uni-Dubbing模型,采用了将离散单元作为中间目标的策略,即将音频和视频数据转换为离散单元进行对齐,可以有效规避配对音频和视频数据不足的劣势。其目标有两个:

  • 高质量和低误差

在全样本推理时,能够识别视频中的性别信息,以便以最小的误差生成相应的语音。

  • 零样本

在全样本推理基础上,训练模型零样本泛化能力以确保实用性。

论文主要贡献如下:

  • 提出一种跨模态零样本泛化的方法Uni-Dubbing,用于口型转换到语音的任务。Uni-Dubbing仅使用目标语音进行训练,在词错误率(WER)、声音质量和同步性方面与顶尖的全样本翻译模型相当。
  • 在LRS3数据集上,Uni-Dubbing达到了最先进的性能,在WER、ESTOI、LSE-C和LSE-D方面,能够部分保留音色,可以区分未见过的说话者的语音特征。
  • Uni-Dubbing能够从单一语言视频中创建目标语言的音频,无需使用音视频数据训练。这简化了训练过程,减少了在跨语言配音中对庞大数据集的需求,同时减少了噪音。

大量实验验证了Uni-Dubbing的强大生成能力,以下是Uni-Dubbing的推理结果与GT及当前的SOTA方法ReVISE的对比。

3.png

▲英语口型转换到英语语音

以下是Uni-Dubbing的跨语言推理结果与当前的SOTA方法AV-Transpeech的对比。

4.png

▲英语口型转换到西班牙语语音

5.png

▲英语口型转换到法语语音

希望通过以上研究,加深对单模态音频数据在多模态任务中的理解和利用,从而为该领域的发展开辟新的道路。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。