- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

视觉发声实现零样本语音合成，华为云论文入选顶会ACL 2024

华为云头条发表于 2024/08/12 20:25:22 2024/08/12

【摘要】加深对单模态音频数据在多模态任务中的理解和利用

近日，自然语言处理国际顶会ACL 2024公布投稿录用结果，华为云技术创新部—AI系统创新Lab的论文《Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation》被接受录用。

该论文重点探究了如何利用视觉发声实现零样本语音合成，该方法在多模态数据集的预训练阶段结合了模态对齐，通过在预训练权重中冻结视频模态特征提取器和编码器模块的过程，独特地促进了零样本泛化，从而实现了有效的跨模态和跨语言迁移。

国际计算语言学年会（Annual Meeting of the Association for Computational Linguistics，简称ACL）创立于1962年，距今有62年的历史，是自然语言处理（NLP）领域的顶级国际会议，ACL 2024于2024年8月11-16日在泰国曼谷举行。据官方资料显示，2024年ACL会议共收到4835篇投稿，主会议录用940篇，录用率约21.3%。

随着短视频和在线会议在日常生活和工作场景中的广泛应用，跨语言沟通的障碍已成为一个紧迫的问题，因此多模态技术引起了广泛关注。最近，在这一领域涌现了很多重要的研究成果，例如视频到文本的Lip Reading，视频到音频的Lip2Wav，以及基于口型进行目标语言直接转换的口型翻译。

在口型翻译领域，跨语言音视频匹配的训练数据是极度稀缺的，导致这一任务难以进行，亟待解决。此外，口型与语音之间的关系并非总是简单的一对一映射。因此，保持精准的跨语言音唇同步也是当前该领域的一个重大挑战。

基于以上原因，论文提出Uni-Dubbing模型，采用了将离散单元作为中间目标的策略，即将音频和视频数据转换为离散单元进行对齐，可以有效规避配对音频和视频数据不足的劣势。其目标有两个：

高质量和低误差

在全样本推理时，能够识别视频中的性别信息，以便以最小的误差生成相应的语音。

零样本

在全样本推理基础上，训练模型零样本泛化能力以确保实用性。

论文主要贡献如下：

提出一种跨模态零样本泛化的方法Uni-Dubbing，用于口型转换到语音的任务。Uni-Dubbing仅使用目标语音进行训练，在词错误率（WER）、声音质量和同步性方面与顶尖的全样本翻译模型相当。
在LRS3数据集上，Uni-Dubbing达到了最先进的性能，在WER、ESTOI、LSE-C和LSE-D方面，能够部分保留音色，可以区分未见过的说话者的语音特征。
Uni-Dubbing能够从单一语言视频中创建目标语言的音频，无需使用音视频数据训练。这简化了训练过程，减少了在跨语言配音中对庞大数据集的需求，同时减少了噪音。

大量实验验证了Uni-Dubbing的强大生成能力，以下是Uni-Dubbing的推理结果与GT及当前的SOTA方法ReVISE的对比。

▲英语口型转换到英语语音

以下是Uni-Dubbing的跨语言推理结果与当前的SOTA方法AV-Transpeech的对比。

▲英语口型转换到西班牙语语音

▲英语口型转换到法语语音

希望通过以上研究，加深对单模态音频数据在多模态任务中的理解和利用，从而为该领域的发展开辟新的道路。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

视觉发声实现零样本语音合成，华为云论文入选顶会ACL 2024

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

视觉发声实现零样本语音合成，华为云论文入选顶会ACL 2024

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品