视觉发声实现零样本语音合成,华为云论文入选顶会ACL 2024
近日,自然语言处理国际顶会ACL 2024公布投稿录用结果,华为云技术创新部—AI系统创新Lab的论文《Uni-Dubbing: Zero-Shot Speech Synthesis from Visual Articulation》被接受录用。
该论文重点探究了如何利用视觉发声实现零样本语音合成,该方法在多模态数据集的预训练阶段结合了模态对齐,通过在预训练权重中冻结视频模态特征提取器和编码器模块的过程,独特地促进了零样本泛化,从而实现了有效的跨模态和跨语言迁移。
国际计算语言学年会(Annual Meeting of the Association for Computational Linguistics,简称ACL)创立于1962年,距今有62年的历史,是自然语言处理(NLP)领域的顶级国际会议,ACL 2024于2024年8月11-16日在泰国曼谷举行。据官方资料显示,2024年ACL会议共收到4835篇投稿,主会议录用940篇,录用率约21.3%。
随着短视频和在线会议在日常生活和工作场景中的广泛应用,跨语言沟通的障碍已成为一个紧迫的问题,因此多模态技术引起了广泛关注。最近,在这一领域涌现了很多重要的研究成果,例如视频到文本的Lip Reading,视频到音频的Lip2Wav,以及基于口型进行目标语言直接转换的口型翻译。
在口型翻译领域,跨语言音视频匹配的训练数据是极度稀缺的,导致这一任务难以进行,亟待解决。此外,口型与语音之间的关系并非总是简单的一对一映射。因此,保持精准的跨语言音唇同步也是当前该领域的一个重大挑战。
基于以上原因,论文提出Uni-Dubbing模型,采用了将离散单元作为中间目标的策略,即将音频和视频数据转换为离散单元进行对齐,可以有效规避配对音频和视频数据不足的劣势。其目标有两个:
- 高质量和低误差
在全样本推理时,能够识别视频中的性别信息,以便以最小的误差生成相应的语音。
- 零样本
在全样本推理基础上,训练模型零样本泛化能力以确保实用性。
论文主要贡献如下:
- 提出一种跨模态零样本泛化的方法Uni-Dubbing,用于口型转换到语音的任务。Uni-Dubbing仅使用目标语音进行训练,在词错误率(WER)、声音质量和同步性方面与顶尖的全样本翻译模型相当。
- 在LRS3数据集上,Uni-Dubbing达到了最先进的性能,在WER、ESTOI、LSE-C和LSE-D方面,能够部分保留音色,可以区分未见过的说话者的语音特征。
- Uni-Dubbing能够从单一语言视频中创建目标语言的音频,无需使用音视频数据训练。这简化了训练过程,减少了在跨语言配音中对庞大数据集的需求,同时减少了噪音。
大量实验验证了Uni-Dubbing的强大生成能力,以下是Uni-Dubbing的推理结果与GT及当前的SOTA方法ReVISE的对比。
▲英语口型转换到英语语音
以下是Uni-Dubbing的跨语言推理结果与当前的SOTA方法AV-Transpeech的对比。
▲英语口型转换到西班牙语语音
▲英语口型转换到法语语音
希望通过以上研究,加深对单模态音频数据在多模态任务中的理解和利用,从而为该领域的发展开辟新的道路。
- 点赞
- 收藏
- 关注作者
评论(0)