为了今天这句“万事顺遂”,我们升级了盘古数字人大模型

举报
华为云头条 发表于 2024/02/09 10:19:05 2024/02/09
【摘要】 除夕是中国人一年中最热闹喜庆的节日可有些人却被困在寂静里根据第二次全国残疾人抽样调查结果,我国现有2780万听障人士。因为听觉的缺失,他们日常生活面临许多问题,更难以在像今天这样重要的日子里,亲口说出新春的祝愿。我们可以做些什么帮助他们打破跟世界对话的屏障呢?历时数月,华为云的工程师们升级了盘古数字人大模型,只为帮助一个女孩在这个除夕,对世界说一句,“愿你在新的一年里,万事顺遂,身体健康”。...

除夕是中国人一年中最热闹喜庆的节日

可有些人却被困在寂静里

根据第二次全国残疾人抽样调查结果,我国现有2780万听障人士。因为听觉的缺失,他们日常生活面临许多问题,更难以在像今天这样重要的日子里,亲口说出新春的祝愿。

我们可以做些什么帮助他们打破跟世界对话的屏障呢?

历时数月,华为云的工程师们升级了盘古数字人大模型,只为帮助一个女孩在这个除夕,对世界说一句,“愿你在新的一年里,万事顺遂,身体健康”。

北北,一个可爱的女孩

也是一位设计师,喜欢看书、画画、摄影……

她喜欢静静地感受世界

却也想让世界听听自己的想法

我们也想

基于盘古数字人大模型,华为云MetaStudio数字内容生产线,通过高效的训练和推理服务,打造了一站式、全流程的分身数字人生成服务,已经在政务、金融、零售、文旅等行业广泛使用。

我们想,为什么不尝试用数字分身的方式,让听障人群也能更顺畅地表达自己呢?

我们开始了尝试,却也在一开始就遇到了极大的挑战。

1.gif

通常情况下,华为云MetaStudio只需对一段3-5分钟的视频进行训练,就能快速生成分身数字人模型;在数字人模型生成后,即可通过模型驱动推理服务,靠着文本、语音驱动,也能实现声音、表情、口型、肢体动作等与真人表现无异。

可是,虽然可以用极小的样本量完成模型训练,但前提是样本数据的类型必须完整。但在对北北的拍摄过程中,我们无法采集到语音数据,更缺失了语音跟口型的匹配关系,这给我们的模型训练带来了很大的困难。

为了帮助更多像北北一样的听力障碍,发音不清晰人群,我们必须攻克这个难题。华为云MetaStudio快速投入了对推理算法的优化和密集的测试训练,最终实现了依靠简单的口型动作也能生成流畅的语音和口型匹配,让北北的数字人顺利地驱动起来,开启用“声音”与世界对话的大门。

2.gif

科技赋予的美好,应该属于每一个人。

华为云MetaStudio数字内容生产线,让数字内容创作从“0101 的比特传输”走向“有温度的模型交互”,通过分身数字人重塑声音,帮助语言障碍人群顺畅表达自己,实现与世界对话的“N+1”种方式,让更多人倾听他们的心灵。

嗨,北北!很高兴听到你说“万事顺遂”,也祝福多了个“数字人分身”的你在龙年热烈地迎接更多美好的可能!

此刻,华为云MetaStudio分身数字人还在徐福记品牌直播间播撒甜蜜,也在贵州电商直播基地,帮助贵州蜡染非遗文化走向世界。真人形象1:1复刻,原声克隆,而且一次训练即可匹配20多个语种口型,为你轻松打造数字人分身。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。