为了今天这句“万事顺遂”,我们升级了盘古数字人大模型
除夕是中国人一年中最热闹喜庆的节日
可有些人却被困在寂静里
根据第二次全国残疾人抽样调查结果,我国现有2780万听障人士。因为听觉的缺失,他们日常生活面临许多问题,更难以在像今天这样重要的日子里,亲口说出新春的祝愿。
我们可以做些什么帮助他们打破跟世界对话的屏障呢?
历时数月,华为云的工程师们升级了盘古数字人大模型,只为帮助一个女孩在这个除夕,对世界说一句,“愿你在新的一年里,万事顺遂,身体健康”。
北北,一个可爱的女孩
也是一位设计师,喜欢看书、画画、摄影……
她喜欢静静地感受世界
却也想让世界听听自己的想法
我们也想
基于盘古数字人大模型,华为云MetaStudio数字内容生产线,通过高效的训练和推理服务,打造了一站式、全流程的分身数字人生成服务,已经在政务、金融、零售、文旅等行业广泛使用。
我们想,为什么不尝试用数字分身的方式,让听障人群也能更顺畅地表达自己呢?
我们开始了尝试,却也在一开始就遇到了极大的挑战。
通常情况下,华为云MetaStudio只需对一段3-5分钟的视频进行训练,就能快速生成分身数字人模型;在数字人模型生成后,即可通过模型驱动推理服务,靠着文本、语音驱动,也能实现声音、表情、口型、肢体动作等与真人表现无异。
可是,虽然可以用极小的样本量完成模型训练,但前提是样本数据的类型必须完整。但在对北北的拍摄过程中,我们无法采集到语音数据,更缺失了语音跟口型的匹配关系,这给我们的模型训练带来了很大的困难。
为了帮助更多像北北一样的听力障碍,发音不清晰人群,我们必须攻克这个难题。华为云MetaStudio快速投入了对推理算法的优化和密集的测试训练,最终实现了依靠简单的口型动作也能生成流畅的语音和口型匹配,让北北的数字人顺利地驱动起来,开启用“声音”与世界对话的大门。
科技赋予的美好,应该属于每一个人。
华为云MetaStudio数字内容生产线,让数字内容创作从“0101 的比特传输”走向“有温度的模型交互”,通过分身数字人重塑声音,帮助语言障碍人群顺畅表达自己,实现与世界对话的“N+1”种方式,让更多人倾听他们的心灵。
嗨,北北!很高兴听到你说“万事顺遂”,也祝福多了个“数字人分身”的你在龙年热烈地迎接更多美好的可能!
此刻,华为云MetaStudio分身数字人还在徐福记品牌直播间播撒甜蜜,也在贵州电商直播基地,帮助贵州蜡染非遗文化走向世界。真人形象1:1复刻,原声克隆,而且一次训练即可匹配20多个语种口型,为你轻松打造数字人分身。
- 点赞
- 收藏
- 关注作者
评论(0)