【愚公系列】《AI+直播营销》054-入局 Al 虚拟数字人直播(虚拟数字人直播的实操步骤)

💎【行业认证·权威头衔】
✔ 华为云天团核心成员:特约编辑/云享专家/开发者专家/产品云测专家
✔ 开发者社区全满贯:CSDN博客&商业化双料专家/阿里云签约作者/腾讯云内容共创官/掘金&亚马逊&51CTO顶级博主
✔ 技术生态共建先锋:横跨鸿蒙、云计算、AI等前沿领域的技术布道者
🏆【荣誉殿堂】
🎖 连续三年蝉联"华为云十佳博主"(2022-2024)
🎖 双冠加冕CSDN"年度博客之星TOP2"(2022&2023)
🎖 十余个技术社区年度杰出贡献奖得主
📚【知识宝库】
覆盖全栈技术矩阵:
◾ 编程语言:.NET/Java/Python/Go/Node…
◾ 移动生态:HarmonyOS/iOS/Android/小程序
◾ 前沿领域:物联网/网络安全/大数据/AI/元宇宙
◾ 游戏开发:Unity3D引擎深度解析
🚀前言
AI 虚拟数字人,也被称为虚拟人或数字人,是指利用计算机图形学、动作捕捉、 机器学习、渲染、语言合成等信息技术创造的,存在于非物理世界中的个体。
随 着AI 技术的迅猛发展, AI 虚拟数字人的智能化水平大大提高,其应用领域也 日益广泛,包括但不限于直播、短视频、营销推广、品牌代言、教育培训、影视创意、 数字员工、数字分身等。
🚀一、虚拟数字人直播的实操步骤
百度智能云曦灵是百度公司官方推出的数字人平台,集数字人生产、内容创作和业务配置服务于一体。目前,该产品支持抖音、美团、快手、淘宝、京东、拼多多等平台的直播账号开展数字人直播。
单击百度智能云曦灵“直播工作台”按钮口,授权相应直播平台的账号,如图所示。

以抖音平台为例,点击抖音图标下的“去授权”按钮,选择对应的账号类型,包括电商商家、电商达人、本地生活商家、本地生活达人、企业留资5种类型,如图所示。

点击相应的抖音账号授权类型后,用抖音App扫描二维码进行登录,即可完成授权。
完成抖音账号的授权后,在百度智能云曦灵的直播工作台就可以看到账号的名称及相关数据,如图所示。

单击“去直播”按钮即可进入百度智能云曦灵的直播工作台开播设置页面,如图所示。

在完成以上授权操作之后,直播团队即可按照以下5个步骤,开启一场虚拟数字人直播。
🔎1.生成虚拟数字人主播形象
在直播前的规划中,直播团队已经确认虚拟数字人主播的人设。而虚拟数字人主播的形象是这一人设的重要载体。直播团队需要利用数字人直播平台的功能,生成适合的主播形象。
在百度智能云曦灵的“定制主播”版块中,提供了3种生成虚拟数字人主播形象的方式,分别是“人像广场”“极速定制”和“精品定制”。图展示百度智能云曦灵定制主播形象的页面。

人像广场是选择现有的公共数字人形象,没有专属性和独特性。极速定制只需要上传真人模特闭嘴拍摄的视频内容,30分钟即可完成虚拟数字人主播的训练,能够基本还原口型特征。精品定制需要上传5~8分钟真人模特真实直播的高质量视频,4小时即可完成虚拟数字人主播的训练,能够完全还原真人主播的口型特征,更加逼真细腻。
建议预算充足的直播团队尽量按照以下5个步骤,采用精品定制的方式来创建虚拟数字人主播形象。
1. 选择合适的真人模特
真人模特拍摄的视频将决定虚拟数字人主播的形象和气质,直接关系到虚拟数字人主播的表情、口型、动作等是否逼真。
因此,直播团队应选择与品牌、产品、目标人群等各方面调性匹配的主播作为真人模特,录制用于训练虚拟数字人主播的视频素材。同时,五官端正、镜头感强、面部微表情丰富的主播更适合担任模特。
2. 真人模特服饰妆造
拍摄的视频中,真人模特的服饰、妆容和发型将被虚拟数字人主播完全复制下来。因此,直播团队需要为真人模特搭配符合虚拟数字人主播人设、与品牌和产品调性一致的服饰、妆容和发型。
由于拍摄时一般需要使用绿幕,生成虚拟数字人主播时可能涉及抠图,真人模特的服饰妆造还需要注意以下6点。
(1)建议露出脖颈处5cm以上,衣领避免直接与下颌接触(避免如高领毛衣、紧领衬衫等)。
(2)避免纱质和半镂空类型服饰,避免绿色及相近色服饰,否则抠图时绿色部分会被抠掉。
(3)根据光照使用散粉,避免面部高光。
(4)面部白皙且有立体感,不宜有过重阴影。
(5)避免发型遮挡脸部,整理好碎发。
(6)避免镂空饰品,以及镜面材质和高反光饰品。
3. 拍摄场景搭建
拍摄训练虚拟数字人主播的视频素材,可以选择绿幕背景拍摄,也可以选择实景拍摄。这两种拍摄方式各有利弊,如表所示。
绿幕背景拍摄与实景拍摄的优劣势分析
| 拍摄方式 | 优势 | 劣势 |
|---|---|---|
| 绿幕背景拍摄 | 搭建成本低,方便直播背景替换 | 真实感略弱、质感稍差 |
| 实景拍摄 | 画面看起来更有质感,更高级,环境光与人物光源一致 | 无法替换背景,搭建成本较高 |
绿幕背景拍摄时,要确保绿幕平整无褶皱,背景被灯光均匀照亮,绿幕整体光线一致,无明显色差。模特与绿幕背景需保持至少1.5米的距离,以确保拍摄出的人像抠图效果更佳。实景拍摄时需注意人像在画面中的位置关系,避免人物比例过大或过小。模特头部上方应预留1/3或1/2画面的空间,以便品牌方或活动方进行信息展示。
4. 实际拍摄和上传视频
真人模特尽量选择坐姿拍摄,这样状态会更放松。如果产品展示时需要较大的动作,比如吸尘器、汽车等,可以选择站姿拍摄,但这种方式对模特的表现力要求更高,具有一定的挑战性。
拍摄过程中,真人模特可以与小道具进行互动,比如与手机互动,模拟真实直播时查看用户评论的状态,这样能够让数字人主播显得更加真实。
与平时拍口播视频不同,在拍摄训练虚拟数字人主播的视频时,需要特别注意以下4点。
(1)拍摄全程不能大幅度转头,转动角度需控制在45度以内。
(2)避免任何面部遮挡动作,确保视频全程能够清晰地看到模特的嘴唇。
(3)避免明显的指向性动作,例如手指比画1、2、3或拍胸脯等。
(4)拍摄过程中要求环境安静、无噪声,必须使用无线麦克风进行收音。
视频拍摄时,应采用宽高比为9:16的竖屏高清拍摄,拍摄时长需在8分钟以上。视频的前10秒真人模特需保持静默,嘴唇自然闭合。
视频拍摄完成后,即可进入上传页面,填写“人像名称”,选中“自动抠图,去除视频背景”,上传符合要求的训练视频,单击“开始创作”,等待视频上传完毕,如图所示。

经过4小时的训练,直播团队即可拥有定制的虚拟数字人主播形象。训练完毕的虚拟数字人主播形象将显示在“我的制作”标签中,如图所示。

5. 选择合适的音色
在百度智能云曦灵的“声音”版块中,虚拟数字人主播的音色可以选择公共声音,也可以使用真人模特的声音进行克隆,如图所示。

需要注意的是,虚拟数字人主播的音色要与拍摄视频中的真人模特形象相匹配,听起来不违和。例如,真人模特是一个大叔形象,就需要选择深沉的男性音色与之对应;如果真人模特是一个年轻女性形象,则需要选择活泼的女性音色与之对应。如果真人模特的声音与其形象相符,可以直接提取视频中的音频片段进行声音克隆。
百度智能云曦灵的声音克隆功能,推荐上传音频长度在1分钟左右,大致录制150~200字。音频格式限制MP3、M4A、WAV,推荐无压缩Wav格式。在上传页面填写“声音名称”,上传音频文件,勾选《百度智能云曦灵克隆协议》后,等待片刻即可完成声音克隆,如图所示。

🔎2.设置直播间画面
虚拟数字人主播的形象生成、音色选择完成之后,直播团队即可着手设置直播间画面。在百度智能云曦灵的“直播间”版块,单击“极速搭建直播间”,直播团队即可通过导入直播产品快速创建一个虚拟数字人直播间,如图所示。

百度智能云曦灵会自动获取授权直播账号中的产品列表,直播团队只需选择本场直播计划售卖的产品,单击“生成直播间”,等待片刻即可进入直播间画面设置页面,如图所示。

百度智能云曦灵的直播间画面设置页面包含“直播商品单”“话术列表”“直播预览”,以及工具面板4个区域。在工具面板中,百度智能云曦灵提供了多种直播间画面模板,如图所示。

直播团队可以选择合适的模板作为基础,再对以下4个部分进行修改,设置直播间画面。
1. 背景
如果在生成虚拟数字人主播形象时,直播团队上传的是绿幕背景拍摄的真人模特视频,那么就可以随时更换直播间背景图片。
直播背景画面要足够丰富,这样可以更好地吸引用户停留。切忌使用纯色虚拟背景或大白墙实景。在选择背景时,还要注意与品牌和产品调性保持一致。
2. 前景
直播间的前景主要是产品展示区,画面布局不仅要满足美感,还要足够饱满。
实景直播间可以摆放较多的产品,这样画面更具冲击力。绿幕背景的直播间前景主要通过图片素材进行产品展示。产品摆放时要注意透视关系,确保符合近大远小的原则,人物和场景的比例需协调。在直播间画面中,不一定要将产品整个展示,也可以展示产品的局部特写。
3. 贴图
贴图在直播间主要起补充信息的作用,可以包括主播信息、产品信息、优惠信息、赠品信息等。在设计时,一定要保证贴图与直播间画面背景的整体风格一致,文案言简意赅,重点突出。
同时,在贴图布局上,应注意不同手机的适配问题,尽量不要紧贴画面边缘摆放,以免在不同手机上显示不全。
4. 动态元素
为了增加画面的动感,直播间画面中可以加入GIF动图,以更好地吸引用户。还可以用动图做一些操作的引导,比如带有“点击下方小黄车”“点击关注”等字样的摇晃动图。
同时,在适当的时候在直播间画面中加入视频元素,可以起到产品展示或效果补充的作用。例如,某款手表的指针具有夜光功能,这一功能在直播间中不便直接展示,直播团队可以在主播头部上方添加一个视频元素,让用户看到夜光指针在黑暗环境中的效果。
🔎3.审核调整直播话术
直播话术是虚拟数字人直播的重中之重。百度智能云曦灵通过直播产品列表自动生成直播话术后,直播团队需要对话术进行人工审核和调整。一方面,人工审核能够确保文案的准确性;另一方面,直播团队还可以监控其他同款产品的优质直播间,将话术适当修改后应用于自身直播间。
目前,百度智能云曦灵将直播话术分为4个模块,包括场景引入、卖点讲解、价格优惠和促进下单,如表11-4所示。
表11-4 百度智能云曦灵直播话术4个模块
| 模块 | 具体内容 |
|---|---|
| 场景引入 | 为什么要听下去? |
| 卖点讲解 | 为什么要买? |
| 价格优惠 | 为什么在我家买? |
| 促进下单 | 为什么现在买? |
同时,百度智能云曦灵将4个模块的直播话术划分为10种细分类型,包括话题引入、应用场景、讲品文案、品牌价值、商品知识、价格信息、同类对比、场控文案、引导下单和其他文案。
直播团队可以将真人直播中沉淀的优质直播话术加入虚拟数字人直播话术中。在“话术列表”区域,点击任意需要修改的话术,点击铅笔形状的“编辑话术”按钮,即可对话术进行修改,如图所示。

为了让虚拟数字人主播更有感染力,直播团队可以通过下面5个小技巧,让文案更加口语化,如表所示。
表让直播话术更加口语化的5个小技巧
| 技巧 | 举例 |
|---|---|
| 书面词口语化 | “无须”改为“不需要”“采用”改为“用了” |
| 增加语气助词 | “呀”“啊”“嘛”“呢”“哈” |
| 增加口语连词 | “是不是”“对不对”“我觉得” |
| 丰富互动话术 | “新来的朋友把1扣在公屏上!” |
| 调整主播气口 | 将长句子打断为短句子,一段话术不要超过500字 |
除了产品维度的直播话术,虚拟数字人还需要配置问答库,以便虚拟数字人主播根据直播间评论区用户的问题进行实时回复,如图所示。

问答的配置越全面越好,尽量覆盖所有用户问题。如果没有积累足够的问答,也可以去相关产品的评论区调研,将用户最关心的问题直接添加到问答中。需要注意的是,问题的文字不能少于5个字,过短的文字描述会影响AI对问题的理解,导致问题回复率降低。
除此之外,百度智能云曦灵还为直播间提供AI弹幕问答、AI动态话术、AI氛围互动以及随讲解弹商品卡的4种辅助功能,让虚拟数字人主播与用户的互动更加灵活和及时。直播团队可以在“直播设置”功能中开启这4种辅助功能,如图所示。

AI弹幕问答的功能中,“回复范围”建议选择“文心智能回复+问答库回复”,这样即使用户问的问题不在问答库中,虚拟数字人主播也能回答上来,如图所示。

开启AI动态话术能够保证每一轮话术的意思一致,但文案有所不同,使数字人直播的话术不再简单循环,从而增加文案的丰富性,提升直播内容的可看度,如图所示。

在AI氛围互动的功能中,百度智能云曦灵针对用户进入直播间、用户关注、用户点赞以及用户送礼物分别设置了相应的直播话术,如图所示。

随讲解弹商品卡的功能,目前百度智能云曦灵支持美团、快手、淘宝、拼多多、京东这5个直播平台授权后使用,如图所示。

🔎4.使用直播推流工具开播
以上3大步骤设置完成后,直播团队点击虚拟数字人直播工作台上的“开始直播”按钮,即可开启一场虚拟数字人直播,如图所示。

开启直播时,百度智能云曦灵会提供2种直播产品讲解方式:一种是从头开始讲解;另一种是从当前选中的产品开始讲解。一般情况下选择“从头开始”,如图所示。

百度智能云曦灵的虚拟数字人开播后的画面,是在浏览器页面、人像横着全屏呈现的,如图所示。

对于大部分虚拟数字人直播平台来说,它们的直播功能是基于云端服务器实现的,不具备本地直播推流工具,因此我们需要借助第三方直播推流工具在对应平台进行直播。
以快手平台为例,直播团队需要在PC端下载“快手直播伴侣”这一直播推流工具,并调整到竖屏的直播环境,如图所示。

在快手直播伴侣操作界面中,点击“窗口”按钮,选择百度智能云曦灵虚拟数字人直播画面的浏览器窗口,并取消勾选“显示光标”项,点击“继续”按钮,如图所示。

通过快手直播伴侣的窗口捕获功能导入的虚拟数字人直播画面是横向的。点击导入的直播画面后,单击鼠标右键选择“变换”功能,再点击“逆时针旋转90度”选项,直播画面就会变为竖向,如图所示。

竖起来的虚拟数字人直播画面没有铺满整个直播窗口,拖拽直播画面周围的红色边框可以调整画面大小,按住Alt键拖动红色边框可以对画面进行裁剪,如图所示。

如果希望开播上架直播产品,那么直播团队需要在快手直播伴侣中点击“赚钱”按钮,根据实际情况选择“直播卖货”“推广任务”“直播团购”或“游戏合伙人”选项,并导入产品列表,如图所示。

最后,在点击“开始直播”按钮前,麦克风音量还需要调到2~5之间,如图所示。

操作时有一个特别要注意的点,像快手这样的直播平台评论区内容获取不是自动的。在快手直播伴侣中点击“开始直播”按钮后,直播团队要回到在百度智能云曦灵的直播工作台再点击“获取弹幕”按钮,才能获取到评论区用户的留言,如图所示。

🔎5.监测直播效果并防范风险
虚拟数字人直播开播后,直播团队应安排专人对以下3个方面进行效果监测和风险防范。
1. 技术监控
技术监控的目的是保障用户观看直播的基础体验,包括画面清晰度、声音质量、延迟等,确保直播的流畅性和稳定性。
一方面,直播团队要实时监控服务器和网络设备的性能,确保技术故障和网络延迟不会影响用户体验。另一方面,直播团队应密切关注各个直播平台的政策,如有违规提醒,需及时进行调整。
2. 互动监测
直播是一个用户高度参与的过程,直播团队通过跟踪和分析用户在直播间的互动,如弹幕、评论、点赞等,可以更客观地评估直播内容的受欢迎程度和用户参与度。
尤其是用户在评论区的留言,能够生动且细致地反馈虚拟数字人直播的前期准备和设置是否到位。直播团队也可以根据用户留言,对虚拟数字人主播、直播间画面以及直播话术进行更新迭代。
3. 销售跟踪
与真人直播一样,虚拟数字人直播间的销售转化数据是与直播效果直接相关的数据,具有极高的分析研究价值。在分析虚拟数字人直播间的销售转化数据时,直播团队应重点关注直播间高转化用户画像和高转化直播话术。
如果某一用户群体的购买意愿明显高于其他用户群体,那么直播团队可以考虑定向付费投放该用户群体,以扩大销售规模。
如果某一直播话术的转化率显著高于其他话术,那么可以利用AI工具生成更多相似的直播话术,替代转化率较低的直播话术。
- 点赞
- 收藏
- 关注作者
评论(0)