华为大咖说丨AI 2.0时代,还需要数据标注吗?
全文约2480字,阅读约需7分钟
最近我和一位朋友聊天,他说现在有一种说法:数据标注是AI 1.0时代(决策式AI)的产物,现在已经是AI 2.0 (生成式AI),数据标注已经成为过去时了。
那么问题来了,AI 2.0是否需要数据标注呢?AI 2.0和AI 1.0的数据标注有什么不同?AI 2.0下的数据标注,底层逻辑和价值发生又是什么?今天我想来深度聊聊这些话题。
01决策式AI和生成式AI的本质区别
首先,决策式AI和生成式AI的本质区别是什么?
✦ 决策式AI:人类在实际生产\生活过程中先发现并总结了规律,并通过选取有代表性的数据(数据标注是极其有效的手段),通过特征工程等方式,将其算法化。
结果是先有规律,后有算法:1个算法通过只能用于某场景下的某1类规律,泛化性弱。
✦ 生成式AI:人们将高质量的语料喂给大模型,大模型不断自我学习,迭代出一堆规律。这些规律有些是人类已知的,有些可能是人类未知的,或者之前根本没有注意到的。
结果是先有算法,后有规律:1个Transformer算法会学出N个规律,泛化性强。
02 AI 2.0 时代数据标注的必要性
其次,AI 2.0 时代,是否还需要数据标注?
1、从商业模式来看,AIGC这波浪潮至今,真正赚到钱的是两类公司。一个是卖算力资源的;另一个是AI背后的数据加工厂,如做数据标注起家相关企业。
2、从国家战略来看,随着代表我国数据产业顶层设计—《关于促进数据产业高质量发展的指导意见》的发布,国家近期陆续出台了一揽子政策来扶持数据标注产业。
3、从众多业务域反馈来看,数据标注类属于领域共性诉求,存在即合理。
以前通过人工\规则\算法等标注,可谓是一顿操作猛如虎,一看准确率25%。如今大模型加持下,一个好的Prompt指令下去,标注准确率60%成为可能。
03 AI 1.0 VS AI 2.0
伴随着技术手段(how)的升级,数据标注的why和what也悄然发生了一些变化。
AI 1.0 VS AI 2.0,在数据标注的对象和内容上,出现了哪些变化?
◆ AI 1.0(决策式AI):
标注的对象/主体,在多模态数据/知识的源端。
标注内容上,主要是客观题,判断题居多。
场景示例:
1、这是猫,那是狗,这是房子,这是道路,这是红绿灯,这是人行道,这是树。
2、这是柴犬,这是秋田犬,这是泰迪,这是牛头梗,这是贵宾犬。
◆ AI 2.0(生成式AI):
标注的对象/主体,更多在于大模型AI应用上线后,对业务使用过程和结果的标注,即Query\Answer\反馈等。(备注:对多模态数据标注的需求仍然存在,但不是当前的主要矛盾。)
标注的内容,既有客观题(判断题、选择题、填空题、计算题、逻辑推理题),也有主观题(阅读理解、摘要总结、作文等)。
(数据标注的4类典型场景)
对于Query的标注,大致分成以下几类:
1、 对意图分类和准确性的标注:用户问题的分类,意图识别对不对,这类用户问题通常属于哪一类意图(例如:找人\找应用\找发文\找知识\找工具\…)
2、 对用户Query质量的标注:什么该问,什么不该问,是否包含敏感词,有哪些敏感词……
3、 对用户Query扩充的标注:用户输入过少时,标注Query改写后的结果正确与否,以及正确改写的范例,以便于后续场景下对问题进行扩充。
对于Answer的标注,大致分成以下几类:
1、 用户对结果的满意程度,完全采纳\不采纳\部分采纳\点赞\点踩…
2、 答对了没?正确答案是什么?
3、 答全了没?漏了哪些关键知识点?
4、 胡说八道了没?不该说的别说,不知道的别瞎说,别胡诌数字放卫星。
5、 回答生硬还是丝滑,总结得好不好?
(示例:xx场景-Q&A数据标注内容)
AI 1.0 VS AI 2.0,数据标注在组织流程和能力上,出现了哪些变化?
✦ AI 1.0(决策式AI):
互联网/世界通识:数据标注活动采用劳动密集型外包体系,标注人员技能门槛低,短期培训即可上岗,采用计件制与任务分配机制,质量把控依赖第三方的周期性抽检,数据质量与人员专业度正相关。
垂域/专业知识:专家资源密集型作业,标注质量高度依赖领域专家投入度,专家标注的好坏和投入度,直接决定了算法的表现。
✦ AI 2.0(生成式AI):
互联网/世界通识:AI For Data,先用大模型+提示工程等做预标注,高学历白领审核修正,并进一步调教LLM模型充当牛马。
垂域/专业知识:
场景1:对多模态数据/知识源的标注,AI for Data,先用大模型做预标注,领域业务专家审核修正,并进一步调教领域模型/企业公共大模型,使其成为更高效的语料萃取模型。
场景2:对作业过程和结果的标注,业务/产品运营人员借助先进工具(+AI/场景模拟/教师模型/裁判模型等)做定位和定界,由领域业务专家负责审核。最终生成高质量数据集,迭代SFT(SFT,Supervised Fine-tuning(有监督微调),它是在大模型经过预训练、具备通用语言能力后,通过进一步微调让它学会理解人类意图,生成有用回答)和RLHF( RLHF,Reinforcement Learning from Human Feedback,即利用人类反馈信号直接优化语言模型)。
(xx场景-意图标注流程)
(xx场景-问答对标注)
AI 1.0 VS AI 2.0,数据标注的价值发生,出现了哪些变化?
✦ AI 1.0(决策式AI):
算法和标注数据可以脱离,即算法上去了之后标注数据就不需要了。有点像是Capex(资本支出,公司的主要长期支出),一次性/批量。
对于多模态数据源,标注质量越高,场景覆盖越全,模型表现越好。
✦ AI 2.0(生成式AI):
模型和AI数据集共生,持续有质量的数据,使模型不断具备思维链。有点像是Opex(运营支出,公司的日常支出),需持续投。
对于作业反馈的标注数据,语料规模占比不到领域的1%,但是带来的效果提升通常在10%以上。这些标注数据集,本质上是业务问题\意图分析\意图判断\问题回答\问题总结的模式库(Good&Bad)。
同时,各领域标注的内容和方法(例如分类\改写\总结\枚举…),沉淀到平台后,能够开放共享的话,也可以让其他领域少走弯路。
04总结
综上,即便到了AI 2.0 (生成式AI),数据标注也并未过时,只是范围、要求和实现手段发生了变化。
数据标注的本质,是为了将企业Know-How更好地沉淀到模型,拉高应用+AI的下限。
AI 1.0的数据标注,是要让一类算法能做好是非判断题,加速冷启动。
AI 2.0的数据标注,是要让大模型既能做好客观题,也能做好主观题,促进热循环,从而让企业AI应用能够持续有质量,实现业务价值。
- 点赞
- 收藏
- 关注作者
评论(0)