华为大咖说丨AI 2.0时代,还需要数据标注吗?

举报
华为云PaaS服务小智 发表于 2025/08/13 14:35:24 2025/08/13
【摘要】 全文约2480字,阅读约需7分钟最近我和一位朋友聊天,他说现在有一种说法:数据标注是AI 1.0时代(决策式AI)的产物,现在已经是AI 2.0 (生成式AI),数据标注已经成为过去时了。那么问题来了,AI 2.0是否需要数据标注呢?AI 2.0和AI 1.0的数据标注有什么不同?AI 2.0下的数据标注,底层逻辑和价值发生又是什么?今天我想来深度聊聊这些话题。01决策式AI和生成式AI的本...

全文约2480字,阅读约需7分钟


最近我和一位朋友聊天,他说现在有一种说法:数据标注是AI 1.0时代(决策式AI)的产物,现在已经是AI 2.0 (生成式AI),数据标注已经成为过去时了。

那么问题来了,AI 2.0是否需要数据标注呢?AI 2.0AI 1.0的数据标注有什么不同?AI 2.0下的数据标注,底层逻辑和价值发生又是什么?今天我想来深度聊聊这些话题



01决策式AI和生成式AI的本质区别

 

首先,决策式AI和生成式AI的本质区别是什么?

决策式AI人类在实际生产\生活过程中先发现并总结了规律,并通过选取有代表性的数据(数据标注是极其有效的手段),通过特征工程等方式,将其算法化。

结果是先有规律,后有算法1个算法通过只能用于某场景下的某1类规律,泛化性弱。

生成式AI人们将高质量的语料喂给大模型,大模型不断自我学习,迭代出一堆规律。这些规律有些是人类已知的,有些可能是人类未知的,或者之前根本没有注意到的。

结果是先有算法,后有规律1Transformer算法会学出N个规律,泛化性强


02 AI 2.0 时代数据标注的必要性

 

其次,AI 2.0 时代,是否还需要数据标注?

1、从商业模式来看,AIGC这波浪潮至今,真正赚到钱的是两类公司。一个是卖算力资源的;另一个是AI背后的数据加工厂,如做数据标注起家相关企业。

2、从国家战略来看,随着代表我国数据产业顶层设计《关于促进数据产业高质量发展的指导意见》的发布,国家近期陆续出台了一揽子政策来扶持数据标注产业。

3、从众多业务域反馈来看,数据标注类属于领域共性诉求,存在即合理。

以前通过人工\规则\算法等标注,可谓是一顿操作猛如虎,一看准确率25%。如今大模型加持下,一个好的Prompt指令下去,标注准确率60%成为可能。


03 AI 1.0 VS AI 2.0

 

伴随着技术手段(how)的升级,数据标注的whywhat也悄然发生了一些变化。

AI 1.0 VS AI 2.0,在数据标注的对象和内容上,出现了哪些变化?

AI 1.0(决策式AI)

标注的对象/主体,在多模态数据/知识的源端

标注内容上,主要是客观题,判断题居多

场景示例:

1、这是猫,那是狗,这是房子,这是道路,这是红绿灯,这是人行道,这是树。

2、这是柴犬,这是秋田犬,这是泰迪,这是牛头梗,这是贵宾犬。

AI 2.0(生成式AI)

标注的对象/主体,更多在于大模型AI应用上线后,对业务使用过程和结果的标注,即Query\Answer\反馈等。(备注:对多模态数据标注的需求仍然存在,但不是当前的主要矛盾。)

标注的内容,既有客观题(判断题、选择题、填空题、计算题、逻辑推理题),也有主观题(阅读理解、摘要总结、作文等)。

 

(数据标注的4类典型场景)

 

对于Query的标注,大致分成以下几类:

1、 对意图分类和准确性的标注:用户问题的分类,意图识别对不对,这类用户问题通常属于哪一类意图(例如:找人\找应用\找发文\找知识\找工具\…)

2、 对用户Query质量的标注:什么该问,什么不该问,是否包含敏感词,有哪些敏感词……

3、 对用户Query扩充的标注:用户输入过少时,标注Query改写后的结果正确与否,以及正确改写的范例,以便于后续场景下对问题进行扩充。

对于Answer的标注,大致分成以下几类:

1、 用户对结果的满意程度,完全采纳\不采纳\部分采纳\点赞\点踩

2、 答对了没?正确答案是什么?

3、 答全了没?漏了哪些关键知识点?

4、 胡说八道了没?不该说的别说,不知道的别瞎说,别胡诌数字放卫星。

5、 回答生硬还是丝滑,总结得好不好?

(示例:xx场景-Q&A数据标注内容)

 

AI 1.0 VS AI 2.0数据标注在组织流程和能力上,出现了哪些变化?

AI 1.0(决策式AI)

互联网/世界通识:数据标注活动采用劳动密集型外包体系,标注人员技能门槛低,短期培训即可上岗,采用计件制与任务分配机制,质量把控依赖第三方的周期性抽检,数据质量与人员专业度正相关。

垂域/专业知识:专家资源密集型作业,标注质量高度依赖领域专家投入度,专家标注的好坏和投入度,直接决定了算法的表现。

AI 2.0(生成式AI)

互联网/世界通识AI For Data,先用大模型+提示工程等做预标注,高学历白领审核修正,并进一步调教LLM模型充当牛马。

垂域/专业知识:

场景1对多模态数据/知识源的标注,AI for Data,先用大模型做预标注,领域业务专家审核修正,并进一步调教领域模型/企业公共大模型,使其成为更高效的语料萃取模型。

场景2对作业过程和结果的标注,业务/产品运营人员借助先进工具(+AI/场景模拟/教师模型/裁判模型等)做定位和定界,由领域业务专家负责审核。最终生成高质量数据集,迭代SFTSFTSupervised Fine-tuning(有监督微调),它是在大模型经过预训练、具备通用语言能力后,通过进一步微调让它学会理解人类意图,生成有用回答)RLHF RLHFReinforcement Learning from Human Feedback,即利用人类反馈信号直接优化语言模型)

(xx场景-意图标注流程) 

(xx场景-问答对标注)

 

AI 1.0 VS AI 2.0,数据标注的价值发生,出现了哪些变化?

AI 1.0(决策式AI)

算法和标注数据可以脱离,即算法上去了之后标注数据就不需要了。有点像是Capex(资本支出,公司的主要长期支出),一次性/批量。

对于多模态数据源,标注质量越高,场景覆盖越全,模型表现越好

AI 2.0(生成式AI)

模型和AI数据集共生,持续有质量的数据,使模型不断具备思维链。有点像是Opex(运营支出,公司的日常支出),需持续投。

对于作业反馈的标注数据,语料规模占比不到领域的1%,但是带来的效果提升通常在10%以上。这些标注数据集,本质上是业务问题\意图分析\意图判断\问题回答\问题总结的模式库(Good&Bad)

同时,各领域标注的内容和方法(例如分类\改写\总结\枚举…),沉淀到平台后,能够开放共享的话,也可以让其他领域少走弯路。

04总结

综上,即便到了AI 2.0 (生成式AI),数据标注也并未过时,只是范围、要求和实现手段发生了变化。

数据标注的本质,是为了将企业Know-How更好地沉淀到模型,拉高应用+AI的下限。

AI 1.0的数据标注,是要让一类算法能做好是非判断题,加速冷启动

AI 2.0的数据标注,是要让大模型既能做好客观题,也能做好主观题,促进热循环,从而让企业AI应用能够持续有质量,实现业务价值。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。