- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

华为大咖说丨AI 2.0时代，还需要数据标注吗？

华为云PaaS服务小智发表于 2025/08/13 14:35:24 2025/08/13

【摘要】全文约2480字，阅读约需7分钟最近我和一位朋友聊天，他说现在有一种说法：数据标注是AI 1.0时代(决策式AI)的产物，现在已经是AI 2.0 (生成式AI)，数据标注已经成为过去时了。那么问题来了，AI 2.0是否需要数据标注呢？AI 2.0和AI 1.0的数据标注有什么不同？AI 2.0下的数据标注，底层逻辑和价值发生又是什么？今天我想来深度聊聊这些话题。01决策式AI和生成式AI的本...

全文约2480字，阅读约需7分钟

最近我和一位朋友聊天，他说现在有一种说法：数据标注是AI 1.0时代(决策式AI)的产物，现在已经是AI 2.0 (生成式AI)，数据标注已经成为过去时了。

那么问题来了，AI 2.0是否需要数据标注呢？AI 2.0和AI 1.0的数据标注有什么不同？AI 2.0下的数据标注，底层逻辑和价值发生又是什么？今天我想来深度聊聊这些话题。

01决策式AI和生成式AI的本质区别

首先，决策式AI和生成式AI的本质区别是什么？

✦ 决策式AI：人类在实际生产\生活过程中先发现并总结了规律，并通过选取有代表性的数据(数据标注是极其有效的手段)，通过特征工程等方式，将其算法化。

结果是先有规律，后有算法：1个算法通过只能用于某场景下的某1类规律，泛化性弱。

✦ 生成式AI：人们将高质量的语料喂给大模型，大模型不断自我学习，迭代出一堆规律。这些规律有些是人类已知的，有些可能是人类未知的，或者之前根本没有注意到的。

结果是先有算法，后有规律：1个Transformer算法会学出N个规律，泛化性强。

02 AI 2.0 时代数据标注的必要性

其次，AI 2.0 时代，是否还需要数据标注？

1、从商业模式来看，AIGC这波浪潮至今，真正赚到钱的是两类公司。一个是卖算力资源的；另一个是AI背后的数据加工厂，如做数据标注起家相关企业。

2、从国家战略来看，随着代表我国数据产业顶层设计—《关于促进数据产业高质量发展的指导意见》的发布，国家近期陆续出台了一揽子政策来扶持数据标注产业。

3、从众多业务域反馈来看，数据标注类属于领域共性诉求，存在即合理。

以前通过人工\规则\算法等标注，可谓是一顿操作猛如虎，一看准确率25%。如今大模型加持下，一个好的Prompt指令下去，标注准确率60%成为可能。

03 AI 1.0 VS AI 2.0

伴随着技术手段(how)的升级，数据标注的why和what也悄然发生了一些变化。

AI 1.0 VS AI 2.0，在数据标注的对象和内容上，出现了哪些变化？

◆ AI 1.0(决策式AI)：

标注的对象/主体，在多模态数据/知识的源端。

标注内容上，主要是客观题，判断题居多。

场景示例：

1、这是猫，那是狗，这是房子，这是道路，这是红绿灯，这是人行道，这是树。

2、这是柴犬，这是秋田犬，这是泰迪，这是牛头梗，这是贵宾犬。

◆ AI 2.0(生成式AI)：

标注的对象/主体，更多在于大模型AI应用上线后，对业务使用过程和结果的标注，即Query\Answer\反馈等。（备注：对多模态数据标注的需求仍然存在，但不是当前的主要矛盾。）

标注的内容，既有客观题(判断题、选择题、填空题、计算题、逻辑推理题)，也有主观题（阅读理解、摘要总结、作文等）。

(数据标注的4类典型场景)

对于Query的标注，大致分成以下几类：

1、对意图分类和准确性的标注：用户问题的分类，意图识别对不对，这类用户问题通常属于哪一类意图(例如：找人\找应用\找发文\找知识\找工具\…)

2、对用户Query质量的标注：什么该问，什么不该问，是否包含敏感词，有哪些敏感词……

3、对用户Query扩充的标注：用户输入过少时，标注Query改写后的结果正确与否，以及正确改写的范例，以便于后续场景下对问题进行扩充。

对于Answer的标注，大致分成以下几类：

1、用户对结果的满意程度，完全采纳\不采纳\部分采纳\点赞\点踩…

2、答对了没？正确答案是什么？

3、答全了没？漏了哪些关键知识点？

4、胡说八道了没？不该说的别说，不知道的别瞎说，别胡诌数字放卫星。

5、回答生硬还是丝滑，总结得好不好？

(示例：xx场景-Q&A数据标注内容)

AI 1.0 VS AI 2.0，数据标注在组织流程和能力上，出现了哪些变化？

✦ AI 1.0(决策式AI)：

互联网/世界通识：数据标注活动采用劳动密集型外包体系，标注人员技能门槛低，短期培训即可上岗，采用计件制与任务分配机制，质量把控依赖第三方的周期性抽检，数据质量与人员专业度正相关。

垂域/专业知识：专家资源密集型作业，标注质量高度依赖领域专家投入度，专家标注的好坏和投入度，直接决定了算法的表现。

✦ AI 2.0(生成式AI)：

互联网/世界通识：AI For Data，先用大模型+提示工程等做预标注，高学历白领审核修正，并进一步调教LLM模型充当牛马。

垂域/专业知识：

场景1：对多模态数据/知识源的标注，AI for Data，先用大模型做预标注，领域业务专家审核修正，并进一步调教领域模型/企业公共大模型，使其成为更高效的语料萃取模型。

场景2：对作业过程和结果的标注，业务/产品运营人员借助先进工具(+AI/场景模拟/教师模型/裁判模型等)做定位和定界，由领域业务专家负责审核。最终生成高质量数据集，迭代SFT（SFT，Supervised Fine-tuning(有监督微调)，它是在大模型经过预训练、具备通用语言能力后，通过进一步微调让它学会理解人类意图，生成有用回答）和RLHF（ RLHF，Reinforcement Learning from Human Feedback，即利用人类反馈信号直接优化语言模型）。

(xx场景-意图标注流程)

(xx场景-问答对标注)

AI 1.0 VS AI 2.0，数据标注的价值发生，出现了哪些变化？

✦ AI 1.0(决策式AI)：

算法和标注数据可以脱离，即算法上去了之后标注数据就不需要了。有点像是Capex（资本支出，公司的主要长期支出），一次性/批量。

对于多模态数据源，标注质量越高，场景覆盖越全，模型表现越好。

✦ AI 2.0(生成式AI)：

模型和AI数据集共生，持续有质量的数据，使模型不断具备思维链。有点像是Opex（运营支出，公司的日常支出），需持续投。

对于作业反馈的标注数据，语料规模占比不到领域的1%，但是带来的效果提升通常在10%以上。这些标注数据集，本质上是业务问题\意图分析\意图判断\问题回答\问题总结的模式库(Good&Bad)。

同时，各领域标注的内容和方法(例如分类\改写\总结\枚举…)，沉淀到平台后，能够开放共享的话，也可以让其他领域少走弯路。

04总结

综上，即便到了AI 2.0 (生成式AI)，数据标注也并未过时，只是范围、要求和实现手段发生了变化。

数据标注的本质，是为了将企业Know-How更好地沉淀到模型，拉高应用+AI的下限。

AI 1.0的数据标注，是要让一类算法能做好是非判断题，加速冷启动。

AI 2.0的数据标注，是要让大模型既能做好客观题，也能做好主观题，促进热循环，从而让企业AI应用能够持续有质量，实现业务价值。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

华为大咖说丨AI 2.0时代，还需要数据标注吗？

01决策式AI和生成式AI的本质区别

02 AI 2.0 时代数据标注的必要性

03 AI 1.0 VS AI 2.0

04总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

华为大咖说丨AI 2.0时代，还需要数据标注吗？

01决策式AI和生成式AI的本质区别

02 AI 2.0 时代数据标注的必要性

03 AI 1.0 VS AI 2.0

04总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品