为大模型生产核心“燃料”!数据要素模式赋能数据标注基地高效运营
10月22日,在国家数据局数字科技和基础设施建设司指导下,首届“数据标注产业大会暨供需对接会”在北京顺利召开。大会旨在进一步推动数据标注产业高质量发展,促进数据标注基地快速形成规模化服务能力。政府主管部门、产业研究机构、人工智能企业、数据标注服务商、数据资源单位等各领域百余人现场参会,共议高质量数据标注建设路径。
▶模型进化亟需高质量语料数据供给
高质量的训练数据集决定着模型的精度与表现,AI发展正加速从“以模型为中心”转向“以数据为中心”。大模型对训练数据的需求呈指数级增长,研究机构Epoch AI预测,开放的高质量文本训练数据集将在2026年耗尽。为加快推动国内数据标注产业发展,国家数据局已确定七个承担数据标注基地建设任务的城市,进而推动全国数据产业高质量发展。
作为国内人工智能企业代表,华为既是大模型语料数据需求使用方,同时提供数据工程能力。华为混合云行业总经理刘朋冲发表《高质量数据标注的关键需求和探索实践》主题演讲,从行业大模型训练洞察及华为云盘古大模型开发实践出发,提出大规模高质量数据集的加工和治理需要一套流程完整、功能齐全、效率较高的标注工具链,并分享了华为云语料加工流水线的工作流程与关键能力。
▶以数据要素模式盘活标注基地运营
作为国家级试点产业,数据标注需要以商业闭环和产业发展的视角进行基地整体设计。华为云结合数据标注基地任务书及与试点城市的交流合作,总结出框架模式、能力构建、产业运营三类,包括商业模式可闭环、满足多模态标注、保障数据流通安全等在内的八种关键需求。
围绕上述需求,刘朋冲表示:“标注基地整体业务框架应以数据要素的生命周期为业务基线。我们认为,数据标注公共服务平台为业务核心,通过纳管华为数据工程在内的各类标注工具,赋能标注企业高效完成标注任务;依托可信数据空间等数据流通利用基础设施,以数据集采购和委托标注两种商业模式盘活基地运营,实现商业闭环,最终实现数据要素场景下的‘供得出、流得动、用得好、保安全’。”
▶创新技术为大模型高效率高质量供数
会议期间,由中国信通院和中国人工智能产业发展联盟编制的《人工智能数据标注产业图谱》正式发布。图谱在洞察人工智能数据标注产业发展现状及未来趋势的基础上,梳理了产业上下游相关企业的分布情况。华为云以成熟的平台能力位列“数据标注核心服务方”,通过提供数据标注平台服务,有效提高数据价值,助力数据产业价值释放。
今年9月,在华为全联接大会2024期间,华为主机上云军团CEO、混合云总裁尚海峰发布全新的ModelArts工程工具套件,包括数据、模型和应用三大模块,致力于推动AI工程化落地,让大模型构建、训练和部署更简单。其中,ModelArts数据工程套件:
- 提供60多种AI4Data算子,支持QA对、视频Caption等智能辅助标注及团队标注,实现数据清洗及标注效率10倍提升;
- 沉淀3大类15个指标项100多个评估项确保质量评估标准化,并通过自动评估模型的迭代优化实现数据飞轮效应;
- 以权限管控、隐私数据保护、内容审核、数据胶囊等关键能力,守护全流程数据安全。
套件以全模态数据获取、智能数据加工、安全高效用数的能力,为大模型训练高质量供数。
未来,华为云Stack将结合自身及行业实践,持续优化数据工程能力,与数据标注基地及产业链伙伴紧密携手,共同推动数据产业高质量发展,并坚持AI for industries的理念,以高质量语料数据为基石,将智能推向新高度!
- 点赞
- 收藏
- 关注作者
评论(0)