华为大咖说丨AI大模型时代,数据流通的机遇与挑战是什么?
【摘要】 文章来源于时习知公众号全文约4528字,阅读约需10分钟AI已成为释放数据价值的新引擎,人工智能发展的突破得益于高质量数据的发展,AI大模型的训练和推理应用过程都离不开高质量、大规模、多样性的数据集。这些数据集可能会涉及企业Know-How、高价值、高密级的数据。如何使数据提供方更愿意共享数据集给AI大模型训练,并保障其数据主权,成为智能时代数据流通的新的机遇与挑战。 PART 01 AI...
文章来源于时习知公众号
全文约4528字,阅读约需10分钟
AI已成为释放数据价值的新引擎,人工智能发展的突破得益于高质量数据的发展,AI大模型的训练和推理应用过程都离不开高质量、大规模、多样性的数据集。这些数据集可能会涉及企业Know-How、高价值、高密级的数据。如何使数据提供方更愿意共享数据集给AI大模型训练,并保障其数据主权,成为智能时代数据流通的新的机遇与挑战。
PART 01 AI大模型时代数据既丰富又稀缺
2023年,是AI大模型爆发的元年。2025年,全新的AIGC时代已经来临,将会带来一场颠覆性的变革,重构我们的工作及生活。
01 数据成为驱动AI大模型发展核心要素
数据、算力、算法是构筑AIGC体系的三大要素,其中数据是影响AIGC的最核心要素之一,数据的高度决定AIGC的高度,业界普遍认为以数据驱动的AI时代已经来临。
在Gartner2022年发布的人工智能技术成熟度曲线中,“以数据为中心的人工智能”(Data-centric AI)被列为人工智能技术和应用的四大创新类别之一,高质量的训练数据集、完备的数据应用策略将会更好地服务于模型的开发与应用。
人工智能实验室主任吴恩达教授提出“二八定律:80%的数据+20%的模型=更好的机器学习,模型的能力取决于投喂了多少高质量的数据,一个模型的好坏20%由算法决定,80%由数据决定。”
此外,OpenAI的第一定律Scaling laws【1】中指出 模型性能随着计算量、数据量和参数量提升而提升;DeepMind的第二定律Chinchilla【2】中指出:模型大小和训练Tokens的数量应相等缩放;模型大小每增加一倍,训练Tokens的数量也应增加一倍;大模型要经过其参数量20倍的数据训练后才达到饱和。OpenAI的第三定律阿尔特曼定律【3】,中指出“智能”的增长通过计算参数数量(Parameters)和数据量(Tokens)来衡量。通过以上三个定律不难发现数据在AI大模型中扮演着至关重要的角色。
02 激活非结构化数据资产潜在价值
随着AI技术的发展,尤其是AIGC的出现,大幅提升了计算机处理与利用数据的能力,这使得之前无法处理的数据能够被处理,使得之前低价值的数据也可以被有效利用。以往企业数据应用主要是规模较小、模态单一的结构化数据;大模型时代主要应用的是规模较大、多模态的非结构化数据,如图1所示。
IDC调研显示,目前企业中的数据中有高达80%是非结构化数据,这些非结构化数据,如文本、图像、音频和视频等,蕴含着丰富的信息和潜在价值。它们可以通过大模型的深度学习算法进行分析和处理,激活其价值。例如,自然语言处理技术可以从文本中提取关键信息,图像识别技术可以识别图像内容,语音识别技术可以转换语音为文本。大模型通过训练学习数据中的模式和关联,能够洞察非结构化数据中的隐含趋势、情感倾向和行为模式,为决策提供支持,优化服务,推动创新。这种能力使得非结构化数据成为企业和研究者挖掘洞察、提升效率和创造价值的重要资源。
此外,随着数字化转型的推进,企业作业的交互方式也发生了改变,大量业务是通过图片、视频、语音来实现运作,比如通过拍照来实现货物的签收。这些作业流中产生的非结构化数据也是蕴含着重要信息的资产。
大模型可以对各种非结构化数据(如语音、图片、视频,文本等)进行转化,变成多维的向量,将企业长期以来积累的所有信息与知识压缩进模型,为业务服务。以华为公司为例,在业务流交互过程中产生的图片、视频、文件以及公司积累的大量的政策发文、流程文件、专家案例、会议纪要、培训课程等这些高价值的资产,都将被大模型进行创新、优化和重塑,从而使更多数据释放价值。
03 高质量数据集成为稀缺资源
在人工智能和机器学习飞速发展的背景下,数据的质量直接决定了算法模型的性能和输出的准确性。然而,大模型训练所需要的数据集的增速远大于高质量数据生成的速度,导致高质量数据逐渐面临枯竭。Epoch团队的一篇新论文表明【4】,当前的存量数据中高质量文本数据,预计在2023年至2027年间耗尽;高质量图片数据预计在2030年至2070年间耗尽。
然而,获取高质量AI数据集并非易事,现实世界中的数据往往是杂乱无章的,这就需要AI数据集提供方花大量的时间与成本进行清洗、标注和验证工作。模型训练过程中有80%的时间在做数据准备与数据处理, 构建一个数据集是模型训练中最耗时、耗力的部分。
此外,基于数据的非排他性特点,一个高质量的数据集能够被多个AI大模型共享和使用,而不会降低其价值或减少其可用性。随着AI数据集在不同模型中的应用与流动,它们被赋予了更高的价值。
高质量AI数据集不仅能够提升模型的性能,还能够加快模型训练的进程,从而加速AI技术的发展和应用。掌握高质量的AI数据集意味着拥有竞争优势和市场先机。随着AI技术的不断发展,高质量数据集的需求将会持续增长,他们的价值也会比以往更容易得到认可。
PART 02 AI大模型时代数据流通的挑战
在AI大模型时代,数据流通的挑战日益凸显。大模型训练需依赖大量数据,这些数据不仅要可用,还要保证其可见性。但随着数据量的激增,大规模高价值数据的流通带来了更高的安全风险,包括数据泄露、滥用等威胁。同时,数据形态的不断演变导致传统的数据权限管理方法可能失效,使得数据的举证和权限验证变得更加困难。这给数据流通带来了新的挑战,因此需要依靠更有效的技术路线和方法来实现数据的共享和保护。
01 AI大模型需要数据可用又可见
在小模型时代,隐私计算和联邦学习等技术的核心理念是“数据可用不可见”,即在不暴露原始数据的前提下,允许对数据进行分析和学习,从而保护数据的隐私和安全。隐私计算技术,如安全多方计算(SMC)、同态加密(HE)和零知识证明(ZKP),能够在数据加密状态下进行计算,确保数据在处理过程中不会被泄露。这些技术允许多个参与方在不共享各自数据的情况下,共同完成计算任务。联邦学习则是一种分布式机器学习方法,它允许多个参与方在本地训练模型,并通过交换模型参数或梯度信息来共同优化模型,而无需直接共享原始数据。这种方式不仅保护了数据的隐私,还促进了跨机构的协作和知识共享。
然而,随着大模型时代的到来,数据量的剧增和模型训练方式的演进,这些技术面临着新的挑战。例如大模型训练时,针对不同训练阶段需要把数据集转化成不同的模式,比如在SFT监督微调阶段,需要通过领域专家把原始数据集转换成高质量的问答对,数据不仅要可用也要可见。而且AIGC有“记忆”数据的能力,数据一旦被训练进模型后,通过提示词工程等方式都有可能复现训练进模型的原始数据,从而使数据泄露。
隐私计算是在不暴露数据的情况下进行计算,联邦学习是数据在本地,然后共同训练模型。但在大模型时代,数据的可用性和可见性要求对隐私计算和联邦学习技术提出了挑战,我们需要依靠新的技术路线和方法来实现数据的共享和保护。
02 大规模高价值数据流通安全风险更高
大模型的泛化能力,往往与其训练数据的广度和深度密切相关。为了使模型能够更好地理解和处理各种复杂情况,需要引入更大量的数据,这使得数据流通规模扩大,从而支持大模型的复杂计算和学习。同时,因为高质量的数据的稀缺性,使得数据的价值也变得更加显著。
随着数据流通规模的增加与数据价值的提升,数据泄露、滥用或未授权访问的风险也随之增加。面对这些变化,AI数据集提供方需要更有效的保障措施来确保其权益。他们需要确保与AI模型消费方签订的协议能够得到实际执行,防止数据滥用和侵权行为。
03 数据形态变化导致权限失效举证更难
在大模型时代,企业对AI数据集的使用呈现出显著的变化,数据不再仅仅被用于支持传统的业务流程,而是成为训练和优化大型机器学习模型的关键资源。数据的使用方式主要用于模型的微调和RAG(Retrieval-Augmented Generation 检索增强生成)向量知识库的构建,如图2所示。
图2 企业数据针对大模型的两种主要应用方式
模型微调是指企业在引用基础大模型的基础上,使用企业数据经过清洗、加工、处理后的AI数据集进行二次训练,以适应特定的业务场景或任务。RAG向量知识库则是将企业数据通过分块、向量化后,以向量的形式存储,使得模型能够更有效地检索和利用知识,提高生成内容的准确性和相关性。
大模型时代数据经过向量化后使用的形态发生改变,数据要么变化成高维向量存储在向量数据库,用户通过外挂向量知识库进行使用;要么经过加工处理后通过改变模型参数参与模型训练。
在传统的数据处理中,结构化数据的权限管理相对直接,通常通过数据库管理系统实现,利用表和字段级别的访问控制来确保数据安全。例如,特定的用户或用户组可能被授权访问特定的数据库表或字段,而对其他数据则没有访问权限。这种方法能够明确地界定数据访问的边界。对于非结构化数据,如文本文件、图片或视频,权限管理通常通过文件系统权限来实现。文件权限可以控制谁可以读取、写入或执行文件,从而间接地管理数据的访问。但是数据被转换成高维向量或模型参数后,数据的形态和存储方式会发生改变。在向量化过程中,原始数据的结构和语义信息被编码到连续的向量中,这使得数据的边界变得模糊,难以用传统方法进行权限控制,如图3所示。此外,模型参数可能涉及多个数据源,难以追溯到具体的数据项或数据集,数据原有的权限管控将会失效。
图3 数据形态转化成向量与参数,权限失效举证更难
另一方面,当前AIGC领域版权诉讼频发,存在有许多使用未经授权的版权作品进行大模型训练的行为。而以往通过知识产权体系对知识进行保护与控制的手段,在大模型时代可能会失灵。由于生成式AI本身运行机制较为复杂,想要证明其侵权存在很大的困难。
首先,生成式AI能够生成大量新颖的内容,这些内容可能与现有作品相似,但并不完全复制,使得界定侵权与否变得更加复杂。其次,大模型训练时使用的数据集可能包含来自不同来源的文本、图像、音频等,这使得追踪特定内容的原始数据版权归属变得更加不易。此外,数据变成了模型参数与向量后,在侵权行为发生后想要保全证据、自证清白的技术难度也有所增加。
因此,大模型时代数据的使用由原来的表、字段、文件等转化成向量与参数的形态后,传统的权限失效,知识产权侵权举证更难。
PART 03 总结与展望
AI大模型带来数据流通的变化与挑战(如图4所示),使得数据提供方比以往更加需要有效的方式,来保障AI模型消费方所签订的协议能够落实,确保数据流通安全合规,保护数据主权。那么,通过什么方法可以解决智能时代数据流通这一难题呢?
图4 AI大模型时代数据流通的机遇与挑战
近来随着数据空间架构的不断完善,数据空间理念日臻成熟,业界普遍认为数据空间方案具备解决智能时代数据流通难题的潜力。首先,数据空间提供了一种创新的解决方案,它通过建立一个可控、可信、可证的数据交换环境,保障了AI数据持有者的权益。其次,在这个空间内,AI数据流通的过程可以被实时监控和记录,确保数据的使用符合协议规定,从而降低了数据滥用的风险。因此,数据空间作为促进数据流通和保障数据权益的有效平台,为AI数据持有者提供了一个可靠的解决方案。
【参考文献】
【1】Jared Kaplan, Sam McCandlish, Tom Henighan. Open AI.Scaling Laws for Neural Language Models . [EB/OL]. [2020]. arXiv:2001.08361
【2】DeepMind. Training Compute-Optimal Large Language Models . [EB/OL]. [2022]. arXiv:2203.15556v1 [cs.CL]
【3】Open AI. Revealing OpenAI’s plan to create AGI by 2027. [EB/OL]. [2023].
【4】Epoch团队. Will we run out of data? Limits of LLM scaling based on human-generated data. [EB/OL]. [2024].https://arxiv.org/abs/2211.04325
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
作者其他文章
评论(0)