大模型—AI巨头的角力场
大模型,近期已成为AI产学界的高频词汇,显然,人工智能领域已进入“炼大模型”时代。
深度学习技术兴起的近10年间,AI模型基本上是针对特定应用场景需求进行训练的小模型。小模型用特定领域有标注的数据训练,通用性差,换到另外一个应用场景中往往不适用,需要重新训练。另外,小模型的训练方式基本是“手工作坊式”,调参、调优的手动工作太多,需要大量的AI工程专业人员来完成。同时,传统模型训练需要大规模的标注数据,如果某些应用场景的数据量少,训练出的模型精度就会不理想。这些问题导致当前AI研发整体成本较高,效率偏低,阻碍了行业用户采用人工智能技术的脚步,成为AI普惠的障碍。
大模型可以解决这些问题,其泛化能力强,可以做到‘举一反三’,同一模型利用少量数据进行微调或不进行微调就能完成多个场景的任务。
大模型的两种实现模式:
单体模型:对算力、算法优化、数据分布、模型参数与结果优化等方面要求更高,其模型精度也更高。
-
浪潮源1.0
-
微软联合英伟达发布的Megatron-Turing
-
阿里达摩院PLUG
-
华为盘古/鹏程盘古α(MindSpore支撑)
混合模型:是由多个相对较小的模型组成,然后通过开关的方式组合起来。
-
Google Switch Transformer
-
阿里达摩院M6 1万亿参数
-
智源悟道2.0
大模型的发展
零样本学习(zero-shot),考验的是模型直接应用到特定场景中的能力;
小样本学习(few-shot)则是投入少量数据样本,模型的精度即可大幅提升起来。
零样本学习和小样本学习能力越强,意味着该模型就越有可能在多个场景中实现通用、泛化和规模化复制,对于降低AI使用门槛是大有裨益,这也是目前巨量模型最为聚焦的竞争点。
自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。
现在,大模型更迭速度只会越来越快。
到了2019年初,OpenAI推出GPT-2,15亿参数,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。
此后,英伟达威震天(Megatron-LM)83亿参数,谷歌T5模型110亿参数,微软 图灵Turing-NLG模型170亿参数。
这些模型一次次不断地刷新参数规模的数量级,而2020年却成为这一数量级的分界线。
单体模型
公司 | 模型名 | 发布时间 | 参数量 | 数据量 | 领域 |
---|---|---|---|---|---|
ELMo | 2018.3 | 9400万 | |||
OpenAI | GPT | 2018 | 1.17亿 | ||
谷歌 | BERT-Large | 2018.10 | 3.4亿 | ||
OpenAI | GPT-2 | 2019.2 | 15亿 | ||
英伟达 | Megatron-BERT | 2019.8 | 83亿 | ||
谷歌 | T5 | 2019.10 | 110亿 | ||
微软 | Turing NLP | 2020.2 | 170亿 | ||
OpenAI | GPT-3 | 2020.6 | 1750亿 | 570G高质量数据集 | NLP |
华为 | 盘古系列大模型(NLP) | 2021.4 | 1000亿 | 40T中文文本数据 | NLP |
华为 | 盘古系列大模型(CV) | 2021.4 | 30亿 | ImageNet1%,10%小样本数据 | CV |
阿里 | PLUG | 2021.4 | 270亿 | 1T+ 中文数据集 | |
中科院自动化所 | 紫东-太初 | 2021.9 | 千亿 | 视觉、文本、语音三模态 | |
浪潮 | 源1.0 | 2021.9 | 2457亿 | 5T高质量中文数据集 | NLP |
微软-英伟达 | MT-NLG(威震天-图灵) | 2021.10 | 5300亿 | 835G高质量数据集 | NLP |
混合模型顶流
公司 | 模型名 | 发布时间 | 参数量 | 数据量 | 领域 |
---|---|---|---|---|---|
谷歌 | Switch Transformer | 2021.1 | 1.6万亿 | / | NLP |
阿里 | M6 | 2021.6 | 1万亿 | / | NLP,图像,多模态 |
智源研究院 | 悟道2.0 | 2021.6 | 1.75万亿 | / | 中文,多模态,认知,蛋白质预测等系列模型 |
单体模型代表介绍
OpenAI GPT-3
2020年5月OpenAI组织发布了GPT-3模型,该模型拥有1750亿参数量、500G高质量预训练数据集,1万个GPU训练,相比于上一代GPT-2模型,各方面数据提升了百倍有余,首次将参数规模提升到千亿规模。
GPT-3靠的是通过规模化现有算法模型,来实现算力的增长,其主要目标是用更少的领域数据、且不经过精调步骤去解决问题。
在许多 NLP 数据集上均具有出色的性能,包括翻译、问答和文本填空任务,这还包括一些需要即时推理或领域适应的任务。
GPT-3生成的新闻我们很难将机器写的和人类写的区分。
应用:
-
英文翻译
-
自动创作如小说
-
人机对话
-
…
浪潮 源1.0 中文巨模型
2021.9月底浪潮发布全球最大中文语言(NLP)预训练模型,源1.0模型参数量高达2457亿,训练采用的高质量中文数据集高达5000GB, 2128张GPU,训练16天。
特点:
-
算法方面:全球较大的自然语言理解模型,2457亿个参数,是GPT-3的1.4倍,且是单体模型;
-
数据方面:全球最大的高质量中文数据集,读完近5年整个中文互联网的内容,获得5TB高质量中文数据集;
-
算力方面:计算效率高,2128张GPU,只需训练16天。
成绩:在权威中文语言理解测评基准CLUE中,源1.0占据零样本学习(zero-shot)和小样本学习(few-shot)2项榜单榜首
MT-NLG(威震天-图灵)
2021.10月微软和英伟达联手发布了Megatron-Turing自然语言生成模型(MT-NLG),5300亿参数,使用4480块GPU训练,训练1个多月,号称同时夺得单体Transformer语言模型界「最大」和「最强」两个称号。
沿着所有的人工智能轴线进行了许多创新和突破:将最先进的GPU加速训练基础设施与尖端的分布式学习软件堆栈相融合,实现了前所未有的训练效率
微软与NVIDIA建立了高质量的自然语言训练语料库,并共同开发了训练配方,以提高优化效率和稳定性。
在自然语言任务中准确率高。
-
完成预测
-
阅读理解
-
常识推理
-
自然语言推理
-
词义消歧
华为云盘古系列预训练大模型
涉及领域:自然语言处理(NLP)大模型、计算机视觉(CV)大模型、多模态大模型和科学计算大模型、盘古药物分子大模型
优势:
-
算力强大:鹏城云脑提供澎湃算力
-
高效的数据处理:7天完成训练
三方面的顶层设计:
技术公关:
通提高模型泛化和迁移能力,减少对于领域数据标注的依赖和模型微调
解决大模型对于模型架构创新,分布式并行计算,海量数据快速处理的挑战。
产业孵化:
将大模型大战成人工智能的重要底座,构筑生态系统。
合作伙伴从技术公关到商业落地全程参与生态构建,共同做大AI产业
商业化验证
将作坊式,定制化的开发 -> AI工业化开发
大模型可能收编高度定制化的小模型,导致市场向大公司集中。
盘古NLP
千亿参数中文语言预训练模型,预训练阶段学习了40TB中文文本数据,并通过行业数据的样本调优提升模型在场景中的应用性能。
创新:
-
首次使用Encoder-Decoder架构,
-
多任务优化和Prompt-based微调
-
多任务优化使得训练更稳定
突破性进展:
- 具备领先的语言理解和模型生成能力
- 在预训练阶段沉淀了大量的通用知识,既能做理解又能做生成
- 采用大模型小样本调优的路线,实现了小样本学习任务上超越GPT系列
盘古CV
目前业界最大的视觉预训练模型,包含超过30亿参数。
创新:
-
首次使用模型的按需抽取
-
首次生成判别损失和基于样本相似度的对比学习
成就:
-
在多场景中得到验证,降低研发成本90%
-
ImageNet小样本学习精度业界第一
-
助力无人机电力智能巡检
混合模型代表
谷歌 Switch Transformer大模型
2021年1月谷歌推出了1.6万亿参数的Switch Transformer大模型,提出了一种可以扩展到万亿参数的网络,增大参数量,但不增大计算量,且提升了模型效果。在计算资源相同的情况下,Switch Transformer 的训练速度可以达到 T5 模型的 4-7 倍。
两大创新点:
-
基于Transformer MoE网络结构,简化了MoE的routing机制,降低了计算量
-
进一步通过数据并行+模型并行+expert并行的方式降低了训练通信量,提升训练性能
智源 悟道
悟道1.0(2021.3发布);
悟道2.0(2021.6)参数规模达到1.75万亿,是OpenAI的GPT-3模型的10倍,一跃成为世界最大模型。
特点:
-
国产,打破分布式训练瓶颈,开创FastMoE技术,完全基于国产超算GPU平台打造,实现万亿模型
-
模型参数量大
-
精准,一统文本和视觉两大领域,在问答、绘画、作诗、视频等任务中正在逼近图灵测试
成就:
-
与新华社合作,将大模型应用于新闻智能化转型
-
与“小冰“联动,打造了虚拟大学生**“华智冰”**
阿里达摩院巨模型M6(2021.6)
-
“低碳高效“:仅使用 480 卡 V100 32G GPU 就实现了高效的1万亿 M6 模型的训练,能耗降低超过 8 成,且效率提升近 11 倍。
-
创造力再升级:图片生成清晰度提升至 1024×1024。
-
首次商用:国内首个实现商业化落地的多模态大模型,已应用于支付宝、淘宝等平台,参与跨模态搜索、文案撰写、图片设计等工作。
经过试用期,M6 将作为 AI 助理设计师正式上岗阿里新制造平台犀牛智造,通过结合潮流趋势进行快速设计、试穿效果模拟,有望大幅缩短快时尚新款服饰设计周期
总结
预训练大模型正在推动一场AI新变革。而在关注这场变革之前,我们更应该关注根技术、根平台的打造与建设。
当一个大模型具备了丰富的数据和多样的能力,开发者便不再需要做着零散的工作,而是聚集在生产线的基础上,发挥更多能力。
或许,AI的工业化时代将就此开始。产业AI的未来突然充盈,繁华盛开!
- 点赞
- 收藏
- 关注作者
评论(0)