【云驻共创】大模型时代下的AI开发
一、AI发展趋势
回顾历史,三次大的工业革命,推动人类社会迈入蒸汽时代、电气时代、互联网时代,每一次革命都深刻改变了世界;人工智能目前看来是人类历史上第四次工业革命,将带给全世界更为深刻的变革,已进入人们生活的方方面面
经过几次低谷和高潮后,由于数据获取门槛降低、云计算提供充沛算力,认知计算和生产深度结合,将产生实际巨大经济效益
我们正处于AI的起跑线上,每个行业都将被革命。海量分散的小模型会逐步向少数大模型汇聚。OpenAI的报告有提到:未来50%的人类工作任务场景将会被ChatGPT影响
随着大模型的诞生,将会对现有的应用进行大范围的重构,成为AI领域应用开发的新范式
随着GPT走入我们的视野,大量现象级应用开始涌现,与过去传统的人工智能相比,在文本、图像、多模态等方面都有着质的飞跃
华为云也带来了自己的盘古大模型,相信在往后的日子里,也将会重塑千行百业
二、大模型相关的基础知识
2.1 什么是AI模型
大模型,简单来说就是预训练时参数规模达到一定量级的模型。
常见的大模型主要包括:大语言模型、CV大模型、多模态大模型、可惜计算大模型等。大模型的特点如下
- 应用广泛:大模型语言可用于语言翻译、情感分析、问题答疑等,多模态大模型则可用于进行图片、视频生成等功能
- 持续改进:随着越来越多的数据和参数添加进来,性能也会随之提高,功能更强大
- 学习很快:可以基于外部的数据参数不断微调学习
2.1.1 AI模型 == 一种函数F:
这个函数将任务的输入映射到相应的输出:
- 语音识别:输入一段语音信号,输出文字
- 图像识别:输入图片,输出图片的属性
- 智能控制:输入棋盘局势,输出下一步
- 翻译:输入一种语言,输出对应的翻译
- 大模型:输入前文,预测下一个字
2.1.2 如何寻找这个函数?
把大象放冰箱一样,一共分为三步
- 定义一个函数集合(define a function set)
- 判断函数的好坏(goodness of a function)
- 选择最好的函数(pick the best one)
2.1.3 AI算法不同的学习方法
- 监督学习:由训练资料中学到或建立一个模式,并依此模式推测新的实例
- 无监督学习:没有给定先标记过的训练示例,自动对输入的资料进行聚类或分群
- 强化学习:与人类学习相似,对作用者的一些动作产生奖励的回馈机制,通过这个回馈机制促进学习
2.2 大语言模型的训练流程
大语言模型的训练过程如下,主要分为:数据搜集、基础大模型训练、指令微调、类人对齐
大语言模型的训练要求
- 大量的数据:图书、网页、论坛、代码(ChatGPT训练需要45TB数据)
- 合适的算法:Transformers、DeepSpeed、Megation-LM等
- 充足的算力:据说GPT-3语言模型训练使用了10万个GPU
因此,建议在有限的数据和算力基础下,基于预训练好的模型微调,让模型融入你的数据知识
2.2.1 Scaling Law(大力出奇迹)
Scaling Law:即随着模型规模指数级上升,模型性能实现线性增长。可以根据模型的参数规模、训练数据和训练所使用的算力来预测模型的loss。直到现在,Scaling Law还没有失效,大力出奇迹的趋势还没停止,这也是大模型的参数竞争日趋加大的原因
大模型参数量计算:模型参数量 ≈ 12 * transformer 层数 * 隐藏维度²
几种主流模型的参数计算示例
大模型训练计算量预估:训练计算量(FLOPS) ≈ 8*训练数据集 Token 总量 * 模型参数数量
大模型训练时间预估:训练时间(秒)≈训练计算量/(GPU卡个数 * GPU单卡峰值算力 * GPU卡平均使用率)
Emergent Ablities(涌现现象)
当大模型经过10的22次方浮点运算(实践归纳总结),模型对某些问题的处理性能呈现快速增长,这种现象称为Emergent Abilities,即涌现能力
统计学解释(诺亚):采样定理表明,采样频率达到一个临界值后,数字世界可以真实表现模拟世界,因此大模型参数足够多后(比如大模型语言模拟参数超过百亿),可真实建模自然语言知识
大模型能力涌现推翻比例定律
2.3 低成本参与大模型的关键技术
2.3.1 大模型高效微调
在面对特定的下游任务时,全参数微调(即与训练模型中的所有参数都进行微调,太过低效率)相比参数高效微调(Parameter-efficient Fine-tuning)方法冻结预训练模型99%以上的参数,仅利用少量下游任务数据微调少于1%模型规模的参数,作为模型插件实现大模型对下游任务的适配,达到媲美全参数微调的性能,并显著降低微调过程的计算和存储开销
- Prefix Tuning/P-Tuning v1/v2:在输入或隐层添加额外可训练的前缀tokens(P-tuning引入连续的prompt),只训练这些前缀参数
- LoRA/QLoRA:假设大模型微调过程中权重变化具有较低的内在秩,冻结预训练模型权重,通过小参数的低秩矩阵来近似模型权重参数更新
- Adapter-Tuning:将较小的神经网络或模块(adapter)插入预训练模型的每一层,微调时只训练adapter参数
2.3.2 提示词工程(Prompt Engineering)
Prompt给预训练语言模型一个线索/提示,帮助它可以更好的理解人类的问题。Prompt本质上是对下游任务的指令,可以作为一种信息增强
Prompt Engineerine将问题转换为特定格式的输入,并使用预定义的模板、规则和算法来处理,让LLM能够更好地理解任务
提示工程是一门相对较新的科学,用于开发和优化提示,以便有效地引导大模型输出合适的结果。
- 明确任务
- 把指令性文本和上下文分开
- 描述要尽量具体
- 使用思维链引导模型思考
- 使用样例
2.3.3 检索增强(Retrieval Augmented Generation,RAG)
大模型存在幻觉、训练语料时效性不足、缺乏领域知识等问题。RAG技术通过接入外部知识库,有助于缓解这些问题,提升大模型内容生成质量、扩展其应用场景
RAG查询的步骤如下:
- 提出问题
- 查询向量数据库
- 向量数据库回复
- 合成/augmented
- LLM查询
- LLM恢复/completion
三、华为云全栈AI能力
3.1 云全栈AI架构
下图是华为云全栈全场景AI创新,从行业终端,到IP和芯片,再到框架,最后使能应用
AI根技术创新包含如下多个方面
3.2 华为云EI
全栈全场景产品&服务,助力千行白业智能升级
- 昇腾云服务:AI算力底座
- 基于达芬奇架构,算例大幅提升。
- 昇腾迁移工具链一键迁移80%代码,降低昇腾上云门槛,提供日志采集工具、问题调测工具、性能分析工具和昇腾编译优化工具
- ModelArts:一站式AI开发平台
- 数据处理/模型训练/应用部署/运维监控,全路打通
- Standard/Lite/Edge方案,满足全方位需求
- 盘古大模型:深度优化的AI根技术
- 盘古大模型:基于昇腾深度优化,支持千亿参数模型
- 田筹求解器:面向行业提供运筹优化方案
- 通用AI:AI原子能力基于大模型全面升级
- AIGallery:丰富的AI生态
- AI Gallery社区与昇腾/昇思社区共建生态、生成共享、互助支持
- 百模千态专区,支持主流开源大模型,如Stable Diffusion、Llama、ChatGLM…
四、华为云AI赋能认证体系
云是ICT产业的未来,也是企业数字化转型的底座,开发者是产业发展的灵魂,是业务创新的源头,是技术发展的引领者。为了更好地服务千万开发者,华为云退出开发者认证,真正让开发者在云上作业,懂开发会开发,与开发者共成长。
4.1 职业认证
华为云提供了如下分级的职业认证
- 入门级(HCCDA):核心技术原理、云上开发作业
- 工作级(HCCDP):开发需求分析、应用开发构建、应用调测
- 专业级(HCCDE):开发需求分析,复杂场景架构设计、应用开发构建、性能优化
4.2 华为云开发者认证
华为云开发者认证体系如下
4.3 人工智能认证
人工智能的认证体系如下
4.4 认证流程
可以是在线按需学习亦或是线下面授培训|理论&实践能力双重检测
华为云微认证的网址为:https://activity.huaweicloud.com/certificationindex.html
华为云微认证提供一站式在线学习、实验与考试零基础也可学习前沿技术知识,快速获得场景化的技能提升。
众多热门认证,均只需1元即可
总结
- 人工智能在未来将重构绝大多数行业
- 人工智能技术的三要素:算法、算力、数据
- 低成本的参与大模型技术研发的方法:高效微调、特征工程、RAG
- 华为云的全栈AI根技术:昇腾芯片、异构计算架构CANN、mindspore AI开发框架、modelarts AI应用开发套件
- 华为云开发者职业认证分为:入门级(HCCDA)、工作级(HCCDP)、专业级(HCCDE)
- 华为云微认证链接:https://activity.huaweicloud.com/certificationindex.html
附录
本文参与华为云社区【内容共创】活动第26期
任务9:大模型时代下的AI开发
- 点赞
- 收藏
- 关注作者
评论(0)