【云驻共创】华为云携手多元生态开发者,驱动产业数字智能化升级

举报
龙腾九州 发表于 2023/10/18 21:57:50 2023/10/18
【摘要】 坚持基础软硬件创新,才能构建持续发展的基石,持续使能上层应用生态百花齐放,推动数字经济高质量发展。硬件开放、软件开源,华为云携手鲲鹏、昇腾、欧拉、高斯、HMS生态、 HarmonyOS软硬件生态等端云协同,提供一站式基础软硬件创新数字化技术能力使能开发者,助力企业加入华为生态,一站式助力企业发展。在此,本文主要介绍AI方面的内容。

数字经济时代, 从中国软件产业发展角度看,应用软件发展是我们的优势,但基础软件相对薄弱,包括操作系统、数据库、AI框架等。所谓根深才能叶茂,坚持基础软硬件创新,才能构建持续发展的基石,持续使能上层应用生态百花齐放,推动数字经济高质量发展。硬件开放、软件开源,华为云携手鲲鹏、昇腾、欧拉、高斯、HMS生态、 HarmonyOS软硬件生态等端云协同,提供一站式基础软硬件创新数字化技术能力使能开发者,助力企业加入华为生态,一站式助力企业发展。华为云也希望能聚集到越来越多的开发者参与多元生态开源社区,朝着“共建、共享、共治”的目标稳健发展,打造繁荣的基础软件生态。

在此,本文主要介绍AI方面的内容。

一、 昇思MindSpore带领开发者轻松搞定大模型

近年来,大模型蓬勃发展,华为自主研发的昇思MindSpore应运而生,它能带领开发者轻松搞定大模型。我们从下图可以看出大模型发展的脉络和历史。

1. 近年来大模型的发展

2. 大集群训练大模型的挑战

针对大集群训练大模型,主要存在以下的一些挑战。

内存墙: 2000亿参数模型,参数内存占用745GB内存,训练过程需要3500GB+内存(参数+激活+梯度+优化器状态),一个模型需要128张卡才能放下。

性能墙: 大模型切分到集群后,通信成了主要的性能瓶颈,综合考虑参数量、计算量、计算类型、集群带宽拓扑和样本数量等才能设计出性能较优的并行切分策略。

效率墙: 算法的分布式并行开发一直是并行计算领域的一大难题,如何让用户高效编写分布式并行的代码,一直是各种框架的一个研究重点及难点,包括从HPC到大数据,到现在的超大规模AI。HPC有MPI编程范式,大数据有MapReduce编程范式,而超大规模AI需要怎样的编程范式?

调优墙: 在数千节点集群上,要保证计算的正确性,性能的可用性,手工难以全面兼顾。

3. 昇思MindSpore原生大模型支持

针对以上的一些问题和挑战,华为昇思MindSpore有以下一些特点支持原生大模型挑战的解决。

技术创新: 自动并行AI编辑MindSpore 自动并行AI编译器

MindSpore+腾实现性能最优自动策略生成与调优,多维混合并行,多维存储及异构优化

同时,针对这些问题,下面会分解化来处理。

4. 算子级并行

首先,我们来看算子级并行,下图展示了计算两个连续的二维矩阵乘。

5. 重计算——时间换空间

“以时间换空间”是一种常用的算法优化技术,它是通过牺牲算法的时间复杂度,来节省算法的空间消耗。在实际的软件开发中,经常会遇到需要大量存储数据的情况,这时候若是采用空间复杂度高的算法,会导致程序的运行速度变慢,甚至因为内存不足而崩溃。因此,“以时间换空间”这种算法优化技术是解决这种问题的一个重要手段。
这种算法技术的核心思想是通过降低程序的时间复杂度,来减少数据的存储空间。一种常见的应用方式是使用哈希表。哈希表在存储大规模数据时,可以通过降低查找时间来节省大量的存储空间。但是哈希表的使用也会引入一定的时间复杂度,因此在使用时需要根据实际情况进行权衡,选择最合适的优化策略。

6. 从系统视角看,大模型集群训练的关键要素

昇腾算力&集群是基础,软件上需要算子、通信、框架协同优化才能发挥大集群性能优势。

7. 华为云ModelArts分布式日志管理和自动容错

MindSpore基于ModelArts分布式日志管理和自动容错能力,协同提升大模型训练效率和使用体验

平台: 具备一定自愈能力,未知错误对于用户透明化,训练调优效率提升2倍以上

日志: 支持实时日志,支持基于持久存储的历史日志上传、下载《包含批量下载) 、预览、搜索(基本功能)

容错: 支持10余种训练前的预检查工具,支持作业训练中自动重试

 

8. 并行策略选择流程

并行策略的流程:先定并行策略组合,再定各策略内部的具体切分;并不是所有模型这么选择都是最优的。

9. 共建有社交属性的平台,助力开发者全面成长

开发者是产业互联网主力军,共建有社交属性的平台,全面助力开发者成长。比如能为成长中的开发者提供多元化实践平台和激励,同时,阶梯式课程体系上线华为云,全面提升AI开发者能力。

二、昇腾新一代开发者套件玩转AI开发

该主题主要介绍了以下内容:认识Atlas 200I DK A2,全流程开发工具链,快速上手、跑通样例,训练模型、开发推理应用,进阶E2E场景化Demo(智能小车、机械臂、聊天机器人),昇腾社区

1. Atlas 200I DK A2——高性能,高可扩展,为AI开发提供澎湃算力底座

Atlas 200I DK A2是一款高性能的AI开发套件,它的核心模组+扩展底板介绍如图所示。

2. Atlas 200I DK A2开发者套件——打造极简易用的AI创新开发体验

Atlas 200I DK A2开发者套件面向高校师生、行业工程师和个人开发者可用于计算机视觉自然语言处理智能语音、AIOT和机器人等场景研发。同时,它具有开箱即用、参考丰富等特点,供上百个考没计样例,配套全流程开发配工具,帮助并发快速上手高效开发。

3. Atlas 200I DK A2—— 配套全流程开发工具链

4. Atlas 200I DK A2——边云协同: 云端训练,边缘部署

华为云ModelArts发者的一站AI 台:数据预处理及交互式暂能标注大规模分布式练,动化模型生成及端--模型按需部署能力。

 

5. 一键制卡工具——帮助开发者快速开启AI开发之旅

一键制卡工具: 烧录开发板系统,仅需点击一次按钮,即可完成制卡。轻松上手,开启你的AI之旅。

6. E2E样例1一一发动你的智能小车

这是基于Atlas 200I DK A2开发的自动驾驶智能小车你将了解到以下内容:

视频分析,目标检测;实时运动控制,高效通信自动行驶,自动泊车,跟车

7. E2E样例2一一开发你的专属机械臂

这是基于Atlas 200I DK A2开发机械臂。你将了解到以下内容:实时视分析,目标实时运动控制,高效通信 积木抓取、分练、堆

 

8. E2E样例3一一部你的语音聊天机器人

基于Atlas 200I DK A2部署实时语音聊天机你将了解到以下内容:然语处理大语言模型侧优化部署;,写诗,写文,写

 

9. 昇腾社区

昇腾社区能够帮助开发者了解华为昇腾系列AI处理器软硬件,进行人工智能应用的开发等。

综上所述,本文主要从昇思MindSpore带领开发者轻松搞定大模型和昇腾新一代开发者套件玩转AI开发两个主题进行了相关的论述。

本文参与华为云社区【内容共创】活动第24期

任务8华为开发者大会2023(Cloud):华为云携手多元生态开发者,驱动产业数字智能化升级

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。