【云驻共创】MindSpore助力打造深度学习平台
建设背景
随着人工智能的发展,各种深度学习框架和算法层出不穷,从模型训练、服务推理到边缘部署,整个人工智能开发流程复杂,加上各阶段的学习框架支持,需要算法开发人员能力要求太高;同时也由于GPU、NPU等专业计算卡资源稀缺等多种原因,行业用户急需拥有一套标准化、支持异构化资源调度的人工智能平台,完成整个任务的调度与模型开发工作。
AI项目条块分割,重复建设,烟囱式架构,供应商众多且标准不一,形成数据孤岛。
行业客户缺乏高水平AI算法工程师,应用需求落地门槛高,委托开发成本高。
解决方案
HyperAI平台预置MindSpore框架和高精度算法,全面适配华为Atlas系列硬件,打造全自研AI训练、推理、应用全流程一体化解决方案。作为一站式AI开发平台提供数据预处理及协同标注,自动化模型训练与推理服务及端-边-云模型按需部署能力,帮助用户快速创建和部署模型,管理券周期AI工作流。
基于华为云的基础设施Kubernetes+Atlas800 AI集群进行调度优化、容器资源监控、集合通信优化配置和设备发现等,在平台层,基于MindSpore框架和在其上的HyperDL深度学习计算服务平台和HyperRT深度学习推理服务平台,建立了数据中心、镜像中心等为应用层建立提供基础。在应用层,中科弘云搭建了视频内容智能分析系统HyperCV,提供了预警管理、配置管理、模型管理、服务管理和系统管理等。
MindSpore全面适配华为国产硬件平台,它支持x86和ARM架构,能够帮助客户实现从Nvidia GPU与华为NPU混合架构下的计算服务。
MindSpore是华为推出的新一代深度学习框架,是源于全产业的最佳实践,最佳匹配昇腾处理器算力,支持终端、边缘、云全场景灵活部署,开创全新的AI编程范式,降低AI开发门槛。它可以实现全场景协同:实现全场景自适应部署,跨异构硬件执行,无需模型转换端侧轻量学习,模型”私人定制”;实现全自动并行,一行代码串行算法并优化,张量自动切分,实现最大化的并行效率;全流程极简,模型开发套件实现即开即用,模型调优套件实现所见即所得,第三方支持套件实现一键式转换。
方案概述
企业将采集的数据集通过深度学习算法和MindSpore进行模型训练、模型优化,将高精模型加载到模型服务,Atlas200/310可以进行模型转换。
方案概述-MindSpore
MindSpore预置高性能模型,支持在不同的硬件平台上执行高效推理。
ckpt:采用了Protocol Buffers格式,存储了网络中所有的参数值。一般用于训练任务中断后恢复训练,或训练后的微调(Fine Tune)任务
Air:全称Ascend Intermediate Representation,是华为定义的针对机器学习所设计的开放式文件格式。它能更好地适应华为AI处理器,一般用于Ascend 310上执行推理任务。
Mindir:全称MindSpore IR,是MindSpore的一种基于图表示的函数式IR,定义了可扩展的图结构以及算子的IR表示。它消除了不同后端的模型差异,一般用于跨硬件平台执行推理任务。
onnx:全称Open Neural Network Exchange,是一种针对机器学习模型的通用表达。一般用于不同框架间的模型迁移或在推理引擎(TensorRT)上使用。
关键技术
基于MindSpore的HyperAI人工智能云平台
HyperAI打造数据、算力和算法”三位一体”的”端到端”人工智能与计算解决方案。该平台支持NPU和GPU处理器,MindSpore提供了可视化调优、企业级安全可信、领域扩展库、ME全场景统一API、计算图编译和端-边-云按需协作分布式并行架构。HyperAI Cloud可以对数据进行自标注、对算法进行自优化、对算力可以自适应。
中科弘云全场景AI解决方案
对数据样本集进行样本标注,进行模型训练,通过模型评估来优化样本集,模型下发包括人脸识别模型、行业专属模型、其他精度模型,这些模型通过模型管理、服务管理来提供AI应用。
HyperDL面向计算机视觉、语音、NLP等领域深度学习算法研发需求,提供数据标注、模型开发、镜像管理、模型训练、模型验证等多个功能模块,帮助用户大幅提升AI研发效率,加速AI场景应用创新步伐。
深度学习计算服务平台HyperDL提供了从数据预处理、数据标注、镜像管理、模型训练和模型评估一站式AI服务。
深度学习计算服务平台HyperDL
平台提供系统算法与用户算法功能,集成了各场景下优秀的算法模型,零代码即可实现模型训练任务;算法支持用户创建开发环境并进行算法调试。比如在图像分类领域集成了VGG、Inception和Resnet算法,在语义分割领域,有Deeplab算法,在目标检测领域,提供了YOLOv3/v4、FasterRCNN、RetinaNet、SSD算法等,在实例分割领域,有MaskRCNN算法。
模型评估可以通过现有数据集对训练出来的模型进行定量化评价,更真实的反应模型效果。在图像分类:mPrecision、mScore、mRecall;在语义分割:mIOU;在目标检测:mAP、mRecall、mIOU;在实例分割:MaskAP50、BoxAP50。
推理服务平台HyperRT将来自文件、来自镜像、模型订阅的模型导入到模型中心,部署到Kubernets,到Ingrest/SVC,提供对应的API,业务数据通过基于API的应用服务进行调用,具有高并发、易伸缩、标准化等特点。
HyperRT提供内置服务模型,包括MindSpore、PyTorch、TensorFlow等框架,提供高可用、高并发服务。
云边协同模块支持对边缘设备的内管、资源监控、资源调度能力,向边缘设备调度任务,并实时监控任务状态信息。
应用案例
人工智能图像技术应用存在重复投资,重复建设,数据资产分散,服务分散,运维难度大等问题,希望建设深度学习智能图像服务平台,对样本统一汇聚、模型统一训练、服务统一管理的AI平台。
基于上面的目的,在平台建设的解决方案上,端侧是各类传感器,边侧包括各类边缘节点和样本归集,在云端搭建了模型中心、服务中心、训练中心和样本中心。
在部署架构上,训练节点采用Atlas800集群,推理节点使用Atlas800集群,边缘节点使用Atlas200,还有管理节点服务器和视频平台,在此之上有模型开发组和业务应用组。
在数据标注上,使用了3万多张图片作为数据集,数据格式为JPG,有鸟巢、施工类型等30种数据标签。
在模型训练上,使用yolo v4算法,超参数使用epoch5000、基础学习率0.001样本大小为4。
服务发布时,模型指标precision达到0.94,recall达到0.89,F1-score达到0.91。
依托全场景AI计算框架MindSpore,打造端边云的全系列支撑能力,让AI真正在实际场景中发挥作用,将智能推向全域,实现普惠AI。在AI的辅助下,平台可以更好的服务于用户。
MindSpore是一个新生的深度学习框架,想要真正的推广开来还有一段路要走,但是相信在未来几年里,会有更多的开发者加入到mindspore的建设中来,会不断的完善,会有越来越多的人和公司使用mindspore框架。
视频链接:https://live.huawei.com/hdc2021/meeting/cn/8031.html
- 点赞
- 收藏
- 关注作者
评论(0)