【云驻共创】MindSpore助力打造深度学习平台

举报
G-washington 发表于 2021/06/09 16:04:57 2021/06/09
【摘要】

建设背景

随着人工智能的发展,各种深度学习框架和算法层出不穷,从模型训练、服务推理到边缘部署,整个人工智能开发流程复杂,加上各阶段的学习框架支持,需要算法开发人员能力要求太高;同时也由于GPUNPU等专业计算卡资源稀缺等多种原因,行业用户急需拥有一套标准化、支持异构化资源调度的人工智能平台,完成整个任务的调度与模型开发工作。

AI项目条块分割,重复建设,烟囱式架构,供应商众多且标准不一,形成数据孤岛。

行业客户缺乏高水平AI算法工程师,应用需求落地门槛高,委托开发成本高。

 

解决方案

 

HyperAI平台预置MindSpore框架和高精度算法,全面适配华为Atlas系列硬件,打造全自研AI训练、推理、应用全流程一体化解决方案。作为一站式AI开发平台提供数据预处理及协同标注,自动化模型训练与推理服务及端--云模型按需部署能力,帮助用户快速创建和部署模型,管理券周期AI工作流。

基于华为云的基础设施Kubernetes+Atlas800 AI集群进行调度优化、容器资源监控、集合通信优化配置和设备发现等,在平台层,基于MindSpore框架和在其上的HyperDL深度学习计算服务平台和HyperRT深度学习推理服务平台,建立了数据中心、镜像中心等为应用层建立提供基础。在应用层,中科弘云搭建了视频内容智能分析系统HyperCV,提供了预警管理、配置管理、模型管理、服务管理和系统管理等。

 

MindSpore全面适配华为国产硬件平台,它支持x86ARM架构,能够帮助客户实现从Nvidia GPU与华为NPU混合架构下的计算服务。

 

     MindSpore是华为推出的新一代深度学习框架,是源于全产业的最佳实践,最佳匹配昇腾处理器算力,支持终端、边缘、云全场景灵活部署,开创全新的AI编程范式,降低AI开发门槛。它可以实现全场景协同:实现全场景自适应部署,跨异构硬件执行,无需模型转换端侧轻量学习,模型私人定制;实现全自动并行,一行代码串行算法并优化,张量自动切分,实现最大化的并行效率;全流程极简,模型开发套件实现即开即用,模型调优套件实现所见即所得,第三方支持套件实现一键式转换。

 

方案概述

 

企业将采集的数据集通过深度学习算法和MindSpore进行模型训练、模型优化,将高精模型加载到模型服务,Atlas200/310可以进行模型转换。

 

方案概述-MindSpore

 

MindSpore预置高性能模型,支持在不同的硬件平台上执行高效推理。

ckpt:采用了Protocol Buffers格式,存储了网络中所有的参数值。一般用于训练任务中断后恢复训练,或训练后的微调(Fine Tune)任务

Air:全称Ascend Intermediate Representation,是华为定义的针对机器学习所设计的开放式文件格式。它能更好地适应华为AI处理器,一般用于Ascend 310上执行推理任务。

    Mindir:全称MindSpore IR,是MindSpore的一种基于图表示的函数式IR,定义了可扩展的图结构以及算子的IR表示。它消除了不同后端的模型差异,一般用于跨硬件平台执行推理任务。

onnx:全称Open Neural Network Exchange,是一种针对机器学习模型的通用表达。一般用于不同框架间的模型迁移或在推理引擎(TensorRT)上使用。

 

关键技术

 

基于MindSporeHyperAI人工智能云平台

 

   HyperAI打造数据、算力和算法三位一体端到端人工智能与计算解决方案。该平台支持NPUGPU处理器,MindSpore提供了可视化调优、企业级安全可信、领域扩展库、ME全场景统一API、计算图编译和端--云按需协作分布式并行架构。HyperAI Cloud可以对数据进行自标注、对算法进行自优化、对算力可以自适应。

 

中科弘云全场景AI解决方案

 

     对数据样本集进行样本标注,进行模型训练,通过模型评估来优化样本集,模型下发包括人脸识别模型、行业专属模型、其他精度模型,这些模型通过模型管理、服务管理来提供AI应用。

HyperDL面向计算机视觉、语音、NLP等领域深度学习算法研发需求,提供数据标注、模型开发、镜像管理、模型训练、模型验证等多个功能模块,帮助用户大幅提升AI研发效率,加速AI场景应用创新步伐。

 

深度学习计算服务平台HyperDL提供了从数据预处理、数据标注、镜像管理、模型训练和模型评估一站式AI服务。

 

深度学习计算服务平台HyperDL

 

平台提供系统算法与用户算法功能,集成了各场景下优秀的算法模型,零代码即可实现模型训练任务;算法支持用户创建开发环境并进行算法调试。比如在图像分类领域集成了VGGInceptionResnet算法,在语义分割领域,有Deeplab算法,在目标检测领域,提供了YOLOv3/v4FasterRCNNRetinaNetSSD算法等,在实例分割领域,有MaskRCNN算法。

 

模型评估可以通过现有数据集对训练出来的模型进行定量化评价,更真实的反应模型效果。在图像分类:mPrecisionmScoremRecall;在语义分割:mIOU;在目标检测:mAPmRecallmIOU;在实例分割:MaskAP50BoxAP50

 

    推理服务平台HyperRT将来自文件、来自镜像、模型订阅的模型导入到模型中心,部署到Kubernets,到Ingrest/SVC,提供对应的API,业务数据通过基于API的应用服务进行调用,具有高并发、易伸缩、标准化等特点。

 

HyperRT提供内置服务模型,包括MindSporePyTorchTensorFlow等框架,提供高可用、高并发服务。

云边协同模块支持对边缘设备的内管、资源监控、资源调度能力,向边缘设备调度任务,并实时监控任务状态信息。

 

应用案例

人工智能图像技术应用存在重复投资,重复建设,数据资产分散,服务分散,运维难度大等问题,希望建设深度学习智能图像服务平台,对样本统一汇聚、模型统一训练、服务统一管理的AI平台。

基于上面的目的,在平台建设的解决方案上,端侧是各类传感器,边侧包括各类边缘节点和样本归集,在云端搭建了模型中心、服务中心、训练中心和样本中心。

在部署架构上,训练节点采用Atlas800集群,推理节点使用Atlas800集群,边缘节点使用Atlas200,还有管理节点服务器和视频平台,在此之上有模型开发组和业务应用组。

在数据标注上,使用了3万多张图片作为数据集,数据格式为JPG,有鸟巢、施工类型等30种数据标签。

    在模型训练上,使用yolo v4算法,超参数使用epoch5000、基础学习率0.001样本大小为4

服务发布时,模型指标precision达到0.94recall达到0.89F1-score达到0.91

依托全场景AI计算框架MindSpore,打造端边云的全系列支撑能力,让AI真正在实际场景中发挥作用,将智能推向全域,实现普惠AI。在AI的辅助下,平台可以更好的服务于用户。

MindSpore是一个新生的深度学习框架想要真正的推广开来还有一段路要走,但是相信在未来几年里,会有更多的开发者加入到mindspore的建设中来,会不断的完善,会有越来越多的人和公司使用mindspore框架。

视频链接:https://live.huawei.com/hdc2021/meeting/cn/8031.html

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。