DeepSpeed适配昇腾开源任务验证心得

举报
yd_237844074 发表于 2024/11/29 18:02:40 2024/11/29
【摘要】 主要目标是将 DeepSpeed 项目适配至华为的 Ascend(昇腾)和 Kunpeng(鲲鹏)处理器,并确保其在OpenEuler上高效运行。

DeepSpeed适配昇腾开源验证任务心得

根据任务计划书(https://bbs.huaweicloud.com/blogs/437769)了解任务内容,主要目的是将 DeepSpeed项目适配至华为的 Ascend(昇腾)确保其在昇腾上能够训练后推理部署

开发过程

明确目的后开始熟悉项目,并了解适配情况https://github.com/microsoft/DeepSpeed

1)环境准备

首先创建新的conda虚拟环境,python版本推荐3.8以上

使用ms-swift可以完成一套完整的轻量级训练、推理、评估和部署。

根据https://github.com/modelscope/swift.git提示准备环境并安装,并了解相关训练案例。

安装DeepSpeed、CANNtorch_npupytorch

先安装CANN,参考:
https://www.hiascend.com/zh/developer/download/community/result?module=cann

torch_npu的安装参考:https://github.com/Ascend/pytorch/blob/master/README.zh.md

测试环境是否安装正确

安装.png

注:在ms-swift原始模型默认下载到~/.cache/modelscope/hub/目录下,可以通过 export MODELSCOPE_CACHE=xxx 指定目录方便管理;

(2)运行训练脚本

*详情代码地址:https://gitcode.com/weixin_46056173/DeepSpeed/overview

训练脚本主要参数(具体参数内容可以参考https://github.com/modelscope/swift.git):

--model_type: 表示你选择的模型类型;

--model_id_or_path: 表示模型在ModelScope Hub中的model_id或者本地路径;

--dataset: 用于选择训练的数据集;

--output_dir: 表示ckpt存储的目录;

xl.png

注:默认下载源为ModelScope,若需切换为--USE_UF=1

拉取模型文件:

嗷嗷.png

训练结果显示:

123.png

单卡910b微调耗时大约100分钟左右。

(3)模型推理结果

运行代码:

1.png

显示运行在NPU上:

2.png

推理结果:

 

3.png

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。