- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

DeepSpeed适配昇腾开源任务验证心得

yd_237844074 发表于 2024/11/29 18:02:40 2024/11/29

【摘要】主要目标是将 DeepSpeed 项目适配至华为的 Ascend（昇腾）和 Kunpeng（鲲鹏）处理器，并确保其在OpenEuler上高效运行。

DeepSpeed适配昇腾开源验证任务心得

根据任务计划书（https://bbs.huaweicloud.com/blogs/437769）了解任务内容，主要目的是将 DeepSpeed项目适配至华为的 Ascend（昇腾），确保其在昇腾上能够训练后推理部署。

开发过程

明确目的后开始熟悉项目，并了解适配情况https://github.com/microsoft/DeepSpeed。

（1）环境准备

首先创建新的conda虚拟环境，python版本推荐3.8以上

使用ms-swift可以完成一套完整的轻量级训练、推理、评估和部署。

根据https://github.com/modelscope/swift.git提示准备环境并安装，并了解相关训练案例。

安装DeepSpeed、CANN、torch_npu、pytorch

先安装CANN，参考：
https://www.hiascend.com/zh/developer/download/community/result?module=cann。

torch_npu的安装参考：https://github.com/Ascend/pytorch/blob/master/README.zh.md。

测试环境是否安装正确

注：在ms-swift原始模型默认下载到~/.cache/modelscope/hub/目录下，可以通过 export MODELSCOPE_CACHE=xxx 指定目录方便管理；

（2）运行训练脚本

*详情代码地址：https://gitcode.com/weixin_46056173/DeepSpeed/overview

训练脚本主要参数（具体参数内容可以参考https://github.com/modelscope/swift.git）：

--model_type: 表示你选择的模型类型；

--model_id_or_path: 表示模型在ModelScope Hub中的model_id或者本地路径；

--dataset: 用于选择训练的数据集；

--output_dir: 表示ckpt存储的目录；

注：默认下载源为ModelScope，若需切换为--USE_UF=1

拉取模型文件：

训练结果显示：

单卡910b微调耗时大约100分钟左右。

（3）模型推理结果

运行代码：

显示运行在NPU上：

推理结果：

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

DeepSpeed适配昇腾开源任务验证心得

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品