DeepSpeed适配昇腾开源任务验证心得
DeepSpeed适配昇腾开源验证任务心得
根据任务计划书(https://bbs.huaweicloud.com/blogs/437769)了解任务内容,主要目的是将 DeepSpeed项目适配至华为的 Ascend(昇腾),确保其在昇腾上能够训练后推理部署。
开发过程
明确目的后开始熟悉项目,并了解适配情况https://github.com/microsoft/DeepSpeed。
(1)环境准备
首先创建新的conda虚拟环境,python版本推荐3.8以上
使用ms-swift可以完成一套完整的轻量级训练、推理、评估和部署。
根据https://github.com/modelscope/swift.git提示准备环境并安装,并了解相关训练案例。
安装DeepSpeed、CANN、torch_npu、pytorch
先安装CANN,参考:
https://www.hiascend.com/zh/developer/download/community/result?module=cann。
torch_npu的安装参考:https://github.com/Ascend/pytorch/blob/master/README.zh.md。
测试环境是否安装正确
注:在ms-swift原始模型默认下载到~/.cache/modelscope/hub/目录下,可以通过 export MODELSCOPE_CACHE=xxx 指定目录方便管理;
(2)运行训练脚本
*详情代码地址:https://gitcode.com/weixin_46056173/DeepSpeed/overview
训练脚本主要参数(具体参数内容可以参考https://github.com/modelscope/swift.git):
--model_type: 表示你选择的模型类型;
--model_id_or_path: 表示模型在ModelScope Hub中的model_id或者本地路径;
--dataset: 用于选择训练的数据集;
--output_dir: 表示ckpt存储的目录;
注:默认下载源为ModelScope,若需切换为--USE_UF=1
拉取模型文件:
训练结果显示:
单卡910b微调耗时大约100分钟左右。
(3)模型推理结果
运行代码:
显示运行在NPU上:
推理结果:
- 点赞
- 收藏
- 关注作者
评论(0)