LLaMA-Factory适配昇腾开源验证任务心得

举报
hlc 发表于 2024/11/28 15:13:34 2024/11/28
【摘要】 Llama-factory适配昇腾开源验证任务心得根据任务计划书(https://bbs.huaweicloud.com/blogs/437813)了解任务内容,主要目的是在昇腾npu上利用 Llama-factory完成一个大模型的训练推理,确保其在昇腾上能够正常运行。开发过程明确目的后开始熟悉框架,Llama-factory的github网址:https://github.com/hiy...

Llama-factory适配昇腾开源验证任务心得

根据任务计划书https://bbs.huaweicloud.com/blogs/437813了解任务内容,主要目的在昇腾npu上利用 Llama-factory完成一个大模型的训练推理确保其在昇腾上能够正常运行

开发过程

明确目的后开始熟悉框架Llama-factorygithub网址:https://github.com/hiyouga/LLaMA-Factory,把Llama-factory项目从github上用git命令拉取下来。

NPU验证

1)安装依赖包

NPU上需要CANNtorch_npupytorch

先安装CANN,参考:
https://www.hiascend.com/zh/developer/download/community/result?module=cann

torch_npu的安装参考:https://github.com/Ascend/pytorch/blob/master/README.zh.md

Llama_factory适配NPU还需要下载:pip install -e ".[torch-npu,metrics]"

注:python环境为3.8的话,torch_nputorch均下载2.1.0版本,transformer下载4.46.1版本,tokenizers下载0.20.3版本,否则会报错。

(2)修改训练脚本

在脚本Llama3_lora_pretrain.yaml中修改:

直接从huggingface会报错,使用本地路径加载模型的办法

图片1.png

在脚本qwen2vl_lora_sft.yaml中修改:

同样使用本地路径加载模型的办法

图片2.png

1 资源清单

产品名称

NPU架构

CPU架构

操作系统

云堡垒机

Ascend 910B3

 

鲲鹏计算

Kunpeng-920

Huawei Cloud EulerOS 2.0 (aarch64)

2 验证截图

2.1验证思路

github上拉取ChatTTS仓库,使用modelscope下载模型放置model下,这里验证了Mete-llama -3-8B-InstructQwen2-VL-7B-Instruct,运行llama-factoryexample/train_lora下的训练脚本,得到训练结果保存在saves下。

2.2 NPU训练验证结果

1Mete-llama -3-8B-Instruct
运行代码:

图片3.png

NPU上运行:

图片4.png

训练结果:
终端打印训练结果在终端并输出.json文件

图片5.png

生成train_result.json文件

图片6.png         图片7.png

程序运行前:

图片8.png

程序运行后:

图片9.png

2Qwen2-VL-7B-Instruct
运行代码:

图片10.png

NPU上运行:

图片11.png

训练结果:
终端打印训练结果在终端并输出.json文件

图片12.png

生成train_result.json文件

图片13.png 图片14.png

程序运行前:

图片8.png

程序运行后:

图片17.png

 

 

 

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。