MindIE PD分离部署Q&A

举报
AI布道Mr_jin 发表于 2025/05/27 20:28:30 2025/05/27
【摘要】 PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记...

PD分离是一种近年来兴起的推理加速部署方案,kimi、deepseek都进行了工程落地。昇腾MindIE组件也支持了PD分离部署能力,参考链接为 https://www.hiascend.com/document/detail/zh/mindie/20RC1/mindieservice/servicedev/mindie_service0140.html 。部署过程中会出现一些问题,在这里记录分享一下。

单机部署

Q:运行deploy sh 报错 core dump

A:大概率是选择了错误了 镜像,例如A2的机器使用了A3的镜像。

Q:运行deploy sh 后,pods的状态为UnexpectedAdmissionError

A:mindie_service_single_container.yaml配置文件中,resources/requests/huawei.com/Ascend910的值目前只能为8,小于8会触发报错。

多机部署

Q:运行 deploy sh 后,coordinator一直显示not ready

A:可能是没有配置正确的rank_table_file,导致P、D节点没有拿到device信息,不能载入模型,解决方案参考知乎《qwen模型 MindIE PD分离部署问题定位》。

Q:拉起k8s失败,输出 kubectl get configmap rings-config-mindie-server-p0…

A:可能是之前的进程没有删除干净;deployment目录下面的yaml文件的配置可能需要修改,如果是单机16卡,则npu的卡数需要改成16;可以查看 /var/log/mindx-dl/ascend-operator的日志,检查是否有json文件的格式错误。

参数配置建议

使用benchmark工具发送请求。

llama3-8B

卡数 输入输出 concurrency 发送频率 prefill_bs decode_bs
PD混部 1 257-60 7 10 100
PD分离 2+3 257-60 1000 93 2 18
【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。