- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

MindSpore-Lite适配TritonServer部署

昇腾适配发表于 2024/10/25 15:28:57 2024/10/25

【摘要】本教程是基于triton作为服务端，mslite作为后端推理框架，以yolov8模型为例介绍适配昇腾的方案

/如有任何问题和疑问，请评论区留言*******/

基本介绍

本教程是基于triton作为服务端，mslite作为后端推理框架，适配昇腾环境的方案

使用版本：

triton镜像	nvcr.io/nvidia/tritonserver:24.02-py3
CANN	8.0.RC3
mslite	2.3.1

0.前提条件

0.1 登录机器

机器已开通，密码已获取，能通过ssh登录

0.2 检查NPU设备

NPU设备检查：运行npu-smi info命令，返回如下设备npu设备信息。

如出现错误，可能是机器上的NPU设备没有正常安装，或者NPU镜像被其他容器挂载。请先释放被挂载的NPU或者联系华为方技术支持。

0.3 docker安装

检查docker是否安装：docker -v，如如尚未安装，运行以下命令进行docker安装

yum install -y docker-engine.aarch64 docker-engine-selinux.noarch docker-runc.aarch64

配置IP转发，用于容器内的网络访问：

sed -i 's/net\.ipv4\.ip_forward=0/net\.ipv4\.ip_forward=1/g' /etc/sysctl.conf
sysctl -p | grep net.ipv4.ip_forward

0.4 获取镜像

docker pull nvcr.io/nvidia/tritonserver:24.02-py3

docker pull nvcr.io/nvidia/tritonserver:24.02-py3

注：英伟达官方镜像有x86和arm版本，需要在arm机器上拉取镜像，则会自动安装arm版本镜像

0.5 获取CANN包及配套依赖包

可以在官网下载对应版本包：https://www.hiascend.com/developer/download/community/result?module=pt+cann

下载toolkit和kernels的run包即可,

910B系列卡下载下面两个：

Ascend-cann-toolkit_8.0.RC3*_linux-aarch64.run
Ascend-cann-kernels-910b_8.0.RC3*_linux.run

300 IDUO 卡下载：

Ascend-cann-toolkit_8.0.RC3*_linux-aarch64.run
Ascend-cann-kernels-310p_8.0.RC3_linux-aarch64.run

0.6 获取mslite包

2.3.1版本：https://www.mindspore.cn/lite/docs/zh-CN/r2.3.1/use/downloads.html

下载mindspore-lite-2.3.1-linux-aarch64.tar.gz

0.7 使用镜像

docker run -it --net host \
    --shm-size=32g \
    --ulimit memlock=-1 \
    --ulimit stack=67108864 \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
    --name {name} \
    nvcr.io/nvidia/tritonserver:24.02-py3 \
    bash

# 建议先不挂载目录，可以构建好容器后保存镜像方便后续使用

• name：自己给容器起个名字

进入容器：通过容器名称进入（如果创建容器后没有进入）

docker exec -it -u root triton_mslite bash

1. 开始构建

1.1 安装CANN包

在容器外可以通过docker cp命令，将下载CANN包从容器外复制到容器内，命令参考:

docker cp {host_path} {container_id}:{container_path}
# docker cp也可以从容器内复制到容器外
# 先安装toolkit，在安装kernel，两者存在依赖关系
./Ascend-cann-toolkit_8.0.RC3*_linux-aarch64.run --full
./Ascend-cann-kernels-910b_8.0.RC3*_linux.run --install
# 安装过程会先弹出EULA协议，输入"y"接受后即可安装

配置CANN环境

# 每次启动容器都需要执行，配置cann包环境
source /usr/local/Ascend/ascend-toolkit/set_env.sh
# 或者将其加入~/.bashrc，每次启动容器时都会自动配置

1.2 构建triton-mslite后端

在容器外可以通过docker cp命令，将mslite包从容器外复制到容器内/opt目录下

docker cp mindspore-lite-2.3.1-linux-aarch64.tar.gz {container_id}:/opt

在容器内/opt目录下解压mindspore-lite-2.3.1-linux-aarch64.tar.gz

tar –zxvf mindspore-lite-2.3.1-linux-aarch64.tar.gz

执行如下命令配置LD_LIBRARY_PATH

LITE_HOME=/opt/mindspore-lite-2.3.1-linux-aarch64
export LD_LIBRARY_PATH=${LITE_HOME}/runtime/third_party/dnnl:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=${LITE_HOME}/runtime/lib:${LITE_HOME}/tools/converter/lib:$LD_LIBRARY_PATH
拷贝mslite到/opt/tritonserver/backends/
cp –r /opt/mindspore-lite-2.3.1-linux-aarch64/tools/providers/triton/mslite/ /opt/tritonserver/backends/

# 每次启动容器都需要执行上述命令配置mslite包环境
# 或者将其加入~/.bashrc，每次启动容器时都会自动配置

在容器内：

## 安装依赖包
pip install decorator sympy scipy attr attrs psutil

chown -R triton-server:triton-server /opt/tritonserver/backends/mslite/

1.3 构建triton model_repo

在容器中新建model_repo目录（位置自选），这里以yolov8 模型为例

mkdir -p model_repository/yolov8/1
将mindir模型从容器外拷贝到该目录下, 将config.pbtxt拷贝到model_repository/yolov8

config.pbtxt 内容如下:

name: "yolov8"
backend: "mslite"
max_batch_size: 8
dynamic_batching {
 preferred_batch_size: [1, 4, 8]
 max_queue_delay_microseconds: 1000
}
input [{
    name: "images"
    data_type: TYPE_FP32
    dims: [ 3, 640, 640 ]
  }
]
output [
  {
    name: "output0"
    data_type: TYPE_FP32
    dims: [  84, 8400 ]
  }
]
instance_group [
  {
    count: 5
    kind: KIND_CPU
  }
]
parameters [
  {
    key: "device_type"
    value: {string_value: "ascend"}
  },
  {
    key: "device_id"
    value: {string_value: "0"}
  }
]

关于config.pbtxt配置参数可参考

https://bbs.huaweicloud.com/blogs/411829

关于yolov8模型如何从pt转onnx,onnx转mindir参考

https://support.huaweicloud.com/bestpractice-modelarts/modelarts_aigc_yolov8infer_9091.html

关于如何从onnx转mindir 更多资料参考：

https://www.mindspore.cn/lite/docs/zh-CN/r2.3.1/use/cloud_infer/converter_tool.html

另外关于模型也可以在运行时采取挂载方式，根据业务场景选择即可

2. 打包镜像

完成上面步骤后使用docker commit打包镜像，打包完成后需要重新启动容器，挂载npu设备等

docker commit {container_id} {image_name}:{image_version}

• container_id：刚才构建时的容器id

• image_name：自己给新镜像起个名字

• image_version：自己给新镜像定个版本

3. 启动服务

3.1 启动镜像

完成打包镜像后重新开一个新容器，和上面构建时的容器不同，启动服务需要把NPU设备挂载到容器中

docker run -it \
--privileged \
--shm-size="32g" \
-u root \
-v /etc/localtime:/etc/localtime \
-v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
-v /etc/ascend_install.info:/etc/ascend_install.info \
--device=/dev/davinci_manager \
--device=/dev/devmm_svm \
--device=/dev/hisi_hdc \
-v /var/log/npu/:/usr/slog \
-v /usr/local/sbin/npu-smi:/usr/local/sbin/npu-smi \
-v /sys/fs/cgroup:/sys/fs/cgroup:ro \
-v {path}:{path} \
--name {name} \
{image} \
/bin/bash


• path：需要挂载到容器内的目录

• name：自己起个容器名称

• image：刚才打包好的镜像的id，或者使用<名称>:<版本>的方式也可以

3.2 启动triton服务

# 启动服务
/opt/tritonserver/bin/tritonserver \
--model-repository /{path}/model_repository \
--grpc-port 9001 \
--http-port 9000 \
--metrics-port 9002
# 端口可以自定义

•  path：放置model_repo的位置

如果要打印server详细日志，启动命令中加--log-verbose=1即可

出现下方信息则为启动成功

I0614 08:38:22.900838 535 grpc_server.cc:2519] Started GRPCInferenceService at 0.0.0.0:9001
I0614 08:38:22.901152 535 http_server.cc:4637] Started HTTPService at 0.0.0.0:9000
I0614 08:38:22.942263 535 http_server.cc:320] Started Metrics Service at 0.0.0.0:9002

3.3 测试请求

向triton服务发送请求

python3 grpc_client.py

grpc_client.py 内容如下：

import numpy as np
import tritonclient.grpc as grpcclient

def client_init(url="0.0.0.0:9001",
                ssl=False, private_key=None, root_certificates=None, certificate_chain=None,
                verbose=False):
    """
    :param url:
    :param ssl: Enable SSL encrypted channel to the server
    :param private_key: File holding PEM-encoded private key
    :param root_certificates: File holding PEM-encoded root certificates
    :param certificate_chain: File holding PEM-encoded certicate chain
    :param verbose:
    :return:
    """
    triton_client = grpcclient.InferenceServerClient(
        url=url,
        verbose=verbose,
        ssl=ssl,
        root_certificates=root_certificates,
        private_key=private_key,
        certificate_chain=certificate_chain)

    return triton_client

def infer(triton_client, model_name,
          compression_algorithm=None):
    input0_data = np.random.rand(1, 3, 640, 640).astype(np.float32)
    inputs = [grpcclient.InferInput("images", [1,3,640,640], "FP32")]
    inputs[0].set_data_from_numpy(input0_data)

    results = triton_client.infer(
        model_name=model_name,
        inputs=inputs,
        compression_algorithm=compression_algorithm
    )
    print(results)
    # 转化为numpy格式
    print("output shape:",results.as_numpy('output0').shape)

if __name__ == '__main__':
    import time
    client = client_init()
    s = time.time()
    infer(triton_client=client, model_name='yolov8')
    print("grpc infer: {}".format(time.time() - s))

输出推理结果：

4. 常见问题

4.1 ImportError: libhccl.so: cannot open shared object file: No such file or directory. Please check that the cann package is installed. Please run 'source set_env.sh' in the CANN installation path.

这是没有配置cann包环境导致的，运行下方命令配置cann包环境

source /usr/local/Ascend/ascend-toolkit/set_env.sh
# 建议将环境变量配置添加到 ~/.bashrc 中，在进入容器时会自动配置

4.2 转换模型或者推理模型时遇到only support CustomAscend,but got Conv2DFusion

请检查下载的cann 和当前使用的卡类型是否配套，比如910B的卡，使用的cann版本必须是910b，910不行

Ascend-cann-toolkit_8.0.RC3*_linux-aarch64.run
Ascend-cann-kernels-910b_8.0.RC3*_linux.run

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入