- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

vllm运行deepseek指导

AI在路上发表于 2025/03/10 19:09:40 2025/03/10

【摘要】一、安装指导vllm部署deepseek1. 安装miniconda1). wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh2). bash Miniconda3-latest-Linux-x86_64.sh3). 添加环境变量~/.bashrc文件中export PATH="$HOME/mi...

一、安装指导

vllm部署deepseek

1. 安装miniconda

1). wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

2). bash Miniconda3-latest-Linux-x86_64.sh

3). 添加环境变量~/.bashrc文件中

export PATH="$HOME/miniconda3/bin:$PATH"

source ~/.bashrc

4). conda --version

5). conda create -n vllm-ds python=3.10

6). conda activate vllm-ds

7). conda install numpy

2. 更新pip,下载vllm等依赖

python -m pip install --upgrade pip

pip install modelscope

pip install vllm

3. 下载模型脚本

新建download_models.py脚本，添加下面两行内容，模型名称按照需要进行修改，然后执行脚本下载。

from modelscope import snapshot_download

model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', cache_dir='/root', revision='master')

4. vllm启动模型

python -m vllm.entrypoints.openai.api_server --model /root/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --served-model-name DeepSeek-R1-Distill-Qwen-7B --max-model-len=2048 &

注意：1. 部署多卡需要加上-tp ${卡数}，比如2卡就是-tp 2, 8卡就是-tp 8, 这样的参数。

2. V100显卡不能使用BF16精度，只能使用float16, 需要加上参数--dtype float16。

3. 模型加载完成后，报显存不足可以添加--enforce-eager使用enger模式，停用CUDA graph减少显存使用。

驱动建议下载535， cuda使用12.2版本

wget https://us.download.nvidia.com/tesla/535.183.01/NVIDIA-Linux-x86_64-535.183.01.run

wget https://developer.download.nvidia.com/compute/cuda/12.2.2/local_installers/cuda_12.2.2_535.104.05_linux.run

卸载老驱动，安装新驱动方法请参考华为云官网指导：https://support.huaweicloud.com/usermanual-ecs/ecs_03_0174.html

5.测试接口：

curl http://localhost:8000/v1/models

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "DeepSeek-R1-Distill-Qwen-7B","messages": [{"role": "user", "content": "hello\n"}]}'

二、使用共享私有镜像运行指导

启动模型

登录到ds-test-ollama-vllm虚拟机

1、激活conda空间

conda activate evalscope

2、启动vllm
export VLLM_USE_MODELSCOPE=True && python3 -m vllm.entrypoints.openai.api_server --model /root/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/ --served-model-name DeepSeek-R1-Distill-Llama-70B --trust_remote_code --port 8801 --gpu_memory_utilization 0.9 --max_model_len 32000 --dtype half -tp 8

其中 dtype在v100 T4上需要指定为half, 在A30 A40 等新一代gpu上可以不指定，-tp表示使用几张gpu运行，如果启动报显存不足，可以尝试使用--enforce-eager，关闭 cuda graph加速减少显存使用

启动后，大模型api端口对应8801，可以通过api接口或对话工具访问

3、dify镜像启动

cd /root/dify/docker

执行docker-compose up -d

dify启动的服务端口为80

首次创建需要先创建账号密码，登录http://dify虚拟ip/install

设置密码后登陆dify使用，url地址http://dify虚拟ip

三手动安装dify

1、安装docker和docker compose

2、安装dify

下载源码

git clone https://github.com/langgenius/dify.git

进入 Dify 源代码的 Docker 目录

cd dify/docker

复制环境配置文件

cp .env.example .env

启动 Docker 容器

根据你系统上的 Docker Compose 版本，选择合适的命令来启动容器。你可以通过 $ docker compose version 命令检查版本，详细说明请参考 Docker 官方文档：

国内链接docker官方源下载时间较长

修改docker配置文件: 打开docker配置文件 vim /etc/docker/daemon.json

修改配置

{

"registry-mirrors": ["https://docker.m.daocloud.io"]

}

重启docker

systemctl daemon-reload

systemctl restart docker

如果版本是 Docker Compose V2，使用以下命令：

docker compose up -d

如果版本是 Docker Compose V1，使用以下命令：

docker-compose up -d

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

vllm运行deepseek指导

一、安装指导

二、使用共享私有镜像运行指导

三 手动安装dify

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品

三手动安装dify