vllm运行deepseek指导
【摘要】 一、安装指导vllm部署deepseek1. 安装miniconda1). wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh2). bash Miniconda3-latest-Linux-x86_64.sh3). 添加环境变量~/.bashrc文件中export PATH="$HOME/mi...
一、安装指导
vllm部署deepseek
1. 安装miniconda
1). wget https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh
2). bash Miniconda3-latest-Linux-x86_64.sh
3). 添加环境变量~/.bashrc文件中
export PATH="$HOME/miniconda3/bin:$PATH"
source ~/.bashrc
4). conda --version
5). conda create -n vllm-ds python=3.10
6). conda activate vllm-ds
7). conda install numpy
2. 更新pip,下载vllm等依赖
python -m pip install --upgrade pip
pip install modelscope
pip install vllm
3. 下载模型脚本
新建download_models.py脚本,添加下面两行内容,模型名称按照需要进行修改,然后执行脚本下载。
from modelscope import snapshot_download
model_dir = snapshot_download('deepseek-ai/DeepSeek-R1-Distill-Qwen-7B', cache_dir='/root', revision='master')
4. vllm启动模型
python -m vllm.entrypoints.openai.api_server --model /root/deepseek-ai/DeepSeek-R1-Distill-Qwen-7B --served-model-name DeepSeek-R1-Distill-Qwen-7B --max-model-len=2048 &
注意:1. 部署多卡需要加上-tp ${卡数}, 比如2卡就是-tp 2, 8卡就是-tp 8, 这样的参数。
2. V100显卡不能使用BF16精度,只能使用float16, 需要加上参数--dtype float16。
3. 模型加载完成后,报显存不足可以添加--enforce-eager使用enger模式,停用CUDA graph减少显存使用。
驱动建议下载535, cuda使用12.2版本
卸载老驱动,安装新驱动方法请参考华为云官网指导:https://support.huaweicloud.com/usermanual-ecs/ecs_03_0174.html
5.测试接口:

curl http://localhost:8000/v1/chat/completions -H "Content-Type: application/json" -d '{"model": "DeepSeek-R1-Distill-Qwen-7B","messages": [{"role": "user", "content": "hello\n"}]}'

二、使用共享私有镜像运行指导
启动模型
登录到ds-test-ollama-vllm虚拟机
1、激活conda空间
conda activate evalscope
2、启动vllm
export VLLM_USE_MODELSCOPE=True && python3 -m vllm.entrypoints.openai.api_server --model /root/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/ --served-model-name DeepSeek-R1-Distill-Llama-70B --trust_remote_code --port 8801 --gpu_memory_utilization 0.9 --max_model_len 32000 --dtype half -tp 8
export VLLM_USE_MODELSCOPE=True && python3 -m vllm.entrypoints.openai.api_server --model /root/deepseek-ai/DeepSeek-R1-Distill-Llama-70B/ --served-model-name DeepSeek-R1-Distill-Llama-70B --trust_remote_code --port 8801 --gpu_memory_utilization 0.9 --max_model_len 32000 --dtype half -tp 8
其中 dtype在v100 T4上需要指定为half, 在A30 A40 等新一代gpu上可以不指定,-tp表示使用几张gpu运行,如果启动报显存不足,可以尝试使用--enforce-eager,关闭 cuda graph加速减少显存使用
启动后,大模型api端口对应8801,可以通过api接口或对话工具访问
3、dify镜像启动
cd /root/dify/docker
执行docker-compose up -d
dify启动的服务端口为80
首次创建需要先创建账号密码,登录http://dify虚拟ip/install
设置密码后登陆dify使用,url地址http://dify虚拟ip
三 手动安装dify
1、安装docker和docker compose
2、安装dify
-
下载源码
git clone https://github.com/langgenius/dify.git
-
进入 Dify 源代码的 Docker 目录
-
复制环境配置文件
-
启动 Docker 容器
根据你系统上的 Docker Compose 版本,选择合适的命令来启动容器。你可以通过 $ docker compose version
命令检查版本,详细说明请参考 Docker 官方文档:
国内链接docker官方源下载时间较长
修改docker配置文件: 打开docker配置文件 vim /etc/docker/daemon.json
修改配置
{
"registry-mirrors": ["https://docker.m.daocloud.io"]
}
重启docker
systemctl daemon-reload
systemctl restart docker
如果版本是 Docker Compose V2,使用以下命令:
如果版本是 Docker Compose V1,使用以下命令:
【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱:
cloudbbs@huaweicloud.com
- 点赞
- 收藏
- 关注作者
评论(0)