通过vllm部署QwQ并扩展上下文长度
简介
vLLM:是一个专为提升大语言模型(LLM)推理性能而设计的开源框架,具备高效内存管理和高吞吐量特性,支持多种硬件平台和模型类型。
QwQ:由阿里云通义千问团队推出的开源推理大模型,专注于提升AI在数学、编程和复杂逻辑推理方面的能力。QwQ模型的核心特点包括深度自省能力、高效架构设计和开源与易用性。
步骤
基于8卡V100 8*32GB
- 创建python虚拟环境。
系统OS:Ubuntu22.04
- 安装anaconda(此处示例中安装在root目录下):
下载安装脚本
wget https://repo.anaconda.com/archive/Anaconda3-2023.03-0-Linux-x86_64.sh
执行脚本
bash ./Anaconda3-2023.03-0-Linux-x86_64.sh
单击键盘按键的“ENTER”
持续单击“ENTER”,直到出现如下图所示后输入“yes”并单击“ENTER”
再次单击键盘按键“ENTER” ,等待直到如下图所示
输入“yes”并单击键盘按键“ENTER”,安装完成
执行命令以激活conda
source /root/anaconda3/bin/activate
- 创建虚拟环境并激活
conda create --name vllm-qwq python==3.10 -y
激活虚拟环境
conda activate vllm-qwq
- 通过modelscope(魔搭社区)下载模型
- 安装modelscope工具:
pip install modelscope
- 下载模型Qwen/QwQ-32B
modelscope download --model Qwen/QwQ-32B --local_dir ./dir
(替换路径dir)
下载完成包含14个权重文件及其他配置文件:
三、安装vllm并参考qwen3的扩展上下文方式在启动命令中添加参数“—repo-scaling”启动模型
- 安装vllm并部署模型
安装vllm:pip install vllm
启动模型:vllm serve /home/qwen/qwq/qwq-32b --host 0.0.0.0 --port 8000 --tensor-parallel-size $(ls /proc/driver/nvidia/gpus | wc -l) --served-model-name qwq --gpu_memory_utilization 0.95 --dtype float16 --enable-chunked-prefill False --enforce-eager --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072
(第一次部署会比较慢,v100需指定“--dtype” 参数为float16)
启动成功出现类似下图所示内容:
四、测试在Dify平台(可参考解决方案实践 快速搭建Dify-LLM应用开发平台)上添加模型后发送长文本验证,这里以小说片段作为输入进行验证,大概7w多字,可以看到对比未扩展之前扩展上下文后大模型能够正常思考并解析:
扩展前默认的上下文长度是40960,输入长文本后报错
图1 Dify界面报错
图2 模型后端日志
扩展上下文长度131072
图3 Dify平台对话正常
图4 模型后端日志有override
- 点赞
- 收藏
- 关注作者
评论(0)