通过vllm部署QwQ并扩展上下文长度

举报
AI日新月异 发表于 2025/05/09 18:05:18 2025/05/09
【摘要】 通过Vllm部署QwQ时,如果默认上下文长度不能满足需求可在部署模型时可扩展上下文长度

简介

vLLM是一个专为提升大语言模型(LLM)推理性能而设计的开源框架,具备高效内存管理和高吞吐量特性,支持多种硬件平台和模型类型。

QwQ阿里云通义千问团队推出的开源推理大模型,专注于提升AI在数学、编程和复杂逻辑推理方面的能力。QwQ模型的核心特点包括深度自省能力、高效架构设计和开源与易用性。

步骤

基于8V100 8*32GB

  • 创建python虚拟环境。

系统OSUbuntu22.04

  1. 安装anaconda(此处示例中安装在root目录下):

下载安装脚本

wget https://repo.anaconda.com/archive/Anaconda3-2023.03-0-Linux-x86_64.sh

下载anaconda.png

执行脚本

bash ./Anaconda3-2023.03-0-Linux-x86_64.sh

安装anaconda.png

单击键盘按键的“ENTER”

回车.png

持续单击“ENTER”,直到出现如下图所示后输入“yes”并单击“ENTER

持续回车.png

再次单击键盘按键“ENTER” ,等待直到如下图所示

回车并等待.png

输入“yes”并单击键盘按键“ENTER”,安装完成

输入yes01.png

输入yes02.png

执行命令以激活conda

source /root/anaconda3/bin/activate

激活conda.png

  1. 创建虚拟环境并激活

conda create --name vllm-qwq python==3.10 -y

创建虚拟环境.png

激活虚拟环境

conda activate vllm-qwq

激活虚拟环境.png

  • 通过modelscope(魔搭社区)下载模型
  1. 安装modelscope工具:

pip install modelscope

安装modelscope.png

  1. 下载模型Qwen/QwQ-32B

modelscope download --model Qwen/QwQ-32B --local_dir ./dir 

(替换路径dir

下载完成包含14个权重文件及其他配置文件:

模型结构.png

三、安装vllm并参考qwen3的扩展上下文方式在启动命令中添加参数“—repo-scaling”启动模型

  1. 安装vllm并部署模型

安装vllmpip install vllm

启动模型:vllm serve /home/qwen/qwq/qwq-32b --host 0.0.0.0 --port 8000 --tensor-parallel-size $(ls /proc/driver/nvidia/gpus | wc -l) --served-model-name qwq --gpu_memory_utilization 0.95 --dtype float16 --enable-chunked-prefill False --enforce-eager --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

(第一次部署会比较慢,v100需指定“--dtype” 参数为float16

启动成功出现类似下图所示内容:

部署成功.PNG

四、测试在Dify平台(可参考解决方案实践 快速搭建Dify-LLM应用开发平台)上添加模型后发送长文本验证,这里以小说片段作为输入进行验证,大概7w多字,可以看到对比未扩展之前扩展上下文后大模型能够正常思考并解析:

扩展前默认的上下文长度是40960,输入长文本后报错

1 Dify界面报错

长度超了报错.png

2 模型后端日志

模型后端报错日志.png

扩展上下文长度131072

3 Dify平台对话正常

模型正常对话.png

4 模型后端日志有override

出现override.png

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。