- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

通过vllm部署QwQ并扩展上下文长度

AI日新月异发表于 2025/05/09 18:05:18 2025/05/09

【摘要】通过Vllm部署QwQ时，如果默认上下文长度不能满足需求可在部署模型时可扩展上下文长度

简介

vLLM：是一个专为提升大语言模型（LLM）推理性能而设计的开源框架，具备高效内存管理和高吞吐量特性，支持多种硬件平台和模型类型。

QwQ：由阿里云通义千问团队推出的开源推理大模型，专注于提升AI在数学、编程和复杂逻辑推理方面的能力。QwQ模型的核心特点包括深度自省能力、高效架构设计和开源与易用性。

步骤

基于8卡V100 8*32GB

创建python虚拟环境。

系统OS：Ubuntu22.04

安装anaconda（此处示例中安装在root目录下）：

下载安装脚本

wget https://repo.anaconda.com/archive/Anaconda3-2023.03-0-Linux-x86_64.sh

执行脚本

bash ./Anaconda3-2023.03-0-Linux-x86_64.sh

单击键盘按键的“ENTER”

持续单击“ENTER”，直到出现如下图所示后输入“yes”并单击“ENTER”

再次单击键盘按键“ENTER” ，等待直到如下图所示

输入“yes”并单击键盘按键“ENTER”，安装完成

执行命令以激活conda

source /root/anaconda3/bin/activate

创建虚拟环境并激活

conda create --name vllm-qwq python==3.10 -y

激活虚拟环境

conda activate vllm-qwq

通过modelscope（魔搭社区）下载模型

安装modelscope工具：

pip install modelscope

下载模型Qwen/QwQ-32B

modelscope download --model Qwen/QwQ-32B --local_dir ./dir

（替换路径dir）

下载完成包含14个权重文件及其他配置文件：

三、安装vllm并参考qwen3的扩展上下文方式在启动命令中添加参数“—repo-scaling”启动模型

安装vllm并部署模型

安装vllm：pip install vllm

启动模型：vllm serve /home/qwen/qwq/qwq-32b --host 0.0.0.0 --port 8000 --tensor-parallel-size $(ls /proc/driver/nvidia/gpus | wc -l) --served-model-name qwq --gpu_memory_utilization 0.95 --dtype float16 --enable-chunked-prefill False --enforce-eager --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

（第一次部署会比较慢，v100需指定“--dtype” 参数为float16）

启动成功出现类似下图所示内容：

四、测试在Dify平台（可参考解决方案实践快速搭建Dify-LLM应用开发平台）上添加模型后发送长文本验证，这里以小说片段作为输入进行验证，大概7w多字，可以看到对比未扩展之前扩展上下文后大模型能够正常思考并解析：

扩展前默认的上下文长度是40960，输入长文本后报错

图1 Dify界面报错

图2 模型后端日志

扩展上下文长度131072

图3 Dify平台对话正常

图4 模型后端日志有override

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

通过vllm部署QwQ并扩展上下文长度

简介

步骤

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品