- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ollama v0.12.0 发布：引入云端大模型预览，支持本地与云端无缝融合

福大大架构师每日一题发表于 2025/09/21 07:30:22 2025/09/21

【摘要】 2025年9月18日，Ollama 发布了 v0.12.0 版本更新，本次更新带来了一个重量级的新特性——云端模型（Cloud Models）预览功能，使开发者不仅能在本地运行模型，还能直接调用云端算力运行超大模型，实现本地与云端的无缝协同。同时，本版本也对多种模型架构的支持、GPU 兼容性以及 API 行为做了重要优化。一、核心更新亮点 1. 云端大模型（Cloud Models）预览在...

2025年9月18日，Ollama 发布了 v0.12.0 版本更新，本次更新带来了一个重量级的新特性——云端模型（Cloud Models）预览功能，使开发者不仅能在本地运行模型，还能直接调用云端算力运行超大模型，实现本地与云端的无缝协同。同时，本版本也对多种模型架构的支持、GPU 兼容性以及 API 行为做了重要优化。

一、核心更新亮点

1. 云端大模型（Cloud Models）预览

在 v0.12.0 中，Ollama 首次提供了云端推理能力，开发者可以运行体量更大的模型，而无需担心本地机器显存容量不足。云端模型通过 数据中心级别硬件 提供推理计算，同时保持了 Ollama 一贯的隐私与安全政策——不保留用户数据。

通过云端模式，你可以直接调用如 qwen3-coder:480b-cloud、gpt-oss:120b-cloud、deepseek-v3.1:671b-cloud 等超大模型，并与本地工具链无缝集成。

示例运行命令：

ollama run qwen3-coder:480b-cloud

当前可用的云端模型包括：

qwen3-coder:480b-cloud（阿里巴巴长上下文编码及智能体任务优化模型）
gpt-oss:120b-cloud（OpenAI 自研推理与智能体任务模型）
gpt-oss:20b-cloud
deepseek-v3.1:671b-cloud（混合推理模式模型，支持思维链与非思维链模式）

2. 新增模型架构支持

BERT 系列模型现已在 Ollama 引擎上运行，更适合各种文本分类、检索与 NLU 场景。
Qwen 3 系列模型也已集成至 Ollama 引擎，可在本地和云端流畅运行。

3. GPU 与性能优化

修复了 旧款 NVIDIA GPU 在新驱动环境下无法被检测的问题。
修复了多版本 CUDA 环境下的兼容性问题（Multi-CUDA version skew）。
优化了模型导入流程，避免了 ollama create 导入失败的 bug。
构建系统优化，防止并行构建导致内存或线程资源耗尽。

4. API 行为改进

针对 /api/generate 接口，如果提示中包含初始 <think> 标记，将不会进行重复解析，避免响应异常。
API 与 OpenAI 接口现已完全兼容，可直接用 OpenAI SDK 方式调用。
新增远程代理（Remote Proxy）支持，可更方便部署在跨网络环境。

二、使用方法

1. 安装或升级

下载最新 v0.12.0 版本后，即可使用云端功能。

2. 签到认证

云端推理需要在 Ollama 平台进行账号登录：

ollama signin

退出登录：

ollama signout

3. 运行云端模型

CLI 方式运行：

ollama run gpt-oss:120b-cloud

查看已拉取的模型列表：

ollama ls

输出示例：

NAME                      ID            SIZE        MODIFIED
gpt-oss:120b-cloud        569662207105  -           5 seconds ago
deepseek-v3.1:671-cloud   d3749919e45f  -           2 days ago
qwen3-coder:480b-cloud    11483b8f8765  -           2 days ago

4. API 调用示例

JavaScript

import ollama from "ollama";

const response = await ollama.chat({
  model: "gpt-oss:120b-cloud",
  messages: [{ role: "user", content: "天空为什么是蓝色的？" }],
});
console.log(response.message.content);

Python

import ollama

response = ollama.chat(
  model='gpt-oss:120b-cloud',
  messages=[{'role': 'user','content': '天空为什么是蓝色的？'}]
)
print(response['message']['content'])

cURL

curl http://localhost:11434/api/chat -d '{
  "model": "gpt-oss:120b-cloud",
  "messages": [{
    "role": "user",
    "content": "天空为什么是蓝色的？"
  }],
  "stream": false
}'

三、总结

Ollama v0.12.0 的发布，标志着该平台从本地推理走向了云端与本地融合的新阶段。这不仅解决了本地硬件性能不足的问题，还统一了 API 调用方式，使得开发者能够像使用本地模型一样，轻松调用超大规模云端模型。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

ollama v0.12.0 发布：引入云端大模型预览，支持本地与云端无缝融合

一、核心更新亮点

1. 云端大模型（Cloud Models）预览

2. 新增模型架构支持

3. GPU 与性能优化

4. API 行为改进

二、使用方法

1. 安装或升级

2. 签到认证

3. 运行云端模型

4. API 调用示例

三、总结

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

ollama v0.12.0 发布：引入云端大模型预览，支持本地与云端无缝融合

一、核心更新亮点

1. 云端大模型（Cloud Models）预览

2. 新增模型架构支持

3. GPU 与性能优化

4. API 行为改进

二、使用方法

1. 安装或升级

2. 签到认证

3. 运行云端模型

4. API 调用示例

三、总结

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品