- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

手把手教你在云上搭建本地大语言模型

菊花茶发表于 2024/03/10 18:57:28 2024/03/10

【摘要】使用华为云GPU加速基于ollama部署本地大模型

大语言模型LLM现在已经不是什么新鲜事物了，虽然线上ChatGPT、Gemini、Claude等各家大模型飞速迭代，但是收费高、区域限制、隐私难以保证等问题始终难以解决。事实上，除了在线大模型以外，离线(本地部署)大模型也是一个很好的选择。比如大家都知道谷歌前阵子发布了Gemini，但可能有人不知道其还发布了开源的大模型Gemma，初次以外还有HuggingFace上也有很多出色的开源模型可供选择，比如Llama、Mistral等等。
本文简要介绍一下基于开源项目ollama如何在云上部署一个本地大语言模型。

买云服务器
GPU对于大部分LLM来说是必不可少的，仅有CPU虽然有时也能跑，但是问答速度无法忍受，如果希望长期将LLM融入工作生活中，一个带有GPU的稳定服务器比不可少。笔者以华为云的ECS为例，在选购实例的时候筛选GPU加速型即可，带上N卡模型跑起来嗖嗖快。

OS版本：Centos 8.x
Docker：Centos安装docker

安装Ollama

Ollama是一个用户本地LLM部署的开源平台，支持Linux\Windows等多平台部署，基于Docker安装ollama可以简化后续的配置步骤。另外，让Docker能使用GPU资源还需要一些额外的工具，使用GPU与只有CPU的场景下性能差异天壤之别。

CPU Only

如果你的机器没有GPU，可以采用这种方式部署

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Nvidia GPU
如果你的机器有GPU，那么可以采用这种方式部署

配置yum仓库

curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo \
    | sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo

安装Nvidia容器工具包

sudo yum install -y nvidia-container-toolkit
sudo systemctl restart docker

配置Docker使用NVIDIA驱动

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

启动本地大模型，这里以llama2为例：

docker exec -it ollama ollama run llama2

模型下载完以后会开启命令行模式，可以看到在GPU加持下相应速度还是很快的

Ollama 还支持很多市面上其他开源大模型(大模型列表 ollama.com/library)，下面是一些列子：

Model Parameters Size Download

Llama 2 7B 3.8GB ollama run llama2

Mistral 7B 4.1GB ollama run mistral

Dolphin Phi 2.7B 1.6GB ollama run dolphin-phi

Phi-2 2.7B 1.7GB ollama run phi

Neural Chat 7B 4.1GB ollama run neural-chat

Starling 7B 4.1GB ollama run starling-lm

Code Llama 7B 3.8GB ollama run codellama

Llama 2 Uncensored 7B 3.8GB ollama run llama2-uncensored

Llama 2 13B 13B 7.3GB ollama run llama2:13b

Llama 2 70B 70B 39GB ollama run llama2:70b

Orca Mini 3B 1.9GB ollama run orca-mini

Vicuna 7B 3.8GB ollama run vicuna

LLaVA 7B 4.5GB ollama run llava

Gemma 2B 1.4GB ollama run gemma:2b

Gemma 7B 4.8GB ollama run gemma:7b

Model	Parameters	Size	Download
Llama 2	7B	3.8GB	`ollama run llama2`
Mistral	7B	4.1GB	`ollama run mistral`
Dolphin Phi	2.7B	1.6GB	`ollama run dolphin-phi`
Phi-2	2.7B	1.7GB	`ollama run phi`
Neural Chat	7B	4.1GB	`ollama run neural-chat`
Starling	7B	4.1GB	`ollama run starling-lm`
Code Llama	7B	3.8GB	`ollama run codellama`
Llama 2 Uncensored	7B	3.8GB	`ollama run llama2-uncensored`
Llama 2 13B	13B	7.3GB	`ollama run llama2:13b`
Llama 2 70B	70B	39GB	`ollama run llama2:70b`
Orca Mini	3B	1.9GB	`ollama run orca-mini`
Vicuna	7B	3.8GB	`ollama run vicuna`
LLaVA	7B	4.5GB	`ollama run llava`
Gemma	2B	1.4GB	`ollama run gemma:2b`
Gemma	7B	4.8GB	`ollama run gemma:7b`

API

Ollama平台也提供给了REST API进行问答和模型管理，不过目前这个版本API没有认证鉴权功能，如果需要的话只能自己在前端包装一个API网关实现认证，可以考虑用华为云APIG配置。
下面是一个调用模型问答的例子，可以指定要使用的模型名字

curl http://localhost:11434/api/chat -d '{
  "model": "mistral",
  "messages": [
    { "role": "user", "content": "why is the sky blue?" }
  ]
}'

更多详情见API文档

Chatbot UI

Chatbot Ollama提供了一个类似ChatGPT的简单WEB UI，可以让你的对话体验更好一些，项目支持docker部署。

克隆工程到本地

git clone https://github.com/ivanfioravanti/chatbot-ollama.git

修改配置
在下载的工程目录下有个Dockerfile文件，需要修改其中的ollama主机IP，可以使用主机本地的私网IP

ENV OLLAMA_HOST="http://host.docker.internal:11434"

本地构建

docker build -t chatbot-ollama .
docker run -p 3000:3000 chatbot-ollama

之后就可以通过ip:3000端口访问了

最后Ollama Github README文档中还提到了很多现成的WEB和桌面插件，感兴趣的朋友可以一探究竟。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

手把手教你在云上搭建本地大语言模型

安装Ollama

API

Chatbot UI

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品