一、前言
搞研发的,想学习大模型的,很多都想本地部署一波,体验一下,部署是学习的第一步,我们不仅仅是要理论的巨人,还要成为实战的专家。不要恐惧,不要恐惧,不要恐惧,重要的问题说三遍,新手会面临很多问题:
1. 大模型能本地化部署吗?
2. 大模型本地化部署对硬件有什么要求没?
3. 大模型本地化部署难度大吗?
4. 大模型部署完后带UI界面吗?
当你跟着我部署完大模型后,这些问题将迎刃而解。
二、部署(跟我一起,别光看)
先学习最简单的部署方式,复杂的,大部分人hold不住。较为麻烦,我们作为学习,ollama安装已经够了。
1. 下载Ollama
Ollama是一个开源的 LLM(大型语言模型)服务工具,用于简化在本地运行大语言模型、降低使用大语言模型的门槛,使得大模型的开发者、研究人员和爱好者能够在本地环境快速实验、管理和部署最新的大语言模型。
Ollama收录了哪些大模型呢?下面举几个典型的大模型:
GLM:清华开源的大模型,在国内较有名。
Qwen2: 百度的千问大模型。
Llama3:是 Meta 公司开源的备受欢迎的一个通用大语言模型。
如何查看Ollama支持哪些大模型,可以通过https://ollama.com/library查看。
Ollama的下载地址:https://ollama.com/
根据自己的操作系统下载,就可以了。
2. 安装Ollama
安装Ollama很简单,一路点点点就可以了。
需要注意的是:
OLLAMA_MODELS:模型文件存放目录,默认目录为当前用户目录(Windows 目录:C:\Users%username%.ollama\models,MacOS 目录:~/.ollama/models,Linux 目录:/usr/share/ollama/.ollama/models),如果是 Windows 系统建议修改(如:D:\OllamaModels),避免 C 盘空间吃紧。
像我的mac本,就是打开终端,然后cd ~/.ollama/
如何验证是否安装成功:
在终端执行ollama list,不报错就表示成功了。(如何打开终端,自行百度)
3. 部署大模型
Ollama支持很多大模型,我们可以通过以下页面查看:https://ollama.com/library。
作为学习,这里我推荐安装清华的GLM大模型。
拉取大模型
ollama pull glm4
如果拉取失败,可能是被强了,需要搭建梯子(VPN)。
我们可以通过指令看看有没有拉取成功:
ollama list
运行大模型
ollama run glm4
成功后是这样的:
4. 通过接口访问大模型
chat接口
curl http://localhost:11434/api/chat -d '{ "model": "glm4","messages":[{"role":"user","content": "为什么天空是蓝色的?"}]}'
generate
接口
curl http://localhost:11434/api/generate -d '{ "model": "glm4","prompt": "为什么天空是蓝色的?"}'
5. 部署大模型UI
这里需要VPN,这又是一道坎,淘宝和其他渠道自己去获取。
1)安装Node.js
下载并安装 Node.js 工具:https://nodejs.org/zh-cn,也可以指令安装。
2)下载ollama-webui工程代码
git clone https://github.com/ollama-webui/ollama-webui-lite ollama-webui
3)切换ollama-webui代码的目录
cd ollama-webui
4)安装npm或者yarn
推荐yarn,不容易出问题,使用npm需要一定的使用经验
设置 Node.js 工具包镜像源(下载提速):
npm config set registry http://mirrors.cloud.tencent.com/npm/
5)安装 Node.js 依赖的工具包
如何安装了npm,使用
npm install
如果安装了yarn,使用
yarn install
6)启动 Web 可视化界面
npm run dev 或yarn run dev
7)网页访问大模型
http://127.0.0.1:3000/
如果使用IP地址的方式访问,可能会导致webui连接不上大模型,这个docker有关,麻烦能省就省。
6. 大模型API访问
python或java的使用,将在下面的文章中讲解,这里将不展开。