文章目录
- ollama注册自定义模型(GGUF格式)
- 下载模型
- 注册模型(GGUF格式)
ollama注册自定义模型(GGUF格式)
-
需要全程开启ollama
nohup ollama serve > ollama.log 2>&1 &
-
需要注意,尽管手动下载的GGUF格式模型权重是阿里官方发布的模型权重,但仍然会偶尔出现和ollama不兼容,导致胡言乱语的情况出现。如果希望使用ollama进行推理,优先建议使用ollama pull命令下载ollama官方的GGUF格式。
-
以下是用阿里自己开源的qwq32b-GGUF格式来演示
下载模型
-
ollama支持调用手动下载的GGUF格式模型,我们以modelscope中的为例子
https://modelscope.cn/models/Qwen/QwQ-32B-GGUF
复制下载命令(稍后需要更改),我们还是下载Q4_K_M量化的QwQ-32B,注意这个不是ollama自己量化的版本。
找到量化版本复制名称:qwq-32b-q4_k_m.gguf
# 创建目录存放QwQ-32B的GGUF格式 cd /root/lanyun-tmp mkdir QwQ-32B-GGUF # 下载,指定下载 qwq-32b-q4_k_m.gguf 单个文件到指定文件夹下 download --model Qwen/QwQ-32B-GGUF qwq-32b-q4_k_m.gguf --local_dir ./QwQ-32B-GGUF
注册模型(GGUF格式)
-
查看当前ollama中已有的模型
ollama list
-
创建文件,用于进行ollama模型注册
cd /root/lanyun-tmp/QwQ-32B-GGUF vim ModelFile
添加如下
FROM ./qwq-32b-q4_k_m.gguf
保存
-
在当前目录下,使用ollama创建导入模型
cd /root/lanyun-tmp/QwQ-32B-GGUF ollama create qwq-32b -f ModelFile
等待成功后即可查看
-
后续直接使用即可
ollama run qwq-32b
显存占用大概是在22G左右