ollama模型CPU轻量化部署

news2026/2/15 19:04:18

一、定义

ollama 定义
环境部署
demo
加载本地模型方法
基本指令
关闭开启ollama
ollama 如何同时运行多个模型, 多进程
ollama 如何分配gpu
修改模型的存储路径

二、实现

ollama 定义
ollama 是llama-cpp 的进一步封装，更加简单易用，类似于docker.
模型网址：https://www.ollama.com/
部署网址：https://github.com/ollama/ollama
教程：https://github.com/ollama/ollama/releases
环境部署
1. 宿主机安装
curl -fsSL https://ollama.com/install.sh | sh

curl http://localhost:11434 已经启动。

远程访问配置：
>>sudo vi /etc/systemd/system/ollama.service
对于每个环境变量，在 [Service] 部分下添加一行 Environment：
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
保存并退出。
重新加载 systemd 并重新启动 Ollama：
>>systemctl daemon-reload
>>systemctl restart ollama

在这里插入图片描述
2. docker 模式安装
https://hub.docker.com/r/ollama/ollama

docker pull ollama/ollama
cpu:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
gpu:
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

案例
1.加载模型/运行模型

ollama pull llama3:8b

在这里插入图片描述
2. 调用模型
方式一、指令交互的方式进行调用

>>ollama run llama3

在这里插入图片描述
方式二、api 接口调用

curl http://localhost:11434/api/generate -d '{
    "model":"llama3:8b",
    "prompt": "请分别翻译成中文 -> Meta Llama 3: The most capable openly available LLM to date",
    "stream": false
}'

在这里插入图片描述
方式三、 python 接口调用

pip install ollama-python
import ollama
response = ollama.run('llama3:8b', '你好，世界！')
print(response)

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1/',

    # 必需但被忽略
    api_key='ollama',
)

chat_completion = client.chat.completions.create(
    messages=[
        {
            'role': 'user',
            'content': 'Say this is a test',
        }
    ],
    model='llama2',
)

加载本地模型方法
具体看官网
4.1 gguf 模型
1. 编写Modelfile 文件
FROM ./mistral-7b-v0.1.Q4_0.gguf
2. 创建模型
ollama create llama3-8b:0.001 -f Modelfile
3. 运行/ 测试
ollama run example “你最喜欢的调味品是什么？”
基本指令 : 和docker 指令类似，基本重合

journalctl -u ollama           查看日志
journalctl -n 10               查看最新的10条日志
journalctl -f                  实时查看新添加的日志条目

ollama -h
(base) [root@cnki-31-199-1 jiayafei_linux]# ollama -h
Large language model runner

Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

ollama 如何同时运行多个模型, 多进程

vim /etc/systemd/system/ollama.service
[Service]
Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量
Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量 

sudo systemctl daemon-reload
sudo systemctl restart ollama

加载一个模型
ollama run gemma:2b
加载另外一个模型
ollama run llama3:8b

在这里插入图片描述
7. ollama 如何分配gpu
本地有多张 GPU，如何用指定的 GPU 来运行 Ollama？在Linux上创建如下配置文件，并配置环境变量 CUDA_VISIBLE_DEVICES 来指定运行 Ollama 的 GPU，再重启 Ollama 服务即可【测试序号从0还是1开始，应是从0开始】。

$sudo vi /etc/systemd/system/ollama.service
[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"
systemctl daemon-reload
systemctl restart ollama

修改模型的存储路径

mv ~/.ollama/models/* /Users/<username>/Documents/ollama_models     将以前的models移动到当前目录

看上文。在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/1831976.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

ollama模型CPU轻量化部署

一、定义

二、实现

相关文章

SFNC —— 标准特征命名约定（一）

菜单栏（骆驼书）

使用宝塔面板部署Django应用(不成功Kill Me!)

揭示SOCKS5代理服务器列表的重要性

522. 最长特殊序列 II

Plonky3和Binius中的Brakedown多项式承诺协议解析及优化（3）

ensp防火墙web密码重置（前提通过console可以登录）

iOS 18 照片应用程序增加了新分类用于查找二维码、收据、插图等

单调队列总结

DY-34/60C电压继电器带板前底座约瑟JOSEF

6.17作业

如何下载mmwave_automotive_toolbox？

如何监控员工浏览网址（有效方法分享）

探索AI绘画工具的前沿：创新科技与艺术的无缝融合

在 Selenium 中更改 User-Agent | 步骤与最佳实践

Pikachu靶场--RCE

Windows环境部署MySQL_8.4.0 LTS的部署安装、验证连接以及卸载全过程实操手册

DS1339C串行实时时钟-国产兼容RS4C1339

药品光照稳定性试验箱如何进行光强度的校准和验证？

2024年最佳插电式混合动力电动汽车