【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

news2025/2/26 15:32:46

【LLM】本地部署LLM大语言模型+可视化交互聊天,附常见本地部署硬件要求(以Ollama+OpenWebUI部署DeepSeekR1为例)

文章目录

    • 1、本地部署LLM(以Ollama为例)
    • 2、本地LLM交互界面(以OpenWebUI为例)
    • 3、本地部署硬件要求对应表

1、本地部署LLM(以Ollama为例)

本地部署LLM的框架

  • 129k-Ollama 1
    是一个提供简单命令行接口的工具,可以轻松下载和运行本地 AI 模型。
  • 139k-Transformers 2
    Hugging Face 的 Transformers 库支持多种预训练语言模型,并提供简单的 API 以在本地运行这些模型,适合进行微调和推理。
  • 75k-llama.cpp, 3
    CPU友好,一个高效的 C++ 实现,支持在各种设备上运行 LLaMA 模型,适合追求性能的用户。
  • 39k-vllm, link
    GPU优化,vLLM 是一个高效的、用于推理的框架,特别针对大型语言模型的并行推理进行优化。它利用了内存和计算资源的高效管理,提供了显著的性能提升。
  • 69k-stable-diffusion,link
    虽然主要用于图像生成,它也在开源领域取得了极大的关注,且可以灵活地与文本模型结合使用。

ollama是什么

  • Ollama 是一个用于构建和运行本地 AI 模型的开源工具。
  • 它可以帮助开发者和研究人员更方便地利用 AI 模型进行各种应用,如自然语言处理、图像识别等。
    在这里插入图片描述

下载ollama

  • 要安装Ollama,可以官方网站的下载页面:Ollama下载页面
  • 支持的模型列表
  • 参考安装 1
    在这里插入图片描述

使用ollama

ollama     
Usage:
  ollama [flags]
  ollama [command]

Available Commands:
  serve       Start ollama
  create      Create a model from a Modelfile
  show        Show information for a model
  run         Run a model
  stop        Stop a running model
  pull        Pull a model from a registry
  push        Push a model to a registry
  list        List models
  ps          List running models
  cp          Copy a model
  rm          Remove a model
  help        Help about any command

Flags:
  -h, --help      help for ollama
  -v, --version   Show version information

Use "ollama [command] --help" for more information about a command.

例子,安装deepseek r1

# ollma --version
ollama version is 0.5.12

# ollama pull deepseek-r1:1.5b
pulling manifest 
pulling aabd4debf0c8... 100% ▕██████████████████████████████████▏ 1.1 GB                         
pulling 369ca498f347... 100% ▕██████████████████████████████████▏  387 B                         
pulling 6e4c38e1172f... 100% ▕██████████████████████████████████▏ 1.1 KB                         
pulling f4d24e9138dd... 100% ▕██████████████████████████████████▏  148 B                         
pulling a85fe2a2e58e... 100% ▕██████████████████████████████████▏  487 B                         
verifying sha256 digest 
writing manifest 
success 

# ollama run deepseek-r1:1.5b
# ollama run llama3.2:1b

# ollama list
NAME                ID              SIZE      MODIFIED      
llama3.2:1b         baf6a787fdff    1.3 GB    3 minutes ago    
deepseek-r1:1.5b    a42b25d8c10a    1.1 GB    2 hours ago

# systemctl stop ollama

2、本地LLM交互界面(以OpenWebUI为例)

本地LLM交互界面项目

  • 78k-OpenWebUI, link
    OpenWebUI是一个开源Web用户界面,旨在让用户能够方便地与本地大语言模型(如GPT、LLaMA等)进行交互。用户可以通过简单的Web界面进行对话,支持多种模型。

  • 82k-Nextchat(ChatGPT Next Web) , link
    兼容本地LLM,轻量快速的 AI 助手。支持:Web | iOS | MacOS | Android | Linux | Windows。一键免费部署私人 ChatGPT 网页应用,支持 Claude, GPT4 & Gemini Pro 模型。

  • 32k-ChatBox , link
    Chatbox AI 是一款 AI 客户端应用和智能助手,支持众多先进的 AI 模型和 API,可在 Windows、MacOS、Android、iOS、Linux 和网页版上使用。
    客户端安装参考 1,2:选择使用自己的api-key或本地模型,目前支持

  • 72k-GPT4All, link
    GPT4All 在日常台式机和笔记本电脑上私下运行大型语言模型 (LLM)。无需 API 调用或 GPU - 您只需下载应用程序并开始使用即可。

  • 42k-text-generation-webui, link
    适用于大型语言模型的 Gradio Web UI,支持多个推理后端。其目标是成为文本生成的stable-diffusion-webui 。

  • 39k-AnythingLLM, link
    全栈应用程序,可以将任何文档、资源(如网址链接、音频、视频)或内容片段转换为上下文,以便任何大语言模型(LLM)在聊天期间作为参考使用。
    此应用程序允许您选择使用哪个LLM或向量数据库,同时支持多用户管理并设置不同权限。

  • 150k-stable-diffusion-webui, link
    支持一键安装的stable Diffusion网页用户界面。

  • jetbrain-idea/goland集成插件, link
    设置-插件里安装后,配置Ollama API 默认调用端口号:11434

OpenWebUI是什么?

  • 一个可扩展、功能丰富且用户友好的自托管WebUI,它支持完全离线操作,并兼容Ollama和OpenAI的API。
  • 这为用户提供了一个可视化的界面,使得与大型语言模型的交互更加直观和便捷。
    在这里插入图片描述

安装openwebUI

# 基于docker的安装
# 电脑上有Ollama
docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main
# Ollama在其他服务器上,OLLAMA_BASE_URL替换为地址
docker run -d -p 3000:8080 -e OLLAMA_BASE_URL=https://example.com -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

# 安装完成后,您可以通过http://localhost:3000 访问OpenWebUI
# 这个时候会发现【Select a model】可以选择我们刚刚下载好的模型
# 并且他还可以一次性加入多个模型,一起对话对比使用

3、本地部署硬件要求对应表

大模型名称中的数字含义

  • 例如 1.5b、7b、8b、14b、32b、70b和671b等
  • 这些数字代表模型的参数量(Parameters),单位为 「B」(Billion,十亿)。例如:
    1.5B:15 亿参数
    7B:70 亿参数
    671B:6710 亿参数(接近万亿规模)
  • 参数量的意义:
    模型能力:参数量越大,模型就有更强的理解和生成能力,但是需要更多计算资源。
    硬件需求:参数越多,对内存(RAM)和显存(VRAM)的需求就越高。
    运行速度:参数量大的模型,推理速度更慢,尤其是资源不足的时候。1

本地部署的硬件配置「最低」要求(按模型规模分类)

  • 1.3B、1.5B 模型
    适用场景:简单文本生成、问答、轻量级任务
    CPU:4 核以上(需支持 AVX2 指令集)
    内存(RAM):8GB 以上
    GPU(可选):显存 ≥ 4GB(如 NVIDIA GTX 1650)
    存储:需 3~5GB 硬盘空间(模型文件 + 依赖库)
    说明:可在纯 CPU 环境下运行,但速度较慢(约 1~2 秒/词)。

  • 6.7b、7B、8B 模型
    适用场景:复杂文本生成、代码生成、多轮对话
    CPU:8 核以上(推荐 Intel i7 或 AMD Ryzen 7)
    内存(RAM):32GB 以上(纯 CPU 运行时需更高内存)
    GPU(推荐):显存 ≥ 16GB(如 RTX 4090 或 Tesla T4)
    存储:需 15~20GB 硬盘空间
    优化建议:
    使用 4-bit 量化可将显存需求降至 8GB。
    使用 vLLM 或 HuggingFace TGI 框架提升推理速度。

  • 32B、70B 模型
    适用场景:企业级应用、高精度需求
    CPU:无法纯 CPU 运行
    内存(RAM):≥ 128GB(用于加载中间数据)
    GPU:显存 ≥ 80GB(如 A100 80GB x2 或 H100)
    存储:需 70~150GB 硬盘空间
    关键点:
    必须使用多卡并行(如 NVIDIA NVLink 互联)。
    推荐 FP16 或 8-bit 量化以降低显存占用。

硬件选择对比表

模型规模CPU 需求内存需求显卡 型号适用场景
1.5B纯 CPU4GBRTX 3050个人学习
7B7GB16GBRTX 4090个人学习
14B24GBA5000 x2264GB小型项目
32B48GBA100 40GBx2专业应用
40GB80GBx4RTX 7000企业级服务
64GB+H100H100640GB+H100集群不可行

一些QA

  • 能否用 Mac 电脑运行这些DeepSeek模型?
    可以,但仅限于小模型(如 7B以下)。需使用 llama.cpp 的 Metal 后端,M1/M2 芯片需 16GB 以上统一内存。
  • 官方仓库(如 HuggingFace Hub)、开源社区(如 modelscope)。
    如果使用Ollama在本地部署,那么直接在Ollama中下载。
  • 为什么实际显存占用比参数量大很多?
    除了模型权重,还需存储中间计算结果(KV Cache),尤其在长文本生成时占用显著增加。
  • 没有显存、显存的笔记本电脑,能在本地部署和运行DeepSeek吗?
    可以。但是内存要求更高,文本生成速度慢。1,

更多部署教程
1 从零到一:本地部署Llama3大模型的简明指南,
2 本地部署 DeepSeek-R1-671B 满血版大模型教程
3 预算50-100万:4 * H100 80GB + NVLink,8 * A100 80GB + NVLink

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2306437.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

LLM之论文阅读——Context Size对RAG的影响

前言 RAG 系统已经在多个行业中得到广泛应用,尤其是在企业内部文档查询等场景中。尽管 RAG 系统的应用日益广泛,关于其最佳配置的研究却相对缺乏,特别是在上下文大小、基础 LLM 选择以及检索方法等方面。 论文原文: On the Influence of Co…

2025-02-25 学习记录--C/C++-用C语言实现删除字符串中的子串

用C语言实现删除字符串中的子串 在C语言中&#xff0c;你可以使用strstr函数来查找子串&#xff0c;然后用memmove或strcpy来覆盖或删除找到的子串。 一、举例 &#x1f430; #include <stdio.h> // 包含标准输入输出库&#xff0c;用于使用 printf 函数 #include <s…

【Linux】Ubuntu服务器的安装和配置管理

ℹ️大家好&#xff0c;我是练小杰&#xff0c;今天周二了&#xff0c;哪吒的票房已经到了138亿了&#xff0c;饺子导演好样的&#xff01;&#xff01;每个人的成功都不是必然的&#xff0c;坚信自己现在做的事是可以的&#xff01;&#xff01;&#x1f606; 本文是有关Ubunt…

2.3做logstash实验

收集apache日志输出到es 在真实服务器安装logstash&#xff0c;httpd systemctl start httpd echo 666 > /var/www/html/index.html cat /usr/local/logstash/vendor/bundle/jruby/2.3.0/gems/logstash-patterns-core-4.1.2/patterns/httpd #系统内置变量 cd /usr/local/…

pandas读取数据

pandas读取数据 导入需要的包 import pandas as pd import numpy as np import warnings import oswarnings.filterwarnings(ignore)读取纯文本文件 pd.read_csv 使用默认的标题行、逗号分隔符 import pandas as pd fpath "./datas/ml-latest-small/ratings.csv" 使…

ReentrantLock 用法与源码剖析笔记

&#x1f4d2; ReentrantLock 用法与源码剖析笔记 &#x1f680; 一、ReentrantLock 核心特性 &#x1f504; 可重入性&#xff1a;同一线程可重复获取锁&#xff08;最大递归次数为 Integer.MAX_VALUE&#xff09;&#x1f527; 公平性&#xff1a;支持公平锁&#xff08;按等…

java进阶专栏的学习指南

学习指南 java类和对象java内部类和常用类javaIO流 java类和对象 类和对象 java内部类和常用类 java内部类精讲Object类包装类的认识String类、BigDecimal类初探Date类、Calendar类、SimpleDateFormat类的认识java Random类、File类、System类初识 javaIO流 java IO流【…

架构思维:架构的演进之路

文章目录 引言为什么架构思维如此重要架构师的特点软件架构的知识体系如何提升架构思维大型互联网系统架构的演进之路一、大型互联网系统的特点二、系统处理能力提升的两种途径三、大型互联网系统架构演化过程四、总结 引言 在软件开发行业中&#xff0c;有很多技术人可能会问…

vue3:vue3项目安装并引入Element-plus

一、安装Element-plus 1、安装语句位置 安装 | Element Plushttps://element-plus.org/zh-CN/guide/installation.html根据所需进行安装&#xff0c;这里使用npm包 2、找到项目位置 找到项目位置&#xff0c;在路径上输入cmd回车打开“运行”窗口 输入安装语句回车完成安装 …

java.2.25

1. 注释 ​ 注释是对代码的解释和说明文字。 Java中的注释分为三种&#xff1a; 单行注释&#xff1a; // 这是单行注释文字多行注释&#xff1a; /* 这是多行注释文字 这是多行注释文字 这是多行注释文字 */ 注意&#xff1a;多行注释不能嵌套使用。文档注释&#xff1a;…

VScode 开发

目录 安装 VS Code 创建一个 Python 代码文件 安装 VS Code VSCode&#xff08;全称&#xff1a;Visual Studio Code&#xff09;是一款由微软开发且跨平台的免费源代码编辑器&#xff0c;VSCode 开发环境非常简单易用。 VSCode 安装也很简单&#xff0c;打开官网 Visual S…

A Large Recurrent Action Model: xLSTM Enables Fast Inference for Robotics Tasks

奥地利林茨约翰开普勒大学机器学习研究所 ELLIS 小组&#xff0c;LIT 人工智能实验室奥地利林茨 NXAI 有限公司谷歌 DeepMind米拉 - 魁北克人工智能研究所 摘要 近年来&#xff0c;强化学习&#xff08;Reinforcement Learning, RL&#xff09;领域出现了一种趋势&#xff0c;…

计算机毕业设计SpringBoot+Vue.js学科竞赛管理系统(源码+文档+PPT+讲解)

温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 温馨提示&#xff1a;文末有 CSDN 平台官方提供的学长联系方式的名片&#xff01; 作者简介&#xff1a;Java领…

Deep Seek-编码器

1. DeepSeek Coder 简介 DeepSeek Coder 由一系列代码语言模型组成,每个模型都在 2T 令牌上从头开始训练,其中 87% 的代码和 13% 的自然语言在中英文中组成。我们提供各种大小的代码模型,从 1B 到 33B 版本。每个模型都通过采用 16K 的窗口大小和额外的填空任务在项目级代码…

Android平台轻量级RTSP服务模块技术对接说明

一、技术背景 随着内网无纸化办公、电子教室等应用场景对超低延迟音视频传输需求的日益增长&#xff0c;为避免用户或开发者单独部署 RTSP 或 RTMP 服务&#xff0c;大牛直播 SDK 推出了轻量级 RTSP 服务 SDK。该 SDK 能够将本地音视频数据&#xff08;如摄像头、麦克风等&…

RoCEv2 高性能传输协议与 Lossless 无损网络

目录 文章目录 目录RoCERoCEv2 v.s. IBRoCEv2 协议栈RoCEv2 需要 Lossless NetworkLossless Network 拥塞控制技术网络拥塞的原因PFC 基于优先级的流量控制PFC Unfairness &#xff08;带宽分配不公平&#xff09;的问题PFC HOL&#xff08;队头拥塞&#xff09;的问题PFC Dead…

联想 SR590 服务器 530-8i RAID 控制器更换损坏的硬盘

坏了的硬盘会自动亮黄灯。用一个空的新盘来替换&#xff0c;新盘最好不要有东西。但是有东西可能也没啥&#xff0c;因为我看 RAID 控制器里有格式化的选项 1. 从 IPMI 把服务器关机&#xff0c;电源键进入绿色闪烁状态 2. 断电&#xff0c;推开塑料滑块拉出支架&#xff0c;…

城电科技|会追日的智能花,光伏太阳花开启绿色能源新篇章

当艺术与科技相遇&#xff0c;会碰撞出怎样的火花&#xff1f;城电科技推出的光伏太阳花&#xff0c;以其独特的设计与智能化的功能&#xff0c;给出了答案。这款产品不仅具备太阳能发电的实用功能&#xff0c;更是一件充满科技属性的艺术性光伏产品&#xff0c;吸引了广泛关注…

基于YOLO11深度学习的苹果叶片病害检测识别系统【python源码+Pyqt5界面+数据集+训练代码】

《------往期经典推荐------》 一、AI应用软件开发实战专栏【链接】 项目名称项目名称1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】3.【手势识别系统开发】4.【人脸面部活体检测系统开发】5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】7.【…