搭建个人知识库 | 手把手教你本地部署大模型

news2025/1/24 14:47:45

一、引言

今天给大家分享的是手把手教你如何部署本地大模型以及搭建个人知识库

读完本文,你会学习到

  • 如何使用Ollama一键部署本地大模型
  • 通过搭建本地的聊天工具,了解ChatGPT的信息是如何流转的
  • RAG的概念以及所用到的一些核心技术
  • 如何通过AnythingLLM这款软件搭建完全本地化的数据库

虽然我们大多数人不需要在自己部署大模型,但是我期望在本文的帮助下,能够带你手把手折腾一遍。

这样在使用任何软件的时候,可以做到知其然,知其所以然。

二、你的硬件达标了么

所有人都会手把手教你部署XX大模型,听起来很诱人,因为不需要科学上网,不需要高昂的ChatGPT会员费用。

但是在开启下面的教程之前,我希望你能有个概念:运行大模型需要很高的机器配置,个人玩家的大多数都负担不起

所以:虽然你的本地可能可以搭建出一个知识库,但是它不一定能跑的起来

下面我通过一组数据来让大家有个感性的认知。以下文字来源于视频号博主:黄益贺,非作者实操

生成文字大模型

最低配置:8G RAM + 4G VRAM

建议配置:16G RAM + 8G VRAM

理想配置:32G RAM + 24G VRAM(如果要跑GPT-3.5差不多性能的大模型)

生成图片大模型(比如跑SD)

最低配置:16G RAM + 4G VRAM

建议配置:32G RAM + 12G VRAM

生成音频大模型

最低配置:8G VRAM +

建议配置:24G VRAM

而最低配置我就不建议了,真的非常慢,这个我已经用我自己8G的Mac电脑替你们试过了。

讲这个不是泼大家冷水,而是因为我的文章目标是要做到通俗易懂,不希望通过夸大的方式来吸引你的眼球。

这是这篇文章的第二次修改,我专门加的这段。原因就是因为好多小伙伴看了文章之后兴致冲冲的去实验,结果发现电脑根本带不动。

但是这并不妨碍我们去手把手实操一遍,因为实操可以加深我们对大模型构建的知识库底层原理的了解。

如果你想要私滑的体验知识库,可以参考我的另一篇文章造企业级知识库

好了,废话不多说,下面教程还是值得亲自上手搞一遍的,相信走完一遍流程后,你会对知识库有更深的理解。

三、Ollama的安装以及大模型下载

Ollama是什么

Ollama是一个开源的框架,旨在简化在本地运行大型语言模型(LLM)的过程。

Ollama作为一个轻量级、可扩展的框架,提供了一个简单的API来创建、运行和管理模型,以及一个预构建模型库,进一步降低了使用门槛。它不仅适用于自然语言处理研究和产品开发,还被设计为适合初学者或非技术人员使用,特别是那些希望在本地与大型语言模型交互的用户

总的来说,Ollama是一个高效、功能齐全的大模型服务工具,通过简单的安装指令和一条命令即可在本地运行大模型,极大地推动了大型语言模型的发展和应用

安装Ollama

官方下载地址:https://ollama.com/download

图片图片

当安ollama之后,我们可以通过访问如下链接来判断ollama是否安装成功

http://127.0.0.1:11434/

图片

使用Ollama运行本地大模型

当安装完成ollama之后,我们就可以在命令行中运行如下命令既可以

ollama run [model name]

其中[model name]就是你想运行的本地大模型的名称,如果你不知道应该选择哪个模型,可以通过model library进行查看。这里我们选择llama2大模型:llama2

考虑到我机器的配置以及不同版本的内存要求,我这里选择7b参数的模型

图片图片

图片

当我们运行大模型的时候,ollama会自动帮我们下载大模型到我们本地。

图片

三、通过Open WebUI使用大模型

在默认的情况下,我们需要在终端中跟大模型进行交互,但是这种方法太古老了。我们基本不会使用终端命令跟Mysql打交道,而是使用Navcat等客户端和Mysql进行交互。大模型也有其交互客户端,这就是Open WebUI

安装Open WebUI

Open WebUI是github上的一个开源项目,这里我们参考其官方文档进行下载和安装。

  1. 在安装之前,我们需要先安装Docker,安装说明如下:
  • 如果是Win或者Mac系统,参考文档:Docker Desktop release notes:

    • 注意:要下载跟自己的电脑系统适配的版本

    • 例如目前的最新版本的Docker仅支持Mac OS12.0以后的系统

  • 如果Linux系统,请自己上网找教程(日常都可以使用Linux系统了,安装Docker小Case!)

  1. 在官方文档中我们会看到两种安装Open WebUI的方式:
  • ollama和open webui一起安装
  • 仅仅安装open webui

由于我们已经安装了ollama,因此我们只需要安装open webui即可,复制如下命令:

docker run -d -p 3000:8080 --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:main

图片

当Open WebUI安装下载完成之后,我们就可以愉快的玩耍啦!

使用Open WebUI

  1. 首先访问如下网址
http://localhost:3000/auth/

当你打开这个页面的时候,会让你登陆,这个时候我们随便使用一个邮箱注册一个账号即可

图片图片

  1. 和本地大模型进行对话

登陆成功之后,如果你已经使用过ChatGPT等类似的大模型对话网站,我相信你对这个页面并不陌生。

Open WebUI一般有两种使用方式

  • 第一种是聊天对话

    • 图片
  • 第二种是RAG能力,也就是可以让模型根据文档内容来回答问题。这种能力就是构建知识库的基础之一

    • 图片

如果你的要求不高的话,我们已经搭建了一个本地大模型了,并且通过Web UI实现了和大模型进行对话的功能。

相信通过这么一通折腾,你就理解了ChatGPT的信息流,至于为什么ChatGPT的访问速度比我们自己的要快,而且回答效果要好,有两个原因

  • 快:是因为GPT大模型部署的服务器配置高
  • 好:是因为GPT大模型的训练参数多,数据更优以及训练算法更好

暂时无法在飞书文档外展示此内容

如果你想要更加灵活的掌握你的知识库,请接着往下看

四、RAG是什么

因为利用大模型的能力搭建知识库本身就是一个RAG技术的应用

所以在进行本地知识库的搭建实操之前,我们需要先对RAG有一个大概的了解。

以下内容会有些干,我会尽量用通俗易懂的描述进行讲解。

我们都知道大模型的训练数据是有截止日期的,那当我们需要依靠不包含在大模型训练集中的数据时,我们该怎么做呢?实现这一点的主要方法就是通过检索增强生成RAG(Retrieval Augmented Generation)。

在这个过程中,首先检索外部数据,然后在生成步骤中将这些数据传递给LLM。

我们可以将一个RAG的应用抽象为下图的5个过程:

图片

  • 文档加载(Document Loading):从多种不同来源加载文档。LangChain提供了100多种不同的文档加载器,包括PDF在内的非结构化的数据、SQL在内的结构化的数据,以及Python、Java之类的代码等

  • 文本分割(Splitting):文本分割器把Documents 切分为指定大小的块,我把它们称为“文档块”或者“文档片”

  • **存储(Storage):**存储涉及到两个环节,分别是:

    • 将切分好的文档块进行嵌入(Embedding)转换成向量的形式
    • 将Embedding后的向量数据存储到向量数据库
  • 检索(Retrieval):一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片

  • Output(输出):把问题以及检索出来的嵌入片一起提交给LLM,LLM会通过问题和检索出来的提示一起来生成更加合理的答案

文本加载器(Document Loaders)

文本加载器就是将用户提供的文本加载到内存中,便于进行后续的处理

文本切割器(Text Splitters)

文本分割器把Documents 切分为指定大小的块,我把它们称为“文档块”或者“文档片”

文本切割通常有以下几个原因

  • 为了更好的进行文本嵌入以及向量数据库的存储
  • 通常大语言模型都有上下文的限制,如果不进行切割,文本在传递给大模型的时候可能超出上下文限制导致大模型随机丢失信息

文本切割器的概念是非常容易理解的,这里我们简单了解下文本切割器的工作流程

  1. 将文本切割成小的,语义上有意义的块(通常是句子)
  2. 开始将这些小块组成一个较大的块,直到达到某个块的大小(这个会通过某种函数测量)
  3. 一旦达到该大小,就将该块作为自己的文本片段,并开始创建一个新的文本块,同时保留一些重叠(以保持块之间的上下文)。

文本嵌入模型(Text Embedding models)

文本嵌入模型是用来将文本转换成数值向量的工具,这些向量能够捕捉文本的语义信息,使得相似的文本在向量空间中彼此接近。这对于各种自然语言处理任务,如文本相似性比较、聚类和检索等,都是非常有用的。下面是一段对嵌入的解释

词嵌入(Word Embedding)是自然语言处理和机器学习中的一个概念,它将文字或词语转换为一系列数字,通常是一个向量。简单地说,词嵌入就是一个为每个词分配的数字列表。这些数字不是随机的,而是捕获了这个词的含义和它在文本中的上下文。因此,语义上相似或相关的词在这个数字空间中会比较接近。

举个例子,通过某种词嵌入技术,我们可能会得到:

“国王” -> [1.2, 0.5, 3.1, …]

“皇帝” -> [1.3, 0.6, 2.9, …]

“苹果” -> [0.9, -1.2, 0.3, …]

从这些向量中,我们可以看到“国王”和“皇帝”这两个词的向量在某种程度上是相似的,而与“苹果”这个词相比,它们的向量则相差很大,因为这两个概念在语义上是不同的。

词嵌入的优点是,它提供了一种将文本数据转化为计算机可以理解和处理的形式,同时保留了词语之间的语义关系。这在许多自然语言处理任务中都是非常有用的,比如文本分类、机器翻译和情感分析等。

向量数据库(Vector Stores)

图片

向量存储(Vector stores)是用于存储和检索文本嵌入向量的工具。

这些向量是文本数据的数值表示,它们使得计算机能够理解和处理自然语言。

向量存储对于支持复杂的搜索和检索任务至关重要,尤其是在处理大量文本数据时。

向量存储的主要功能包括:

  • 高效地存储大量的文本向量
  • 快速检索与给定向量最相似的文本向量
  • 支持复杂的查询操作,如范围搜索和最近邻搜索

文本检索

一旦数据进入向量数据库,我们仍然需要将数据检索出来,我们会通过某种检索算法找到与输入问题相似的嵌入片。这里主要利用了大模型的能力

五、本地知识库进阶

如果想要对知识库进行更加灵活的掌控,我们需要一个额外的软件:AnythingLLM。

这个软件包含了所有Open WebUI的能力,并且额外支持了以下能力

  • 选择文本嵌入模型
  • 选择向量数据库

AnythingLLM安装和配置

安装地址:https://useanything.com/download

当我们安装完成之后,会进入到其配置页面,这里面主要分为三步

  1. 第一步:选择大模型

图片

  1. 第二步:选择文本嵌入模型

图片

  1. 第三步:选择向量数据库

图片

构建本地知识库

AnythingLLM中有一个Workspace的概念,我们可以创建自己独有的Workspace跟其他的项目数据进行隔离。

  1. 首先创建一个工作空间

图片

  1. 上传文档并且在工作空间中进行文本嵌入

图片

  1. 选择对话模式

AnythingLLM提供了两种对话模式:

  • Chat模式:大模型会根据自己的训练数据和我们上传的文档数据综合给出答案
  • Query模式:大模型仅仅会依靠文档中的数据给出答案

图片

  1. 测试对话

当上述配置完成之后,我们就可以跟大模型进行对话了

图片

六、写在最后

我非常推崇的一句话送给大家:

看十遍不如实操一遍,实操十遍不如分享一遍

如何学习大模型

现在社会上大模型越来越普及了,已经有很多人都想往这里面扎,但是却找不到适合的方法去学习。

作为一名资深码农,初入大模型时也吃了很多亏,踩了无数坑。现在我想把我的经验和知识分享给你们,帮助你们学习AI大模型,能够解决你们学习中的困难。

我已将重要的AI大模型资料包括市面上AI大模型各大白皮书、AGI大模型系统学习路线、AI大模型视频教程、实战学习,等录播视频免费分享出来,需要的小伙伴可以扫取。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向,东学一点西学一点,像只无头苍蝇乱撞,我下面分享的这个学习路线希望能够帮助到你们学习AI大模型。

在这里插入图片描述

二、AI大模型视频教程

在这里插入图片描述

三、AI大模型各大学习书籍

在这里插入图片描述

四、AI大模型各大场景实战案例

在这里插入图片描述

五、结束语

学习AI大模型是当前科技发展的趋势,它不仅能够为我们提供更多的机会和挑战,还能够让我们更好地理解和应用人工智能技术。通过学习AI大模型,我们可以深入了解深度学习、神经网络等核心概念,并将其应用于自然语言处理、计算机视觉、语音识别等领域。同时,掌握AI大模型还能够为我们的职业发展增添竞争力,成为未来技术领域的领导者。

再者,学习AI大模型也能为我们自己创造更多的价值,提供更多的岗位以及副业创收,让自己的生活更上一层楼。

因此,学习AI大模型是一项有前景且值得投入的时间和精力的重要选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1815993.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

PGFed: Personalize Each Client’s Global Objective for Federated Learning

ICCV-2023, 文章提出显式隐式的概念,作者通过实验发现显式比隐式的效果好,显式方式通过直接与多个客户的经验风险互动来更新模型,并用泰勒展开式降为 O ( N ) O(N) O(N)通讯成本。 文章地址:arxiv code: 作者开源 贡献 1.我们发现个性化 FL 算法的显式性赋予了其更强的…

wordpress旅游网站模板

旅行社wordpress主题 简洁实用的旅行社wordpress主题,适用于旅行社建网站的wordpress主题模板。 https://www.jianzhanpress.com/?p4296 旅游WordPress主题 简洁实用的旅游WordPress主题,适合做旅游公司网站的WordPress主题模板。 https://www.jian…

Ecovadis审核的内容

Ecovadis审核的内容。Ecovadis是一家国际性的企业社会责任评估机构,旨在为全球供应链的可持续性发展提供评估和审核。在本文中,我们将从以下几个方面详细介绍Ecovadis审核的内容: 一、Ecovadis审核的范围和目的 Ecovadis审核的范围涵盖了各个…

新增的JDK17语法特性

一、引入 从springboot3.0开始,已经不支持JDK8了,从3.0开始,转变为JDK17 了解详情点击官方博客链接:https://spring.io/blog/2022/01/20/spring-boot-3-0-0-m1-is-now-available?spma2c6h.12873639.article-detail.24.766d46b4…

最新下载:CorelDraw 2023【软件附加安装教程】

简介: CorelDRAW Graphics Suite 订阅版拥有配备齐全的专业设计工具包,可以通过非常高的效率提供令人惊艳的矢量插图、布局、照片编辑和排版项目。价格实惠的订阅就能获得令人难以置信的持续价值,即时、有保障地获得独家的新功能和内容、一流…

目标检测6:采用yolov8, RK3568推理的性能

最近有个小伙伴,问我rk3568上推理图片,1秒能达到多少? 本次采用模型为yolov8s.rknn,作了一次验证。 解析一段视频文件,1280*720, fps 24。读取视频文件,然后进行推理。 通过性能优化,发现推理…

RPA实战案例解析,一文看懂RPA工作原理

在这个快节奏的时代,我们渴望更多时间追求梦想。面对电脑前堆积的数据录入和商品上架等重复工作,我们感到束缚。然而,RPA机器人——这位“数字精灵”,正悄然改变我们的生活。它不仅是工具,更是我们工作的伙伴和创新的助…

Codesys中根据时间生成随机数字

一、 说明 LTIME()函数返回LTIME 时间类型数据 这个函数产生自系统启动以来经过的时间,以纳秒为单位,以扫描周期1ms为例,这个函数每次获得的纳妙数是随机的,没有规律。 二、作用 例如用来生成0到100的随机数,可以用L…

WebSocket 基础使用

1.基本概念 WebSocket 支持双方通信即服务端可以主动推送给用户端,用户端也可以主动推送消息给服务器。前端必须进行协议升级为 WebSocket 名称值Upgradewebsocket 2. 后端代码 package com.koshi.websocket.server;import com.alibaba.fastjson.JSON; import com…

互联网医院系统源码的创新应用:预约挂号小程序开发实战

预约挂号小程序作为互联网医院系统的创新应用,更加贴近用户需求,实现了预约挂号的便捷化和智能化。本篇文章,笔者将带领读者进入预约挂号小程序开发的实战过程,探索互联网医院系统源码在小程序开发中的创新应用。 一、互联网医院系…

【大模型应用开发极简入门】微调(一):1.微调基础原理介绍、2. 微调的步骤、3. 微调的应用(Copilot、邮件、法律文本分析等)

文章目录 一. 开始微调1. 选择合适的基础模型2. 微调和少样本学习2.1. 对比微调和少样本学习2.2. 微调需要的数据量 二. 使用OpenAI API进行微调1. 数据生成1.1. JSONL的数据格式1.2. 数据生成工具1.3. 数据文件的细节注意 2. 上传数据来训练模型3. 创建微调模型4. 列出微调作业…

用 Kotlin 多平台开发构建跨平台应用程序:深入探索 KMP 模板工程

用 Kotlin 多平台开发构建跨平台应用程序:深入探索 KMP 模板工程 Kotlin 多平台开发 (KMP) 是一种强大的工具,可用于构建跨平台移动、桌面和 Web 应用程序。它提供了一种统一的代码基础,使开发人员能够高效地针对多个平台开发应用程序。 KM…

解密有道翻译响应数据末尾出现乱码问题的解决方法

运行解密响应数据程序: D:\Python\Python311\python.exe E:\baichuan\youdaos.py {"code":0,"dictResult":{"ce":{"word":{"trs"D:\Python\Python311\python.exe E:\baichuan\youdaospdm.pyD:\Python\Python31…

ESP32s3与Lsm6ds3通信---i2c【开源】

接线 ESPS3&#xff0c;I2C的初始化 #ifdef __cplusplus extern "C" { #endif #define I2C_MASTER_SCL_IO CONFIG_I2C_MASTER_SCL /*!< GPIO number used for I2C master clock */ #define I2C_MASTER_SDA_IO CONFIG_I2C_MASTER_SDA …

鸿蒙轻内核A核源码分析系列五 虚实映射(5)虚实映射解除

虚实映射解除函数LOS_ArchMmuUnmap解除进程空间虚拟地址区间与物理地址区间的映射关系&#xff0c;其中参数包含MMU结构体、解除映射的虚拟地址和解除映射的数量count,数量的单位是内存页数。 ⑴处函数OsGetPte1用于获取指定虚拟地址对应的L1页表项数据。⑵处计算需要解除的无效…

【文献阅读】一种多波束阵列重构导航抗干扰算法

引言 针对导航信号在近地表的信号十分微弱、抗干扰能力差的问题&#xff0c;文章提出了自适应波束形成技术。 自适应波束形成技术可以分为调零抗干扰算法和多波束抗干扰算法。 调零抗干扰算法主要应用功率倒置技术&#xff0c;充分利用导航信号功率低于环境噪声功率的特点&…

Navicat平替软件汇总,各种数据库连接软件

文章目录 1、Navicat2、DataGrip3、Chat2DB4、DBeaver Community5、SQLyog6、beekeeper studio参考文档 1、Navicat 作者最喜欢的数据库连接软件Navicat premium 15安装教程报错解决办法 2、DataGrip 个人感觉界面作者就不喜欢&#xff0c;不爱用IDEA同一家公司出的下载地址…

线程池处理Runnable任务

1、线程池处理Runnable任务 1.1、ThreadPoolExecutor创建线程池对象示例 ExecutorService pools new ThreadPoolExecutor&#xff08;3&#xff0c;5&#xff0c;8&#xff0c;TimeUnit.SECONDS&#xff0c;new ArrayBlockingQueue<>(6)&#xff0c;Executors.default…

iOS/iPadOS18Beta是否值得升级体验?Bug汇总和升级办法分享!

苹果昨天发布了iOS/iPadOS18Beta更新&#xff0c;引入了诸多新功能/新特性&#xff0c;很多喜欢尝鲜的用户已经在第一时间进行了升级。 iOS/iPadOS18Beta目前存在不少Bug&#xff0c;建议暂时不要更新&#xff0c;轻则浪费装机时间&#xff0c;重则丢失相关数据&#xff0c;甚至…

【产品经理】ERP对接电商平台

电商ERP对接上游平台&#xff0c;会需要经历几个步骤环节&#xff0c;包括店铺设置等。 电商ERP对接上游电商平台&#xff0c;其主要设置为店铺设置、商品同步、库存同步&#xff0c;本次讲解下店铺设置应该如何进行设置&#xff0c;以及在设置过程中的可能出现的踩坑事项。 …