PrivateGPT:安全和私密的离线 GPT-4

news2024/11/28 6:31:55

在人工智能 (AI) 和自然语言处理 (NLP) 领域,隐私通常是一个基本问题,尤其是在处理敏感数据时。PrivateGPT 是这一领域的突破性发展,正面解决了这个问题。它旨在在没有互联网连接的情况下在本地运行,通过防止数据离开您的执行环境来确保完全隐私。

 

什么是私有 GPT?

PrivateGPT 是一种创新工具,它将 GPT-4 强大的语言理解能力与严格的隐私措施相结合。利用 LangChain、GPT4All、LlamaCpp、Chroma 和 SentenceTransformers 的优势,PrivateGPT 允许用户完全在本地与 GPT-4 进行交互。让我们深入研究设置 PrivateGPT 的细节以及如何有效地使用它。

设置 PrivateGPT:分步

设置 PrivateGPT 主要包括两个步骤:安装要求和配置环境。首先,确保您的计算机上安装了 Python 3.10 或更高版本。

第一步:安装依赖

pip3 install -r requirements.txt

第 2 步:下载语言学习模型 (LLM) 并将其放置在您选择的目录中。默认模型是ggml-gpt4all-j-v1.3-groovy.bin. 但是,可以使用任何 GPT4All-J 兼容模型。

第 3 步:重命名example.env.env编辑环境变量:

  • MODEL_TYPE:指定 LlamaCpp 或 GPT4All。
  • PERSIST_DIRECTORY:设置矢量存储的文件夹。
  • MODEL_PATH: 提供你的 LLM 的路径。
  • MODEL_N_CTX:确定 LLM 模型的最大令牌限制。
  • EMBEDDINGS_MODEL_NAME:指定 SentenceTransformers 嵌入模型名称。
  • TARGET_SOURCE_CHUNKS:确定将用于回答问题的块数。

随着环境的建立,我们现在可以继续摄取数据。

使用 PrivateGPT 摄取数据

PrivateGPT 支持各种文件类型,从 CSV、Word 文档到 HTML 文件等等。以下是您摄取自己的数据的方式:

第 1 步:将文件放入source_documents目录

第二步:运行ingest.py脚本处理所有数据

python ingest.py

该脚本在文件夹中创建一个本地嵌入数据库db。每个文档大约需要 20-30 秒,具体取决于文档大小。

与 PrivateGPT 交互

现在,让我们深入探讨如何使用 PrivateGPT 在本地对文档提问:

第 1 步:运行privateGPT.py脚本:

python privateGPT.py

第 2 步:出现提示时,输入您的查询。

在 20-30 秒内,根据您机器的速度,PrivateGPT 使用 GPT-4 模型生成一个答案,并提供它从您的文档中使用的来源来创建响应。

释放 PrivateGPT 的力量:底层机制

PrivateGPT 的隐私保护本地操作由强大工具的组合提供支持。ingest.py利用 LangChain 工具解析文档,使用 HuggingFaceEmbeddings(SentenceTransformers 的一部分)创建本地嵌入。生成的嵌入存储在具有色度矢量存储的本地矢量数据库中。

privateGPT.py使用本地 LLM——GPT4All-J 或 LlamaCpp——来理解用户查询并制作合适的响应。本地向量存储用于提取这些响应的上下文,利用相似性搜索从摄取的文档中找到相应的上下文。

系统要求和故障排除

PrivateGPT 的系统先决条件包括 Python 3.10 或更高版本。在 pip 安装过程中,如果出现 C++ 编译器错误,则会提供适用于 Windows 10/11 和运行 Intel 的 Mac 的安装说明。

您可以在此处访问 PrivateGPT GitHub(在新标签页中打开).

结论

PrivateGPT 证明了强大的人工智能语言模型(如 GPT-4)与严格的数据隐私协议的融合。它为用户提供了一个安全的环境来与他们的文档进行交互,确保没有数据被外部共享。无论您是 AI 爱好者还是注重隐私的用户,PrivateGPT 都为保护隐私的 AI 应用程序开辟了新的可能性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646735.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

这些方法可以手写扫描识别

小伙伴们知道有一项技术是可以将我们手写的东西识别出来吗?这一项创新的技术就是手写识别功能,它能够将手写内容快速转换为数字或文本格式,并提高信息处理和管理的效率。而且相比传统的手工记录方式,手写识别功能具有较高的准确性…

腾讯测试开发 4 轮面试,接到 30k*15 的 Offer !详解面试流程和真题

在互联网做了几年之后,去大厂“镀镀金”是大部分人的首选。大厂不仅待遇高、福利好,更重要的是,它是对你专业能力的背书,大厂工作背景多少会给你的简历增加几分竞争力。 但说实话,想进大厂还真没那么容易。我的一个朋…

find命令

你将看到的第一个命令是find。这是个用于搜索文件的命令,它极其有用,但Linux初学者常常觉得它不易使用,这不仅仅是因为它有选项、测试和动作类型的参数,还因为其中一个参数的处理结果可能会影响到后续参数的处理。在深入研究这些选…

pandas---缺失值的处理

1. 处理缺失值 判断数据中是否包含NaN: pd.isnull(df);pd.notnull(df) 存在缺失值nan: 删除存在缺失值的:dropna(axisrows) 不会修改原数据,需要接受返回值; 替换缺失值:fillna(value, inplaceTrue) value:替换成的值&#…

基于STM32的四旋翼无人机项目(一):基础知识篇

前言:本篇博客为飞控专栏的第一篇系统性概述文章,将对飞控系统进行详细讲解介绍。考虑到飞控项目具有一定工程复杂度,所以作者将整个项目进行分章节教学与讲解,希望可以给读者朋友带来更好地学习体验。项目将以 C-Quad 四轴无人机…

SpringBoot 中使用 JWT 案例分享详解

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

大模型LLM领域,有哪些可以作为学术研究方向?

清湛人工智能研究院 2023-05-31 09:23 发表于江苏 编者:本文转载了清华大学计算机系刘知远教授对大模型的一些思索,以飨读者。 刘知远 CCF 高级会员,CCCF 前编委。清华大学计算机系副教授、博士生导师。已在ACL、IJCAI、AAAI等人工智能领域…

回归预测 | MATLAB实现基于GRU-AdaBoost门控循环单元结合AdaBoost多输入单输出回归预测

回归预测 | MATLAB实现基于GRU-AdaBoost门控循环单元结合AdaBoost多输入单输出回归预测 目录 回归预测 | MATLAB实现基于GRU-AdaBoost门控循环单元结合AdaBoost多输入单输出回归预测预测效果基本介绍模型描述程序设计参考资料 预测效果 基本介绍 1.MATLAB实现基于GRU-AdaBoost门…

单品GMV破千万,这些品类正在抖音热卖

优势品类及核心产品能更好触达消费者,以较低的成本让用户感知品牌,塑造品牌力。 抖音作为品牌最核心的线上渠道之一,该如何找到平台优势品类?制定品牌营销策略?有效提升产品销量呢? 近期,新抖上…

【CesiumJS入门】(4)加载3D Tiles并获取tileset

前言 本次,我们将写一个函数来加载3D Tiles数据, 3D Tiles数据的文档:CesiumGS/3d-tiles: Specification for streaming massive heterogeneous 3D geospatial datasets (github.com) 同时我们将获取加载成功后的tileset数据集(有…

Python 中错误 ImportError: No Module Named Sklearn

在 Python 中,sklearn 被用作机器学习工具,用于在回归、集群等方面创建程序。很多时候,导入它会抛出错误—— No module named sklearn。 这意味着由于安装错误、无效的 Python 或 pip 版本或其他问题,系统无法找到它。 Python中错误ImportError: No module named sklearn…

基于Java营业厅宽带系统设计实现(源码+lw+部署文档+讲解等)

博主介绍: ✌全网粉丝30W,csdn特邀作者、博客专家、CSDN新星计划导师、java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战 ✌ 🍅 文末获取源码联系 🍅 👇🏻 精…

Karl Guttag评Vision Pro:比Quest Pro做了更多正确选择

上周苹果正式发布Vision Pro,尽管要到明年才发售,但光学领域的专业博主Karl Guttag也发表了自己的看法。他提到:目前受邀体验的媒体中要不是苹果粉丝、要不就是对AR、VR了解比较少,没有我看到“批判性思维”或太多对技术分析的内容…

MySQL常用操作(一)

创建表 create table user(id int unsigned primary key not null auto_increment,name varchar(50) unique not null,age tinyint not null,sex enum(M, W) not null )engineINNODB default charsetutf8;# 查看创建表语句 show create table user两种插入方式比较 # 方式1 i…

加速千行百业转型,华为如何为智能世界构建感知底座

导读:感知正成为行业数字化的新引擎。 我们正在迈进一个万物感知的时代。 日常生活中,感知已经无处不在。小到智能家居的控制系统,大到智慧城市虚实联动的数字孪生,感知是一切智能化的前提,也是行业数字化转型的基础。…

如何恢复被隔离的u盘数据?2种恢复u盘隔离数据的方法

很多时候,我们可能会因为各种原因导致U盘数据丢失,比如误删、格式化等情况。但最近有一位朋友咨询小编关于U盘文件被隔离的问题,他在使用U盘时发现有些文件被隔离了,想知道如何恢复。其实,U盘文件被隔离可能是由于存在…

记录--为什么推荐用svg而不用icon?

这里给大家分享我在网上总结出来的一些知识,希望对大家有所帮助 使用背景: 1.因为svg图标在任何设备下都可以高清显示,不会模糊。而icon会在显卡比较低的电脑上有显示模糊的情况 2.svg图标在页面render时 速度会比icon稍微快一点 3.实现小程序…

Hightopo 使用心得(3)- 吸附与锚点

吸附与锚点是 HT for Web 中两个比较重要的概念。这两个概念在执行交互和动画时会经常被用到。 吸附,顾名思义,是一个节点吸附到另一个节点上。就像船底的贝类一样,通过吸附到船身,在船移动的时候自己也会跟着移动;而…

研究显示,超过一半的安全领导者对保护应用程序机密缺乏信心

这可能会让人感到意外,但秘密管理已经成为AppSec房间里的大象。虽然像常见漏洞和暴露(cve)这样的安全漏洞经常成为网络安全领域的头条新闻,但秘密管理仍然是一个被忽视的问题,可能会对企业安全产生直接而有影响的后果。 《卫报》最近的一项研…

AUTOSAR通信篇 - CAN网络通信(四:CanSM)

文章目录 简述CAN网络状态机触发器PowerOnCanSM_InitCanSM_DeInitT_START_WAKEUP_SOURCET_STOP_WAKEUP_SOURCET_FULL_COM_MODE_REQUESTT_SILENT_COM_MODE_REQUESTT_NO_COM_MODE_REQUESTT_BUS_OFF 防护条件G_FULL_COM_MODE_REQUESTEDG_SILENT_COM_MODE_REQUESTED 作用E_PRE_NOCO…