翻译: LLM构建 GitHub 提交记录的聊天机器人一 使用 Timescale Vector、pgvector 和 LlamaIndex

news2024/9/30 21:32:02

1. 检索增强生成 (RAG Retrieval Augmented Generation)

检索增强生成 (RAG Retrieval Augmented Generation) 对于增强应用程序开发中的大型语言模型 (LLM) 至关重要。它用外部数据源补充 LLM,通过减少错误或幻觉来帮助获得更相关的响应。RAG 通过语义搜索确定哪些信息与用户的查询相关,语义搜索按含义搜索数据(而不仅仅是查找搜索词的文字匹配项)。RAG 对于需要访问特定领域或专有数据的 LLM 应用程序特别有效。
在这里插入图片描述
然而,仅靠 RAG 并不总是足以构建强大的、上下文感知的 LLM 应用程序。使用时间感知检索time-aware retrieval来增强 RAG,在特定时间和日期范围内查找语义相关的向量,可以显着提高其有效性。

2. 不使用和使用时间感知检索time-aware retrieval得区别

在处理日期繁重的知识库时,时间感知 RAG 可以帮助您构建 LLM 应用程序,这些应用程序擅长为用户查询生成相关答案。

在此示例中,了解时间感知检索如何提高 LLM 响应的质量:

Alice 是一名开发人员,她想要了解对 GitHub 存储库(在本例中为 TimescaleDB 存储库)的特定更改。她没有手动检查代码或提交历史记录,而是找到了一个“与我的 GitHub 存储库聊天”应用程序,并使用它来加快她的研究速度。Alice 想要了解名为“连续聚合”的功能的最新更改,并于 2023 年 11 月 29 日提出以下问题:

What’s new with the continuous aggregates feature in the past 6 months?

2.1 没有时间感知 RAG 👎 的 LLM 响应

名为“连续聚合continuous aggregates”的功能发生了一些变化。最近的更改是由 Sven Klemm 于 2020 年 1 月 24 日进行的。此更改添加了一种称为实时聚合的新模式,该模式将具体化数据与上次刷新后接收的新数据相结合。此新模式现在是新创建的连续聚合的默认行为。要将现有连续聚合升级到新行为,需要运行特定命令。

2.2 具有时间感知 RAG ✅ 的 LLM 响应

在过去的 6 个月中,对名为连续聚合continuous aggregates的功能进行了两项更改。第一次更改是在 2023 年 8 月 7 日由 Fabrízio de Royes Mello 进行的。此更改放宽了刷新连续聚合时的强表锁定,从而允许在多个会话中以更少的锁执行刷新过程。第二个更改是在 2023 年 8 月 29 日由 Jan Nidzwetzki 进行的。此更改通过向 post.continuous_aggs.v3.sql 中的两个查询添加 ORDER BY 规范,使上/降级测试具有确定性。

使用时间感知 RAG 的响应更有用——它在 Alice 指定的时间段内,并且与主题相关。两个响应之间的区别在于检索步骤。

3 教程:构建有关 GitHub 提交历史记录的聊天机器人

现在轮到你了!在本文的其余部分,我们将介绍构建 TSV Time Machine 的过程:一个时间感知的 RAG 聊天机器人,使您能够回到过去并与任何 GitHub 存储库的提交历史记录聊天。

每个 Git 提交都有一个关联的时间戳、自然语言消息和其他元数据,这意味着需要语义搜索和基于时间的搜索来回答有关提交历史记录的问题。

👩‍💻👩‍💻想直接跳进去吗?查看应用程序和github代码。
在这里插入图片描述
TSV Time Machine 应用的屏幕截图,显示用户与 PostgreSQL 项目 GitHub 提交历史记录聊天。

4. TSV Time Machine 应用程序概述

为了给增强 TSV Time Machine ,我们使用以下方法:

  • LlamaIndex 是一个强大的 LLM 数据框架,用于 RAG 应用程序。LlamaIndex 引入、处理和检索数据。我们将使用 LlamaIndex 自动检索器来推断要在矢量数据库上运行的正确查询,包括查询字符串和元数据筛选器。
  • Timescale Vector 是我们的矢量数据库。Timescale Vector 针对相似性和基于时间的搜索进行了优化,使其成为支持时间感知 RAG 的理想选择。它通过自动表分区来隔离特定时间范围的数据来实现这一点。我们将通过 LlamaIndex 的 Timescale Vector Store 访问它。

TSV Time Machine 示例应用有三个页面:

  • Home主页:提供应用程序使用说明的应用程序主页。
  • Load Data加载数据:页面以加载所选存储库的 Git 提交历史记录。
  • Time Machine Demo:与加载的任何 GitHub 存储库聊天的界面。

由于该应用程序是 ~600 行代码,我们不会逐行解压(尽管您可以要求 ChatGPT 向您解释任何棘手的部分!让我们看一下其中涉及的关键代码片段:

  1. 从要与之聊天的 GitHub 存储库加载数据
  2. 通过时间感知检索time-aware retrieval augmented generation增强聊天效果

参考

https://blog.streamlit.io/using-time-based-rag-llm-apps-with-timescale-vector/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1395654.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ChatGPT关键技术、发展方向与应用前景

源自:中国指挥与控制学会 作者:黄海涛 田虎 郑晓龙 曾大军 一、GPT类模型技术发展路径 图1 GPT类模型推出时间线1,2 二、ChatGPT模型的主要技术手段 图2 GPT类模型采用的Transformer解码器模型结构 图3 RLHF迭代训练过程真正推动ChatGPT模型…

物联网协议Coap之C#基于Mozi的CoapServer实现解析

目录 前言 一、C#的Coap Server实现 1、CoapServer相关类 2、主要类解析 3、资源控制器定义 4、ResourceManager管理器 二、CoapServer生命周期 1、Server创建代码 2、服务端创建 3、绑定endpoint 4、准备接收请求 总结 前言 在之前的关于物联网协议的介绍中&#…

ELK日志分析

目录 1.ELK概述 ELK简述 ElasticSearch Kiabana Logstash 可添加其他的组件 Filebeat filebeat结合logstash带来好处 缓存/消息队列(redis、kafka、RabbitMQ等) Fluentd ELK的好处 完整日志系统基本特征 ELK的工作原理 2.ELK Elasticsearc…

Git提交 ssh: connect to host github.com port 22: Connection timed out解决方案

你们好,我是金金金。 场景 之前都是好好的,不知道今天为什么提交代码就这样了 排查 根据英文可以看出,ssh端口号被拒绝了,22号端口不行,那就换一个端口 造成error的原因 ssh端口被拒绝 解决 找到.ssh文件&#xff…

Producer源码解读

Producer源码解读 在 Kafka 中, 我们把产生消息的一方称为 Producer 即 生产者, 它是 Kafka 的核心组件之一, 也是消息的来源所在。它的主要功能是将客户端的请求打包封装发送到 kafka 集群的某个 Topic 的某个分区上。那么这些生产者产生的消息是怎么传到 Kafka 服务端的呢&a…

Linux系统三剑客之grep和正则表达式的介绍(一)

1.正则表达式 目录 1.正则表达式 1.什么是正则表达式 ? 2.正则表达式的使用场景 3.正则表达式字符表示 4.它们之间的区别 2.grep命令 作用: 语法: 说明: 选项:options 重点 实例 3.后面的下次再更新。 …

hanlp,pkuseg,jieba,cutword分词实践

总结:只有jieba,cutword,baidu lac成功将色盲色弱成功分对,这两个库字典应该是最全的 hanlp[持续更新中] https://github.com/hankcs/HanLP/blob/doc-zh/plugins/hanlp_demo/hanlp_demo/zh/tok_stl.ipynb import hanlp # hanlp.pretrained.tok.ALL # 语种见名称最…

统计学-R语言-6.3

文章目录 前言总体方差的区间估计总体方差的区间估计(一个总体方差的估计)总体方差的区间估计(两个总体方差比的估计) 总结 前言 本篇文章是最后一个介绍参数估计的章节。 总体方差的区间估计 研究一个总体时,推断总体方差 使用的统计量为样本方差 。研究两个总体…

MacOS受欢迎的数据库开发工具 Navicat Premium 15 中文版

Navicat Premium 15 Mac是一款数据库管理工具,提供了一个全面的解决方案,用于连接、管理和维护各种数据库系统。以下是Navicat Premium 15 Mac的一些主要功能和特点: 软件下载:Navicat Premium 15 中文版下载 多平台支持&#xff…

代码、课程、教学的一些思考-2024

1 代码、算法、艺术品 1.1 代码 最典型的C代码示例。 以下是一个简单的C代码示例&#xff0c;它打印出“Hello, World!”&#xff1a; #include <iostream> int main() { std::cout << "Hello, World!"; return 0; } 这段代码定义了一个程序&a…

2024年美国各州即将生效的新隐私保护法(上)

2024年美国各州即将生效的新隐私保护法&#xff08;上&#xff09; 文章目录 2024年美国各州即将生效的新隐私保护法&#xff08;上&#xff09;前言一、2023年隐私保护法开始生效的五个州二、2023年通过了新的隐私保护法的八个州三、2024年确定截止的州及法律法规&#xff08;…

Python GUI 新手入门教程:轻松构建图形用户界面

Python 凭借其简单性和多功能性&#xff0c;已经成为最流行的编程语言之一。被广泛应用于从 web 开发到数据科学的各个领域。 在本教程中&#xff0c;我们将探索用于创建图形用户界面&#xff08;GUIs&#xff09;的 Python 内置库&#xff1a; Tkinter&#xff1a;无论你是初…

深入学习卷积神经网络(CNN)的原理知识

在深度学习领域中&#xff0c;已经经过验证的成熟算法&#xff0c;目前主要有深度卷积网络&#xff08;DNN&#xff09;和递归网络&#xff08;RNN&#xff09;&#xff0c;在图像识别&#xff0c;视频识别&#xff0c;语音识别领域取得了巨大的成功&#xff0c;正是由于这些成…

gitlab 命令执行漏洞(CVE-2022-2992)

1.漏洞影响版本 GitLab CE/EE 中的一个漏洞影响从 11.10 开始到 15.1.6 之前的所有版本、从 15.2 开始到 15.2.4 之前的所有版本、从 15.3 开始到 15.3.2 之前的所有版本。允许经过身份验证的用户通过从 GitHub API 端点导入实现远程代码执行。 查看 gitlab 版本。(登录后才能…

keil logic analyzer使用

DARMSTM.DLL--- -pSTM32F103VC ---- TRAMSTM.DLL ------ -pSTM32F103VC 然后点击DEBUG按钮 用上面的名称USART1_SR 点击STUP 不同的引脚&#xff0c;用不同的名称&#xff0c;通过放大缩小来查看波形。当前串口用的是USART1_SR&#xff0c;只能用这个名称&#xff0c;…

海思刷机注意事项

目录 为什么写这个文档海思SOC刷机原理1.串口缓冲区关闭2.IP地址自动更改导致无法烧录3.烧录完成后找不到根文件系统4.由于电源设计不合理导致无法烧录 为什么写这个文档 海思SOC刷机时,偶然会遇到奇奇怪怪的问题,会刷机不上.现在总结一下. 海思SOC刷机原理 如果没有任何程序…

VUE--组件通信(非父子)

一、非父子通信 --- event bus 事件总线 作用&#xff1a;非父子组件之间进行简易的消息传递 步骤&#xff1a; 1、创建一个都能访问到的事件总线&#xff08;空vue实例&#xff09;--- utils/EventBus.js import Vue from vue export default new Vue({}) 2、 接收方&…

day5:IO多路复用

思维导图 TCP并发服务器的IO复用poll函数实现 #include <head.h> #define SER_PORT 8888 #define SER_IP "192.168.232.133" int main(int argc, const char *argv[]) {int sfdsocket(AF_INET,SOCK_STREAM,0);if(sfd-1){perror("sfd error:");retur…

【正点原子STM32】Cortex-M系列介绍(ARM、Cortex、DMIPS/MHz和CoreMark/MHz*)

一、ARM公司 二、Cortex内核分类及特征 三、Cortex-M3/4/7介绍 四、总结 ARM官网 ARM开发者官网 CoreMark分数 一、ARM公司 ARM架构特点 ARM&#xff08;Advanced RISC Machine&#xff09;架构是一种RISC&#xff08;Reduced Instruction Set Computing&#xff09;架构&…

【征服redis2】redis的事务介绍

目录 1.redis事务介绍 2 事务出错的处理 1.redis事务介绍 在前面我们介绍了redis的几种典型数据结构和应用&#xff0c;本文我们来看一下redis的事务问题。事务也是数据库的重要主题&#xff0c;熟悉关系型数据库的读者应该对事务比较了解&#xff0c;简单地说&#xff0c;事…