如何使用pgvector为RDS PostgreSQL构建专属ChatBot?

news2024/11/26 22:25:28

背景

越来越多的企业和个人希望能够利用LLM和生成式人工智能来构建专注于其特定领域的具备AI能力的产品。目前,大语言模型在处理通用问题方面表现较好,但由于训练语料和大模型的生成限制,对于专业知识和时效性方面存在一些局限。在信息时代,企业的知识库更新频率越来越高,而企业所拥有的垂直领域知识库(如文档、图像、音视频等)可能是未公开或不可公开的。因此,对于企业而言,如果想在大语言模型的基础上构建属于特定垂直领域的AI产品,就需要不断将自身的知识库输入到大语言模型中进行训练。

目前有两种常见的方法实现:

  • 微调(Fine-tuning):通过提供新的数据集对已有模型的权重进行微调,不断更新输入以调整输出,以达到所需的结果。这适用于数据集规模不大或针对特定类型任务或风格进行训练,但训练成本和价格较高。
  • 提示调整(Prompt-tuning):通过调整输入提示而非修改模型权重,从而实现调整输出的目的。相较于微调,提示调整具有较低的计算成本,需要的资源和训练时间也较少,同时更加灵活。

基于RDS PostgreSQL构建ChatBot的优势如下:

  • 借助RDS PostgreSQL的pgvector插件,可以将实时内容或垂直领域的专业知识和内容转化为向量化的embedding表示,并存储在RDS PostgreSQL中,以实现高效的向量化检索,从而提高私域内容的问答准确性。
  • 作为先进的开源OLTP引擎,RDS PostgreSQL能够同时完成在线用户数据交互和数据存储的任务,例如,它可以用于处理对话的交互记录、历史记录、对话时间等功能。RDS PostgreSQL一专多长的特性使得私域业务的构建更加简单,架构也更加轻便。
  • pgvector插件目前已经在开发者社区以及基于PostgreSQL的开源数据库中得到广泛应用,同时ChatGPT Retrieval Plugin等工具也及时适配了PostgreSQL。这表明RDS PostgreSQL在向量化检索领域具有良好的生态支持和广泛的应用基础,为用户提供了丰富的工具和资源。

本文将以RDS PostgreSQL提供的开源向量索引插件(pgvector)和OpenAI提供的embedding能力为例,展示如何构建专属的ChatBot。

快速体验

阿里云提供云速搭CADT平台模板,该方案模板已预部署了ECS以及RDS PostgreSQL数据库,并且预安装了前置安装包,能够帮助您快速体验专属ChatBot,您可以前往云速搭CADT控制台,参考大模型结合RDS PostgreSQL数据库构建企业级专属Chatbot进行体验。

前提条件

  • 已创建RDS PostgreSQL实例且满足以下条件:
    • 实例大版本为PostgreSQL 14或以上。
    • 实例内核小版本为20230430或以上。
  • 说明
    如需升级实例大版本或内核小版本,请参见升级数据库大版本或升级内核小版本。
  • 本文展示的专属的ChatBot基于RDS PostgreSQL提供的开源插件pgvector,请确保已完全了解其相关用法及基本概念,更多信息,请参见高维向量相似度搜索(pgvector)。
  • 本文展示的专属的ChatBot使用了OpenAI的相关能力,请确保您具备Secret API Key,并且您的网络环境可以使用OpenAI,本文展示的代码示例均部署在新加坡地域的ECS中。
  • 本文示例代码使用的Python语言,请确保已具备Python开发环境,本示例使用的Python版本为3.11.4,使用的开发工具为PyCharm 2023.1.2

相关概念

嵌入

嵌入(embedding)是指将高维数据映射为低维表示的过程。在机器学习和自然语言处理中,嵌入通常用于将离散的符号或对象表示为连续的向量空间中的点。

在自然语言处理中,词嵌入(word embedding)是一种常见的技术,它将单词映射到实数向量,以便计算机可以更好地理解和处理文本。通过词嵌入,单词之间的语义和语法关系可以在向量空间中得到反映。

OpenAI提供Embeddings能力。

实现原理

本文展示的专属ChatBot的实现流程分为两个阶段:

第一阶段:数据准备

  1. 知识库信息提取和分块:从领域知识库中提取相关的文本信息,并将其分块处理。这可以包括将长文本拆分为段落或句子,提取关键词或实体等。这样可以将知识库的内容更好地组织和管理。
  2. 调用LLM接口生成embedding:利用LLM(如OpenAI)提供的接口,将分块的文本信息输入到模型中,并生成相应的文本embedding。这些embedding将捕捉文本的语义和语境信息,为后续的搜索和匹配提供基础。
  3. 存储embedding信息:将生成的文本embedding信息、文本分块以及文本关联的metadata信息存入RDS PostgreSQL数据库中。

第二阶段:问答

  1. 用户提问。
  2. 通过OpenAI提供的embedding接口创建该问题的embedding。
  3. 通过pgvector过滤出RDS PostgreSQL数据库中相似度大于一定阈值的文档块,将结果返回。

流程图如下:

image

操作步骤

第一阶段:数据准备

本文以创建RDS PostgreSQL实例文档的文本内容为例,将其拆分并存储到RDS PostgreSQL数据库中,您需要准备自己的专属领域知识库。

数据准备阶段的关键在于将专属领域知识转化为文本embedding,并有效地存储和匹配这些信息。通过利用LLM的强大语义理解能力,您可以获得与特定领域相关的高质量回答和建议。当前的一些开源框架,可以方便您上传和解析知识库文件,包括URL、Markdown、PDF、Word等格式。例如LangChain和OpenAI开源的ChatGPT Retrieval Plugin。LangChain和ChatGPT Retrieval Plugin均已经支持了基于pgvector扩展的PostgreSQL作为其后端向量数据库,这使得与RDS PostgreSQL实例的集成变得更加便捷。通过这样的集成,您可以方便地完成第一阶段领域知识库的数据准备,并充分利用pgvector提供的向量索引和相似度搜索功能,实现高效的文本匹配和查询操作。

  1. 连接PostgreSQL实例。
  2. 创建测试数据库,以rds_pgvector_test为例。
CREATE DATABASE testdb;
  1. 进入测试数据库,并创建pgvector插件。
CREATE EXTENSION IF NOT EXISTS vector;
  1. 创建测试表(本文以rds_pg_help_docs为例),用于存储知识库内容。
CREATE TABLE rds_pg_help_docs (
  id bigserial PRIMARY KEY, 
  title text,           -- 文档标题
  description text,         -- 描述
  doc_chunk text,       -- 文档分块
  token_size int,       -- 文档分块字数
  embedding vector(1536));  -- 文本嵌入信息
  1. 为embedding列创建索引,用于查询优化和加速。
CREATE INDEX ON rds_pg_help_docs USING ivfflat (embedding vector_cosine_ops) WITH (lists = 100);
  1. 说明
    向量列创建索引的更多说明,请参见高维向量相似度搜索(pgvector)。
  2. 在PyCharm中,创建项目,然后打开Terminal,输入如下语句,安装如下依赖库。
pip install openai psycopg2 tiktoken requests beautifulsoup4 numpy
  1. 创建.py文件(本文以knowledge_chunk_storage.py为例),拆分知识库文档内容并存储到数据库中,示例代码如下:
    说明
    如下示例代码中,自定义的拆分方法仅仅是将知识库文档内容按固定字数进行了拆分,您可以使用LangChain和OpenAI开源的ChatGPT Retrieval Plugin等开源框架中提供的方法进行拆分。知识库中的文档质量和分块结果对最终的输出的结果有较大的影响。
import openai
import psycopg2
import tiktoken
import requests
from bs4 import BeautifulSoup
EMBEDDING_MODEL = "text-embedding-ada-002"
tokenizer = tiktoken.get_encoding("cl100k_base")
# 连接RDS PostgreSQL数据库
conn = psycopg2.connect(database="<数据库名>",
                        host="<RDS实例连接地址>",
                        user="<用户名>",
                        password="<密码>",
                        port="<数据库端口>")
conn.autocommit = True
# OpenAI的API Key
openai.api_key = '<Secret API Key>'
# 自定义拆分方法(仅为示例)
def get_text_chunks(text, max_chunk_size):
    chunks_ = []
    soup_ = BeautifulSoup(text, 'html.parser')
    content = ''.join(soup_.strings).strip()
    length = len(content)
    start = 0
    while start < length:
        end = start + max_chunk_size
        if end >= length:
            end = length
        chunk_ = content[start:end]
        chunks_.append(chunk_)
        start = end
    return chunks_
# 指定需要拆分的网页
url = 'https://help.aliyun.com/document_detail/148038.html'
response = requests.get(url)
if response.status_code == 200:
    # 获取网页内容
    web_html_data = response.text
    soup = BeautifulSoup(web_html_data, 'html.parser')
    # 获取标题(H1标签)
    title = soup.find('h1').text.strip()
    # 获取描述(class为shortdesc的p标签内容)
    description = soup.find('p', class_='shortdesc').text.strip()
    # 拆分并存储
    chunks = get_text_chunks(web_html_data, 500)
    for chunk in chunks:
        doc_item = {
            'title': title,
            'description': description,
            'doc_chunk': chunk,
            'token_size': len(tokenizer.encode(chunk))
        }
        query_embedding_response = openai.Embedding.create(
            model=EMBEDDING_MODEL,
            input=chunk,
        )
        doc_item['embedding'] = query_embedding_response['data'][0]['embedding']
        cur = conn.cursor()
        insert_query = '''
        INSERT INTO rds_pg_help_docs 
            (title, description, doc_chunk, token_size, embedding) VALUES (%s, %s, %s, %s, %s);
        '''
        cur.execute(insert_query, (
            doc_item['title'], doc_item['description'], doc_item['doc_chunk'], doc_item['token_size'],
            doc_item['embedding']))
        conn.commit()
else:
    print('Failed to fetch web page')
  1. 运行python程序。
  2. 登录数据库使用如下命令查看是否已将知识库文档内容拆分并存储为向量数据。
SELECT * FROM rds_pg_help_docs;
  1. image

第二阶段:问答

  1. 在python项目中,创建.py文件(本文以chatbot.py为例),创建问题并与数据库中的知识库内容比较相似度,返回结果。
import openai
import psycopg2
from psycopg2.extras import DictCursor
GPT_MODEL = "gpt-3.5-turbo"
EMBEDDING_MODEL = "text-embedding-ada-002"
GPT_COMPLETIONS_MODEL = "text-davinci-003"
MAX_TOKENS = 1024
# OpenAI的API Key
openai.api_key = '<Secret API Key>'
prompt = '如何创建一个RDS PostgreSQL实例'
prompt_response = openai.Embedding.create(
    model=EMBEDDING_MODEL,
    input=prompt,
)
prompt_embedding = prompt_response['data'][0]['embedding']
# 连接RDS PostgreSQL数据库
conn = psycopg2.connect(database="<数据库名>",
                        host="<RDS实例连接地址>",
                        user="<用户名>",
                        password="<密码>",
                        port="<数据库端口>")
conn.autocommit = True
def answer(prompt_doc, prompt):
    improved_prompt = f"""
    按下面提供的文档和步骤来回答接下来的问题:
    (1) 首先,分析文档中的内容,看是否与问题相关
    (2) 其次,只能用文档中的内容进行回复,越详细越好,并且以markdown格式输出
    (3) 最后,如果问题与RDS PostgreSQL不相关,请回复"我对RDS PostgreSQL以外的知识不是很了解"
    文档:
    \"\"\"
    {prompt_doc}
    \"\"\"
    问题: {prompt}
    """
    response = openai.Completion.create(
        model=GPT_COMPLETIONS_MODEL,
        prompt=improved_prompt,
        temperature=0.2,
        max_tokens=MAX_TOKENS
    )
    print(f"{response['choices'][0]['text']}\n")
similarity_threshold = 0.78
max_matched_doc_counts = 8
# 通过pgvector过滤出相似度大于一定阈值的文档块
similarity_search_sql = f'''
SELECT doc_chunk, token_size, 1 - (embedding <=> '{prompt_embedding}') AS similarity 
FROM rds_pg_help_docs WHERE 1 - (embedding <=> '{prompt_embedding}') > {similarity_threshold} ORDER BY id LIMIT {max_matched_doc_counts};
'''
cur = conn.cursor(cursor_factory=DictCursor)
cur.execute(similarity_search_sql)
matched_docs = cur.fetchall()
total_tokens = 0
prompt_doc = ''
print('Answer: \n')
for matched_doc in matched_docs:
    if total_tokens + matched_doc['token_size'] <= 1000:
        prompt_doc += f"\n---\n{matched_doc['doc_chunk']}"
        total_tokens += matched_doc['token_size']
        continue
    answer(prompt_doc,prompt)
    total_tokens = 0
    prompt_doc = ''
answer(prompt_doc,prompt)
  1. 运行Python程序后,您可以在运行窗口看到类似如下的对应答案:
    说明
    您可以对拆分方法以及问题prompt进行优化,以获得更加准确、完善的回答,本文仅为示例。

    image

总结

如果未接入专属知识库,OpenAI对于问题“如何创建一个RDS PostgreSQL实例”的回答往往与阿里云不相关,例如:

image

在接入存储在RDS PostgreSQL数据库中的专属知识库后,对于问题“如何创建一个RDS PostgreSQL实例”,我们将会得到只属于阿里云RDS PostgreSQL数据库的相关回答。

根据上述实践内容,可以看出RDS PostgreSQL完全具备构建基于LLM的垂直领域知识库的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1587546.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Day37:LeedCode 738.单调递增的数字 968.监控二叉树 蓝桥杯 翻转

738. 单调递增的数字 当且仅当每个相邻位数上的数字 x 和 y 满足 x < y 时&#xff0c;我们称这个整数是单调递增的。 给定一个整数 n &#xff0c;返回 小于或等于 n 的最大数字&#xff0c;且数字呈 单调递增 。 示例 1: 输入: n 10 输出: 9 思路: 假设这个数是98,…

三次 Bspline(B样条曲线) NURBS曲线的绘制 matlab

先来了解几个概念&#xff1a; 1.1 节点向量&#xff1a; B-Spline需要定义曲线的节点向量U&#xff0c;它可以对应到Bezier曲线的参数u。 其元素个数 (m1) 和曲线阶数 k 、控制点个数n满足&#xff1a;m1k1n1 如果U的每段的距离是相等&#xff0c;那么这个B-Spline就被称为均…

labview中FP.isFrontmost不生效?

主GUI界面中调用子GUI程序FP.isFrontmost不生效&#xff1f; 如果主GUI程序使用“floating”,子GUI程序使用default动作&#xff0c;则子GUI无法打开到最前。子GUI程序只能使用“模态”才能置顶。 主GUI程序&#xff1a; 子GUI程序&#xff1a; 改正的方法很简单&#xff0c…

浙大恩特客户资源管理系统 i0004_openFileByStream.jsp 任意文件读取漏洞复现

0x01 产品简介 浙大恩特客户资源管理系统是一款针对企业客户资源管理的软件产品。该系统旨在帮助企业高效地管理和利用客户资源,提升销售和市场营销的效果。 0x02 漏洞概述 浙大恩特客户资源管理系统 i0004_openFileByStream.jsp接口处存在任意文件读取漏洞,未经身份验证攻…

代码随想录 Day17 字符串 | LC344 反转字符串 LC541 反转字符串II 卡码网54替换数字

一、反转字符串 题目&#xff1a; 力扣344&#xff1a;反转字符串 编写一个函数&#xff0c;其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间&#xff0c;你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题…

时间序列突破性创新!与对比学习结合,性能超越SOTA

对比学习可以通过自我监督的方式捕捉时间序列数据中的时间依赖性和动态变化&#xff0c;这使得它特别适合处理时间序列数据&#xff0c;因为时间序列的本质特征就在于其随时间的演变和变化。 因此&#xff0c;相较于传统的时序&#xff0c;基于对比学习的时间序列能够适应更广…

npm创建Vue3项目

npm创建Vue3项目 1 创建Vue项目说明 2 安装3 运行 1 创建Vue项目 创建最新版的Vue项目&#xff0c;已经不推荐使用CLI构建方式了。参考如下即可。 npm create vuelatest如果发现一直动不了&#xff0c;切换网络试一下&#xff0c;个人热点尝试一下。 按下图的选项按需引入自…

移位寄存器

移位寄存器是如何工作的&#xff1f; 移位寄存器按照移位方向可分为左移位寄存器、右移位寄存器、双向移位寄存器。图11-15所示为用D触发器构成的4位左移位寄存器。待存数码由触发器F0的输入端D0输入&#xff0c;在移位脉冲作用下&#xff0c;可将数码从高位到低位向左逐步移入…

如何选择适用于Mac的文件恢复软件?适用于 Mac 的最佳数据恢复软件清单

有人会说&#xff0c;我们的数字生活正变得几乎和我们的物理生活一样重要。我们在线工作&#xff0c;将记忆保存在数码照片库中&#xff0c;在信使中交流&#xff0c;并保留各种文档的数字扫描。 每个人都知道备份是必不可少的。建议每天至少同步一个数字备份&#xff08;例如…

CDHD高创驱动器恢复出厂设置的具体方法演示

CDHD高创驱动器恢复出厂设置的具体方法演示 首先,下载并安装高创驱动器的调试软件,有需要的可以从以下链接中获取:高创CDHD伺服调试软件ServoStudio安装包-V2.38.6.30 安装完成后,打开软件,如下图所示, 如下图所示,在左侧找到配置—通信,点击连接, 如下图所示,正常情…

电力综合自动化系统对电力储能技术的影响有哪些?

电力综合自动化系统对电力储能技术的影响主要体现在以下几个方面&#xff1a; 提高能源利用效率&#xff1a;电力综合自动化系统通过优化调度和能量管理&#xff0c;可以实现储能设备的有效利用&#xff0c;提高能源利用效率。在电力系统中&#xff0c;储能设备可以有效地平抑风…

EFcore 6 连接oracle19 WinForm vs2022

用EFcore访问Oracle&#xff0c;终于不需要Oracle的什么安装包了&#xff0c;直接在VS2022中就可以轻松搞定。在csdn上看到一哥们的帖子&#xff0c;测试了一下&#xff0c;发现很方便。使用的场景是&#xff1a;VS2022中EFcore6。经过测试&#xff0c;同 Navicat Premium 16比…

Redis Pipelining 底层原理分析及实践

作者&#xff1a;vivo 互联网服务器团队-Wang Fei Redis是一种基于客户端-服务端模型以及请求/响应的TCP服务。在遇到批处理命令执行时&#xff0c;Redis提供了Pipelining(管道)来提升批处理性能。本文结合实践分析了Spring Boot框架下Redis的Lettuce客户端和Redisson客户端对P…

test4121

欢迎关注博主 Mindtechnist 或加入【Linux C/C/Python社区】一起学习和分享Linux、C、C、Python、Matlab&#xff0c;机器人运动控制、多机器人协作&#xff0c;智能优化算法&#xff0c;滤波估计、多传感器信息融合&#xff0c;机器学习&#xff0c;人工智能等相关领域的知识和…

02.cesium中模型和图标加载处理

展示效果&#xff0c;我们期待图标点是根据模型&#xff0c;在模型的上方展示 实现思路&#xff1a; 1.在二维地图和三维地图的加载的高度计算不同&#xff0c;需要判断 2.创建一个BillboardCollection&#xff0c;用来存放图标 3.在三维地图中调用getPointPostion方法&#xf…

挖掘未来:私有LTE/5G网络驱动智慧矿山的自动化

私有LTE/5G网络为世界上一些最偏远的角落提供无线连接。如果没有无线通信网络&#xff0c;各行业就无法满足增加产量、降低运营成本和减少环境破坏的需求。 在本案例研究中&#xff0c;我们着眼于自动化如何改变无线网络的动态。智慧矿山要求运营商无缝集成多个系统和应用程序…

02 SQL基础 -- 初识SQL

一、初识 SQL 1.1 概念介绍 数据库中存储的表结构类似于 excel 中的行和列,在数据库中,行称为记录,它相当于一条结论,列称为字段,它代表了表中存储的数据项目 行和列交汇的地方称为单元格,一个单元格只能输入一条记录 SQL是为操作数据库而开发的语言。国际标准化组织(…

Linux/October

October Enumeration Nmap 扫描发现对外开放了22和80端口&#xff0c;使用nmap详细扫描这两个端口 ┌──(kali㉿kali)-[~/vegetable/HTB/October] └─$ nmap -sC -sV -p 22,80 -oA nmap 10.10.10.16 Starting Nmap 7.…

MobX原理剖析:基于可观察状态和自动依赖追踪的响应式状态管理

我们用代码示例来说明 MobX 的核心原理。 首先,我们定义一个简单的 Store 类,其中包含一个可观察的计数器状态: import { observable, action } from mobx;class CounterStore {observable count 0;actionincrement () > {this.count;};actiondecrement () > {this.…

spring快速搭建聊天AI

官网url: https://spring.io/projects/spring-ai 本文演示的是open AI 1创建java项目 2.拿到AI的key&#xff08;没有的话可以去淘宝花几块钱买一个&#xff09; //YOUR_API_KEY写你自己的open AI的key spring.ai.openai.api-keyYOUR_API_KEY spring.ai.openai.chat.options.…