备忘,LangChain建立本地知识库的几个要点

news2025/1/19 17:16:37

本地知识库可以解决本地资源与AI结合的问题,为下一步应用管理已有资产奠定基础。 本地知识库的建立可参考LangChain结合通义千问的自建知识库 (二)、(三)、(四)
本文主要记录两个方面的问题
1 搭建过程中遇到的坑
2 向量是数据库改成ES7

1 搭建过程中遇到的坑
1) 安装bce-embedding-base_v1模型
需要用git clone到本地,但由于模型比较大,需要先安装git lfs管理大型的文件,再克隆
sudo apt-get install git-lfs

安装成功后,再进入预备安装模型的目录下,执行clone
git clone https://www.modelscope.cn/maidalun/bce-embedding-base_v1.git

  1. nltk corpora语料库缺失
    报错样例如下:
    在这里插入图片描述
    缺少 两个库 punkt和 averaged_perceptron_tagger
    解决的方式是离线下载,参考NLTK:离线安装punkt

2 向量是数据库改成ES7
原博中使用Chroma,但我已经装了ES7,所以改用ES7作为向量数据库
原博中两部分代码,导入本地知识库和应用本地知识库,修改如下

导入本地知识库

import time
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import UnstructuredFileLoader
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings
from langchain_community.vectorstores import ElasticVectorSearch

time_list = []
t = time.time()

# loader = UnstructuredFileLoader("/home/cfets/AI/textwarefare/test.txt")
loader = UnstructuredFileLoader("/home/cfets/AI/textwarefare/cmtest.txt")
data = loader.load()

# 文本切分去。
text_splitter = RecursiveCharacterTextSplitter(chunk_size=50, chunk_overlap=0)
split_docs = text_splitter.split_documents(data)
print(split_docs)

model_name = r"/home/cfets/AI/model/bce-embedding-base_v1"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': False}

embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs)

# 初始化加载器 构建本地知识向量库
# db = Chroma.from_documents(split_docs, embeddings, persist_directory="./chroma/bu_test_bec")

# 使用ES
db = ElasticVectorSearch.from_documents(
    split_docs,
    embeddings,
    elasticsearch_url="http://localhost:9200",
    index_name="elastic-ai-test",
)

# 持久化
#  db.persist()
print(db.client.info())

# 打印时间##
time_list.append(time.time() - t)
print(time.time() - t)

应用本地知识库

import dashscope
from dashscope import Generation
from dashscope.api_entities.dashscope_response import Role
from http import HTTPStatus
from langchain_community.vectorstores import Chroma
from langchain_community.vectorstores import ElasticVectorSearch
from langchain_community.embeddings.huggingface import HuggingFaceEmbeddings

dashscope.api_key = XXXXXX


def conversation_mutual():
    messages = []

    # 引入模型
    model_name = r"/home/cfets/AI/model/bce-embedding-base_v1"
    model_kwargs = {'device': 'cpu'}
    encode_kwargs = {'normalize_embeddings': False}

    embeddings = HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs
    )

    # 使用chroma本地库
    # db = Chroma(persist_directory="./chroma/bu_cmtest_bec", embedding_function=embeddings)

    # 使用elastic search
    my_index = "es_akshare-api"
    db = ElasticVectorSearch(
        embedding=embeddings,
        elasticsearch_url="http://localhost:9200",
        index_name=my_index,
    )


    while True:
        message = input('user:')

        # 引入本地库
        similarDocs = db.similarity_search(message, k=5)
        summary_prompt = "".join([doc.page_content for doc in similarDocs])
        print(summary_prompt)
        send_message = f"下面的信息({summary_prompt})是否有这个问题({message})有关" \
                       f",如果你觉得无关请告诉我无法根据提供的上下文回答'{message}'这个问题,简要回答即可" \
                       f",否则请根据{summary_prompt}对{message}的问题进行回答"

        messages.append({'role': Role.USER, 'content': message})
        messages.append({'role': Role.USER, 'content': send_message})  # 按本地库回复

        whole_message = ''
        # 切换到通义模型
        responses = Generation.call(Generation.Models.qwen_plus, messages=messages, result_format='message', stream=True,
                                    incremental_output=True)
        print('system:', end='')
        for response in responses:
            if response.status_code == HTTPStatus.OK:
                whole_message += response.output.choices[0]['message']['content']
                print(response.output.choices[0]['message']['content'], end='')
            else:
                print('Request id: %s, Status code: %s, error code: %s, error message: %s' % (
                    response.request_id, response.status_code,
                    response.code, response.message
                ))

    print()
    messages.append({'role': 'assistant', 'content': whole_message})
    print('\n')


if __name__ == '__main__':
    conversation_mutual()

使用效果

导入本地知识库
在这里插入图片描述

执行本地库效果
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1577004.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

抖音引流私域转化模式1.0现场视频,从抖音源源不断把人加到私域买单

抖音-引流私域转化模式1.0现场视频,从抖音源源不断把人加到私域,让加到私域的粉丝买单 课程内容:抖音引流私域转化模式1.0现场视频,从抖音源源不断把人加到私域买单 - 百创网-源码交易平台_网站源码_商城源码_小程序源码 01.第一…

武汉星起航:运营经验打造行业标杆,形成可持续稳健业务增长路径

在跨境电商的浪潮中,武汉星起航电子商务有限公司以其专注于提供一站式解决方案而在行业内崭露头角,成为创业者成功进入市场的得力伙伴。公司不仅仅是服务提供商,更是创业者的导航者,通过全方位的支持和专业指导,致力于…

javaWeb影视创作论坛的设计与实现

摘要 随着时代的发展,互联网的出现,给传统影视行业带来的最大便利就是,方便了影视从业人员以及爱好者的交流和互动,而为用户提供一个书写影评,阅读影评以及回复影评的平台,以影评为载体来使用户感受影评、…

android-自定义TextView在文字内容末尾添加图片icon、可以添加间距

样式示意图 自定义属性 style.xml <declare-styleable name"IconLabelTextView"><attr name"iconSrc" format"reference"/><attr name"iconPaddingStart" format"dimension"/><attr name"iconPad…

小红不想做模拟题 线段树

无脑线段树 #include<iostream> using namespace std; const int N 1e510; int a[N],b[N];struct Segment{int l,r;int s,s1,s2;int lz1,lz2; }tr[N<<2];void pushdown(int u){if(tr[u].lz1){tr[u<<1].lz1 tr[u<<1|1].lz1 1;tr[u].lz1 0;tr[u<&…

2024/4/1—力扣—两数相除

代码实现&#xff1a; 思路&#xff1a;用减法模拟除法 // 用减法模拟除法 int func(int a, int b) { // a、b均为负数int ans 0;while (a < b) { // a的绝对值大于等于b&#xff0c;表示此时a够减int t b;int count 1; // 用来计数被减的次数// t > INT_MIN / 2:防止…

ArcGISPro 如何升级某项Python库且不影响其运行

升级包scipy 可以看出scipy当前版本是1.6.2 利用不依赖包升级 pip install --upgrade scipy --no-deps 结果 但是显示还是之前的版本

使用高德微信小程序插件实现精准获取打卡位置

由于微信小程序的 getFuzzyLocation 误差太大 不得不改用高德微信sdk 使用方法&#xff1a; 一、下载 sdk 相关下载-微信小程序插件 | 高德地图API 二、引入 sdk //引入 var amapFile require(../../libs/amap-wx.js); Page({onLoad: function() {var that this;va…

go的orm框架-Gorm

官网文档 特点 全功能 ORM 关联 (拥有一个&#xff0c;拥有多个&#xff0c;属于&#xff0c;多对多&#xff0c;多态&#xff0c;单表继承) Create&#xff0c;Save&#xff0c;Update&#xff0c;Delete&#xff0c;Find 中钩子方法 支持 Preload、Joins 的预加载 事务&…

Vue.js【组件基础(上)】

选项式API和组合式API 选项式API 选项式API是一种通过包含多个选项的对象来描述组件逻辑的API&#xff0c;其常用的选项包括data、methods、computed、watch等。 组合式API 相比于选项式API&#xff0c;组合式API是将组件中的数据、方法、计算属性、侦听器等代码全部组合在…

sigmoid函数实例

sigmoid实例案例&#xff1a;&#xff08;sigmoid作用就是把传统线性回归中的z 投射到分类问题&#xff08;0&#xff0c;1&#xff09;的概率中&#xff09; 交叉熵损失函数扩充解释&#xff1a; 为什么二分类和多分类的不一样 因为在二分类问题中 每个样本得值是0或1 一组数据…

使用spring模拟转账,并实现异常事务回滚

1、数据库准备 使用配置类配置数据源、模板、事务回滚 package cn.edu.aaa.utils;import java.beans.PropertyVetoException;import javax.sql.DataSource;import org.springframework.beans.factory.annotation.Autowired; import org.springframework.beans.factory.annotati…

iterrows方法使dataframe显示完整

这样一个excel文件&#xff0c;由于行数太多显示不全。 直接读取显示&#xff1a; 该如何处理&#xff1f;方法有很多&#xff0c;这次讲解用dataframe.iterrows()方法。 DataFrame.iterrows()方法&#xff1a; 返回值是一个由索引和Series组成的元组。 关于这个方法的两个注…

程序汪10万接的多平台视频分发项目,模拟人工发视频

本项目来自程序汪背后的私活小团队&#xff0c;开发了一个多平台分发视频项目&#xff0c;给粉丝分享一下解决方案和具体项目分开情况付款情况等等细节&#xff0c;希望给想接私活的朋友一些经验参考 程序汪10万接的多平台视频分发项目&#xff0c;模拟人工发视频 视频版本 在 …

【网站项目】自助购药小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

VSCODE目录树缩进调整

VSCode默认的缩进太小了&#xff0c;简直看不出来&#xff0c;很容易弄混目录。在设置里修改就行了。 修改后效果&#xff1a;

代码随想录算法训练营第48天|198.打家劫舍|213.打家劫舍II| 337.打家劫舍III

代码随想录算法训练营第48天|198.打家劫舍|213.打家劫舍II| 337.打家劫舍III 今天就是打家劫舍的一天&#xff0c;这个系列不算难&#xff0c;大家可以一口气拿下。 198.打家劫舍 视频讲解&#xff1a;https://www.bilibili.com/video/BV1Te411N7SX https://programmercarl.c…

合并主分支到子分支

参考&#xff1a;【Git】合并分支出现 Please enter a commit message to explain why this merge is necessary.-CSDN博客 git 如何将主分支(master)合并到子分支上_git 将主分支合并到子分支-CSDN博客 1、先切换到主分支master git checkout master 2、把主分支代码拉到本地…

T-Mamba:用于牙齿 3D CBCT 分割的频率增强门控长程依赖性

T-Mamba&#xff1a;用于牙齿 3D CBCT 分割的频率增强门控长程依赖性 摘要Introduction方法T-Mamba architectureTim block T-Mamba: Frequency-Enhanced Gated Long-Range Dependendcy for Tooth 3D CBCT Segmentation 摘要 三维成像中的高效牙齿分割对于正畸诊断至关重要&am…

机器学习 —— 数据分析与图表绘制

本文使用工具 Anaconda下载安装与使用 Jupyter Notebook的使用 本文使用数据集 机器学习实验所需内容.zip 以朝阳医院2018年销售数据为例&#xff0c;目的是了解朝阳医院在2018年里的销售情况&#xff0c;这就需要知道几个业务指标&#xff0c;本次的分析…