LangChain手记 Question Answer 问答系统

news2025/1/19 23:06:30

整理并翻译自DeepLearning.AI×LangChain的官方课程:Question Answer(源代码可见)

本节介绍使用LangChian构建文档上的问答系统,可以实现给定一个PDF文档,询问关于文档上出现过的某个信息点,LLM可以给出关于该信息点的详情信息。这种使用方式比较灵活,因为并没有使用PDF上的文本对模型进行训练就可以实现文档上的信息点问答。本节介绍的Chain也比较常用,它涉及到了嵌入(embedding)和向量存储(vector store)。

(笔者注:embedding指的是将一个实体映射到高维空间,以高维向量的形式存储,以最大限度地capture其信息,自然语言处理使用embedding方式表示单词,即词向量。自然语言处理语境下,embedding都指的是word embedding词嵌入)

首先是一个简单的例子:
在这里插入图片描述
在这里插入图片描述
下面解释了一下底层原理:

LLM‘s on Documents 文档上的大语言模型

在这里插入图片描述
由于最大token数限制,LLM最多只能一次性处理几千个token。因而如果有一个文档级别的信息(远大于几千token),LLM没办法直接处理,因而引入词嵌入(embedding)和向量存储(vector store)来解决这个问题

在这里插入图片描述

Embedding 词嵌入

  • 嵌入向量捕捉上下文/含义
  • 相似(指语义相似)内容地文本对应相似的向量

如下图:句子1)和2)语义相似,因而它们的表示向量也相似。
在这里插入图片描述
因而我们可以使用表示向量的相似程度来判定两句话的相似程度,在回答文档上的问题时,先找出和提问相似的信息,作为输入喂给LLM,期望LLM能根据相似信息做出解答。

(笔者注:事实上,LLM内部就是将文本转化为词向量(tokenizer)来处理的,直接以向量形式存储节省了文本到向量的转化步骤。)

Vecotor Database 向量数据库

在这里插入图片描述
在这里插入图片描述
当一个查询输入时,先将其向量化,然后跟向量数据库里面的所有项对比,找出最相似的n项。
在这里插入图片描述
查询结果放入输入的上下文中喂给LLM,得到回复。

下面分步解释过程:
在这里插入图片描述
使用CSVLoader对象loader加载一个csv文件,里面存放了户外服装相关信息,打印第一行信息如上图。

因为文本量比较少,不需要分块,因而可以直接创建embedding,查看一个embedding(其实是一组词向量):
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
上述过程可以使用RetrievalQA chain轻松实现:
在这里插入图片描述
在这里插入图片描述

Stuff method 原材料方法

在这里插入图片描述
原材料是最简单的方法,只需要将所有的原始数据放到prompt中作为上下文喂给语言模型。
优点:只需调用一次LLM。LLM可以一次性访问所有数据。
缺点:LLM有上下文长度,对于大型文档或者多个文档超过上下文长度时无法生效。

additional methods 额外方法

在这里插入图片描述
Map_reduce:将文档每一个块和提问一起输入一个LLM中,汇总所有LLM结果,再使用一个LLM处理拿到最终答案。
(很有效,可以处理任意数量的文档,还可以并行,但很贵,且独立对待每一个文档,即忽略了文档之间的关联性)

在这里插入图片描述
Refine:从一个块和LLM中得到回复之后,再把结果作为下一轮的输出,不断优化到最后一个块,得到最终结果。
(好处时考虑了文档之间的关联性,和map_reduce代价相同)

在这里插入图片描述
Map_rank:处理所有块,给每一个块和LLM的结果打分,选一个分最高的作为最终结果。
(需要LLM有能力给结果打分,和map_reduce代价相同,也没有考虑文档之间的关联性)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/884233.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

redis事务对比Lua脚本区别是什么

redis官方对于lua脚本的解释:Redis使用同一个Lua解释器来执行所有命令,同时,Redis保证以一种原子性的方式来执行脚本:当lua脚本在执行的时候,不会有其他脚本和命令同时执行,这种语义类似于 MULTI/EXEC。从别…

SABO-ELM电力负荷短期预测,MATLAB代码

关于电力负荷预测,后台留言的呼声很高。今天就为大家带来一期关于电力负荷预测的文章。 简介 简单说一下本期内容: ①对电力负荷数据进行处理 ②采用极限学习机(ELM)对电力负荷数据进行训练和预测 ③采用减法平均优化器算法优化极限学习机的权值阈值&…

【Linux命令详解 | du命令】 du命令用于查看文件或目录的磁盘使用情况,帮助管理存储空间。

文章标题 简介一,参数列表二,使用介绍1. 基本用法2. 以人类可读的格式显示大小3. 显示总计磁盘使用量4. 包括每个文件的大小5. 限制显示的目录深度6. 排除特定文件或目录7. 指定块大小总结 简介 在Linux操作系统中,存储空间管理是至关重要的…

docker打包运行中的容器,生成镜像文件保存到本地

因为想着方便部署,将所有没问题的项目容器打包成镜像,走到哪儿都离线安装自动部署。 第一步先把运行中的容器打包成镜像 docker commit 运行中容器id 像打包成的镜像名称第二步将大象装进冰箱,不好意思说错了,把镜像保存到本地 …

spring框架核心技术讲解--超详细教程加案例分析

目录 一.spring简介 1.1 含义: 1.2 优点 1.3 官方网站:Spring | Why Springhttps://spring.io/why-spring 二.spring 控制反转IOC(依赖注入)的特点 2.1 控制反转是什么 2.2 案例(讲解控制反转) 三.sprin…

35_windows环境debug Nginx 源码-CLion配置CMake和启动

文章目录 生成 CMakeLists.txt 组态档35_windows环境debug Nginx 源码-CLion配置CMake和启动生成 CMakeLists.txt 组态档 修改auto目录configure文件,在 . auto/make 上边增加 . auto/cmake, 大概在 106 行。在 auto 目录下创建cmake 文件其内容如下: #!/usr/bin/env bash NG…

BLIP-Diffusion

论文大意 BLIP2 结合 Stable Diffusion,实现 主题驱动的图像生成与编辑。 分为两个阶段: 1.BLIP2 的multimodal encoder 输出与 text对齐的 visual representation; 2.上述生成的 特征 与 text embedding 共同引导 Stable Diffusion 的生…

Object 类的常见方法

文章目录 一、对象创建和销毁方法:二、对象信息获取方法:三、对象比较方法:四、线程相关方法:五、锁相关方法:六、使用案例:1、对象创建和销毁方法:2、对象信息获取方法:3、对象比较…

使用Python调用Java的jar包

当使用JPype时,你可以按照以下步骤调用Java的JAR包: 1. 安装JPype库: 你可以使用pip来安装JPype库,运行以下命令: pip install JPype1 2. 导入JPype库并启动JVM: 在Python中导入JPype库…

C++_深究继承

文章目录 1. 继承的概念和定义1.1 继承的概念1.2 继承定义1.2.1定义格式1.2.2 继承关系和访问限定符 2. 基类和派生类对象赋值转换3.继承中的作用域4. 派生类的默认成员函数5. 继承和友元6. 继承与静态成员7. 菱形继承即菱形虚拟继承菱形虚拟继承 8. 继承的总结与反思 1. 继承的…

scope(三)

前面两节讲了没有scoped的可以直接修改,现在讨论下把scoped这个属性去掉会是怎么样 1.准备的两个页面 放置的两个时间属性。 2.有hash值的页面 3.对比:另外的页面 可以看出只修改了当前页面的值 4.去掉scoped对比 两个页面多发生了更改,scoped对当前的页面起到一个保护的作用…

C++ primer 3.1节 课后练习

练习1.9 编写程序&#xff0c;使用while循环将50到100的整数相加。 #include <iostream> using namespace std; int main(){int i50,sum0;while (i < 100) {sum sum i;i;}cout << sum;return 0; } 练习1.10: 除了运算符将运算对象的值增加1之外&#xff0c…

mac 可以进行单片机(stm32)的开发吗?

当涉及到在Mac上进行单片机开发时&#xff0c;是完全可行的。以下是为什么Mac适合单片机开发的解释&#xff1a;开发工具&#xff1a;针对STM32单片机&#xff0c;你可以使用多种开发工具。一个常用的选择是Segger Embedded Studio&#xff0c;它是一个功能强大的集成开发环境&…

Windows系统提权(一)

权限提升概述 windows系统常见的权限&#xff1a; 用户权限 管理员权限 系统权限 访客权限 什么是提权 权限提升&#xff08;privilege escalation&#xff09;&#xff1a;攻击者通过安全漏洞把获取到的受限制的低权限用户突破限制&#xff0c;提权到高权限的管理员用户&…

opentcs初次运行

openTCS简介 openTCS是一个开放的交通控制系统&#xff0c;可以实现机器人的任务分配、路径规划、调度等一系列的功能&#xff0c;也有相应的仿真平台&#xff0c;既可以使用该软件及仿真平台进行基本的任务分配、路径规划等操作&#xff0c;也可以基于该平台进行二次开发&…

机器学习重要内容:特征工程之特征抽取

目录 1、简介 2、⭐为什么需要特征工程 3、特征抽取 3.1、简介 3.2、特征提取主要内容 3.3、字典特征提取 3.4、"one-hot"编码 3.5、文本特征提取 3.5.1、英文文本 3.5.2、结巴分词 3.5.3、中文文本 3.5.4、Tf-idf ⭐所属专栏&#xff1a;人工智能 文中提…

2023“钉耙编程”联赛 Day 3 L 题 Inference 题解

原题描述 给定 m m m 个特征&#xff0c;你想基于大量的数据,再通过 Alice \text{Alice} Alice 的前 m − 1 m−1 m−1 个特征的值推断出她的最后一个特征的值。 特征之间的关系可以表示为一个有向无环图&#xff0c;其中一个节点 A A A 指向一个节点 B B B 表示 B B B…

Python基础语法入门(第二十天)——文件操作

一、基础内容 在Python中&#xff0c;路径可以以不同的表现形式进行表示。以下是一些常用的路径表现形式&#xff1a; 1. 绝对路径&#xff1a;它是完整的路径&#xff0c;从根目录开始直到要操作的文件或文件夹。在Windows系统中&#xff0c;绝对路径以盘符开始&#xff0c;…

Linux系列讲解 —— FTP协议的应用

简单介绍一下FTP文件传输协议在linux系统中的应用。 目录 0. 基本概念1. FTP Server1.1 安装FTP Server1.2 FTP Server开启和关闭1.3 查看FTP Server是否开启1.4 FTP服务器配置 2. FTP Client2.1 lftp2.2 ftp2.3 sftp2.4 文件资源管理器集成的ftp和sftp 3. ftp常用命令 0. 基本…

【C++11保姆级教程】auto和decltype

文章目录 前言总结一、auto1.初识auto关键字 2.auto使用二、decltype1.初识decltype2.使用decltype 总结 前言 在C11中引入了一些新的关键字和特性&#xff0c;其中包括auto和decltype。这两个关键字提供了更方便、更灵活的类型推断机制&#xff0c;使得代码编写更加简洁和可读…