吴恩达LangChain教程：Embedding与文档解析

当前有很多应用想要实现根据文档或者文本内容实现用户问答，或者实现多轮会话能力，这时候就会使用到Embedding的能力。

01 | 使用类介绍

想要依据Embedding实现文本检索，需要引入如下的依赖。

其中，RetrievalQA的作用是对一些文档进行检索，CSVLoader将用于加载一些我们与LLM结合的以CSV格式存在的专有数据，DocArrayInMemorySearch是一种向量存储，也是一种内存中的向量存储，不需要连接到任何外部数据库。

案例中提供了一个户外服装数据的CSV，使用CSVLoader实现数据加载。

然后引入VectorstoreIndexCreator实现简单的创建向量存储的能力。创建代码如下：

相当简单的就创建了一个内存的向量存储，这时候就可以直接提问了。

如果要展示结果，可以用如下的MarkDown格式进行数据展示。

使用如上的命令，我们可以拿到所有具有防晒功能的衣服合集，并且还有一个LLM提供的简洁概要。

02 | Embedding

我们的目标很明确，就是要将LLM与我们的文档进行结合，但是LLM每次只能检查几千个词或者说Token，但是面对大量的文本数据，我们这时候就需要Embedding和向量存储来实现我们的需求功能了。

Embedding可以认为是一组文本用向量表征的值，如果两个词或者两段文本之间的向量距离比较小（或者说比较接近），我们就说这两个文本或者词语之间含义接近，这就能够让我们能够在向量空间中比较文本片段。

如图所示，前两个句子都是讨论宠物的内容，在向量距离上比较接近，第三句话是讨论汽车的内容，和前两句话相关性较小。

因此，使用向量存储和向量比较，我们可以快速找到相似含义的文本片段，在考虑传递给LLM以回答问题的文本片段时非常有用。

03 | Vector Database

一个向量数据库是存储我们在前一步中创建的这些向量表示的一种方式，我们创建这个向量数据库的方式是将其中的文本块填充为来自输入文档的块。

当我们获得一个大的输入文档时，我们首先要将其分解为较小的块，这有助于创建比原始文档更小的文本片段，这个对于我们帮助很大，因为我们可能无法将整个文档传递给语言模型。我们可以通过分解后较小的块，让我们只传递与提问最为相关的部分给到语言模型。

我们为每个这些块创建一个Embedding，并将其存储在向量数据库中，这个就是创建索引时发生的情况。

利用这个向量数据库，当一个查询进来时，我们首先为该查询创建一个Embedding，然后将其与向量数据库中所有向量进行比较，并选择最为相似的前N个，然后将其返回作为提示传递给LLM，以获得最终的答案。

04 | 向量数据库与LLM结合

上面介绍了向量库，实际上还是要和我们的LangChain结合，实现我们需要的功能。

和之前的逻辑一样，我们先使用CSVLoader将我们的csv格式的文件进行加载，之后我们就可以使用docs[n]查看第n个产品的详细信息。

上面的文档已经比较小了，因此，案例中并没有给到切分的逻辑，而是直接执行下一步的Embedding，实际上，切分逻辑也比较简单，只需要按照合适的大小，对超过大小的内容进行切分为不同的多个块即可。

上图就是案例中的Embedding的代码逻辑，其中的len(embed)就是查看每个文本的向量化阶，案例中表示的是，每个文本使用了1536个浮点数的向量值组成的向量进行表征。

这时候，我们将我们传入的csv文件进行Embedding：

在这里插入图片描述

这样，向量存储库就已经创建完成，我们就可以使用这个向量库根据查询返回对应文本片段。

如上我们可以使用向量库的相似查询，根据用户的提问，返回含义很是接近的4个文本数据。

如果我们想要使用LangChain实现向量查询的能力，首先我们需要从这个向量存储创建一个检索器。检索器是一个通用接口，可以由接受查询并返回文档的任何方法支持。向量存储和Embedding就是这样一种方法，尽管有很多不同的方法，有些不太先进，有些更先进。

如果我们执行如下的命令：

qdocs="".join([docs[i].page_content for i in range(len(docs))])

我们会将文档中所有的页面内容连接到一个变量中，然后将这个变量或者问题的变体进行传递，例如，请在表格中列出所有的搜索，并使用markdown将每个搜索汇总到语言模型中。

在这里插入图片描述

这时候我们打印出结果就可以看到完全符合我们要求的表格数据。

因此，所有这些步骤都可以用LangChain封装。

在这里插入图片描述

或者，我们可以直接使用Chain的方式进行输出：

Map_reduce方法基本上需要所有的块，将它们与问题一起传递给语言模型，返回响应，然后使用另一个语言模型调用将所有单个响应汇总为最终答案。

Map-reduce最大的魅力就是，他可以对任意数量的文档进行操作，只要能够切分，并且切分后的文档意义完整即可，甚至可以并行处理问题，但是也存在一定的问题，那就是需要更多的调用，并且需要将所有的文档视为独立的，这可能并不总是最理想的事情。

refine精炼

还有一种方式就是精炼refine，也是用于循环遍历许多文档，但它实际上是迭代进行的，它建立在上一份文件的答案之上，这对于组合信息和随着时间的推移建立答案非常有用。

正因为是串行，因此，它通常需要更长的执行时间，并且基本上需要和map-redu ce差不多的调用。

Map-rerank

Map-rerank是一个非常有趣并且更具实验性的工具，可以对每个文档的LLM执行一次调用，还可以要求它返回一个分数，并且选择最高分。但是这依赖于LLM知道分数应该是多少，因此，需要在prompt中告知LLM，如果它和文档相关并真正完善，它应该是一个高分之类的说明。

05 | 小结

Embedding主要是在LangChain比较繁琐的应用开发领域使用，主要应用有两个：

与大文本相关的领域应用，比如说文本理解或者文档问答；
多轮会话，如果想要保留用户的历史所有会话内容，那么可以根据用户当前的提问从向量数据库中获取最为相关的N条问题以及回复，来实现更为有效的会话实现。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述