读懂RAG理论到实践

news2025/1/14 18:40:32

目录

  • LLM面临的问题
  • RAG
    • 数据准备阶段
    • 检索生成阶段
  • RAG实战
    • 数据准备阶段
      • 数据提取
      • 数据清洗
        • 补充:去除停用词
      • 分块(Chunking)
        • 分块的方法
          • 固定大小分块
          • Sentence splitting(句分割)
          • 递归分割
        • 补充:特殊分块
      • 向量化(embedding)

LLM面临的问题

在大语言模型(LLM)飞速发展的今天,LLMs 正不断地充实和改进我们周边的各种工具和应用。如果说现在基于 LLM 最火热的应用技术是什么,**检索增强生成(RAG,Retrieval Augmented Generation)**技术必占据重要的一席。

RAG 最初是为了解决 LLM 的各类问题的产生的,但后面大家发现在现阶段的很多企业痛点上,使用RAG好像是更好的解决方案。在介绍 RAG 之前,我们先来看一下现在LLM存在的问题。

尽管LLM拥有令人印象深刻的能力,但是它们还面临着一些问题和挑战:

  • 幻觉问题:大模型的底层原理是基于概率,在没有答案的情况下经常会胡说八道,提供虚假信息。

  • 时效性问题:规模越大(参数越多、tokens 越多),大模型训练的成本越高。类似 ChatGPT3.5,起初训练数据是截止到 2021 年的,对于之后的事情就不知道了。而且对于一些高时效性的事情,大模型更加无能为力,比如帮我看看今天晚上有什么电影值得去看?这种任务是需要去淘票票、猫眼等网站先去获取最新电影信息的,大模型本身无法完成这个任务。

  • 数据安全:OpenAI 已经遭到过几次隐私数据的投诉,而对于企业来说,如果把自己的经营数据、合同文件等机密文件和数据上传到互联网上的大模型,那想想都可怕。既要保证安全,又要借助 AI 能力,那么最好的方式就是把数据全部放在本地,企业数据的业务计算全部在本地完成。而在线的大模型仅仅完成一个归纳的功能,甚至,LLM 都可以完全本地化部署。

解决这些挑战对于 LLMs 在各个领域的有效利用至关重要。一个有效的解决方案是集成检索增强生成(RAG)技术,该技术通过获取外部数据来响应查询来补充模型,从而确保更准确和最新的输出。主要表现方面如下:

  • 有效避免幻觉问题:虽然无法 100% 解决大模型的幻觉问题,但通过 RAG 技术能够有效的降低幻觉,在软件系统中结合大模型提供幂等的API接口就可以发挥大模型的重要作用。

  • 经济高效的处理知识&开箱即用:只需要借助信息检索和向量技术,将用户的问题和知识库进行相关性搜索结合,就能高效的提供大模型不知道的知识,同时具有权威性

  • 数据安全:企业的数据可以得到有效的保护,通过私有化部署基于 RAG 系统开发的AI产品,能够在体验AI带来的便利性的同时,又能避免企业隐私数据的泄漏。

RAG

RAG 是检索增强生成(Retrieval Augmented Generation )的简称,它为大语言模型 (LLMs) 提供了从数据源检索信息的能力,并以此为基础生成回答。

简而言之,RAG 结合了信息检索技术和大语言模型的提示功能,即模型根据搜索算法找到的信息作为上下文来查询回答问题。无论是查询还是检索的上下文,都会被整合到发给大语言模型的提示中。

RAG 的架构如图中所示。完整的 RAG 应用流程主要包含两个阶段:

在这里插入图片描述
数据准备阶段:(A)数据提取–> (B)分块(Chunking)–> (C)向量化(embedding)–> (D)数据入库

检索生成阶段:(1)问题向量化–> (2)根据问题查询匹配数据–> (3)获取索引数据 --> (4)将数据注入Prompt–> (5)LLM生成答案

数据准备阶段

数据准备一般是一个离线的过程,主要是将私有数据向量化后构建索引并存入数据库的过程。主要包括:数据提取、数据清洗、文本分割、向量化、数据入库等环节。

  1. 数据提取:将 PDF、word、markdown、数据库和API等多种格式的数据,进行过滤、压缩、格式化等处理为同一个范式。

  2. 分块(Chunking):将初始文档分割成一定大小的块,尽量不要失去语义含义。将文本分割成句子或段落,而不是将单个句子分成多部分。有多种文本分割器实现能够完成此任务。比如根据换行、句号、问号、感叹号等切分文本,或者以其他的合适大小的 chunk 为原则进行分割。最终将语料分割成 chunk 块,在检索时会取相关性最高的 top_n。

  3. 向量化(embedding):将文本数据转化为向量矩阵的过程,该过程会直接影响到后续检索的效果。常用的 embedding 模型:moka-ai/m3e-base、GanymedeNil/text2vec-large-chinese,也可以参考 Hugging Face 推出的嵌入模型排行榜 MTEB Leaderboard。

  4. 数据入库:数据向量化后构建索引,并写入向量数据库的过程可以概述为数据入库,适用于 RAG 场景的向量数据库包括:facebookresearch/faiss(本地)、Chroma、Elasticsearch、Milvus 等。一般可以根据业务场景、硬件、性能需求等多因素综合考虑,选择合适的数据库。

检索生成阶段

在应用阶段,根据用户的提问,将提问问题向量化处理,然后通过高效的检索方法,从向量数据库中召回与提问最相关的知识,并融入 Prompt,大模型参考当前提问和相关知识,生成相应的答案。

关键环节包括:数据检索、Rerank、注入 Prompt 等。

  1. 数据检索:常见的数据检索方法包括:相似性检索、全文检索等。以及可以结合多种检索方式,提升召回率。

    • 相似性检索:即计算查询向量与所有存储向量的相似性得分,返回得分高的记录。常见的相似性计算方法包括:余弦相似性、欧氏距离、曼哈顿距离等。

    • 全文检索:全文检索是一种比较经典的检索方式,在数据存入时,通过关键词构建倒排索引;在检索时,通过关键词进行全文检索,找到对应的记录。

    • RAG 文本检索环节中的主流方法是相似性检索(向量检索),即语义相关度匹配的方式。想了解更多检索方式和检索的优化请查看文章,综述等文章。

  2. rerank:我们可以在许多文本文档中执行语义搜索,相关文档可能有数万到数百亿个。但由于大语言模型对于传递文本量有限制,我们需要对文档质量进行排序,然后返回top-k文档用于下一步检索生成。在重排器中,给定查询和文档对,将输出相似性得分。我们使用这个分数根据与我们的查询的相关性对文档进行重新排序。

    在这里插入图片描述

  3. 注入 Prompt:Prompt 作为大模型的直接输入,是影响模型输出准确率的关键因素之一。在 RAG 场景中,Prompt 一般包括任务描述、背景知识(检索得到)、任务指令(一般是用户提问)等,根据任务场景和大模型性能,也可以在 Prompt 中适当加入其他指令优化大模型的输出。一个简单知识问答场景的 Prompt 如下所示:

    def question_answering(context, query):
    prompt = f"""
                Give the answer to the user query delimited by triple backticks ```{query}```\
                using the information given in context delimited by triple backticks ```{context}```.\
                If there is no relevant information in the provided context, try to answer yourself, 
                but tell user that you did not have any relevant context to base your answer on.
                Be concise and output the answer of size less than 80 tokens.
                """
    
    response = get_completion(instruction, prompt, model="gpt-3.5-turbo")
    answer = response.choices[0].message["content"]
    return answer
    

    Prompt 的设计只有方法、没有语法,比较依赖于个人经验,在实际应用过程中,往往需要根据大模型的实际输出进行针对性的 Prompt 调优。

    在这里插入图片描述

RAG实战

数据准备阶段

数据提取

我们准备一个PDF作为RAG的知识库,并且通过OCR等技术将其内容提取出来,保存到txt文件中备用,具体方法可以参考:python操作PDF中各类文本内容的方法。

或者也可以直接下载一个txt作为知识库,比如:西游记txt下载

在这里插入图片描述

import os
# pdf_parser是我另一篇文章的pdf解析器
from pdf_parser import PDFParser

def parse(filepath:str):
    # 已经解析过的不做二次解析
    if os.path.exists(filepath):
        return

    parser = PDFParser("F:\\Model\\GOT-OCR2_0", filepath)
    with open("result.txt","w",encoding="utf-8") as f:
        f.write(parser.parse().result)

于是我们得到了一个最原始的知识库:

在这里插入图片描述

数据清洗

在获取数据后,需要进行数据清洗和预处理工作,以确保数据一致性和高质量。这个步骤的目标是去除噪声数据、冗余数据,并确保数据格式适合后续处理。

  • 去重:确保文档内容没有重复,避免在检索阶段返回多个相同的结果。
  • 去噪:清理文档中的无关信息,如广告、版权声明、无效字符等。
  • 结构化与格式化:将数据转换为统一的格式,常见的格式包括纯文本、JSON、CSV等。如果是HTML等网页数据,需要提取出有效内容并去除标签。
  • 语言处理:如果系统处理的是多语言数据,可能需要进行分词、语言检测、翻译等工作,确保生成模型能够处理并理解这些内容。

由于西游记是中文著作,因此一些英文字符就是无效字符,再去除掉额外空白字符即可:

def clean(filepath:str):
    content = []

    with open(filepath, "r", encoding="utf-8") as f:
        for line in f:
            # 清除空白字符
            line = line.strip()
            # 删除英文字符
            new_line = ""
            for char in line:
                if char.isascii():
                    continue
                new_line += char

            if new_line!="":
                content.append(new_line)

    with open(filepath, "w", encoding="utf-8") as f:
        f.write("\n".join(content))

在这里插入图片描述

补充:去除停用词

去除停用词(Stop Words Removal)是自然语言处理中的一个常见预处理步骤。停用词通常是对语义贡献较小的高频词(如 “the”, “is”, “at”, “which”),去除这些词可以帮助减少文本的冗余,提升文本表示的有效性。

下面详细介绍如何在 Python 中去除停用词,并列举几种常用的库和方法。

  1. 使用 NLTK 去除停用词

    NLTK 是 Python 中著名的自然语言处理库,它自带了英文的停用词列表,当然你也可以自定义列表。可以通过以下步骤去除文本中的停用词:

    import nltk
    from nltk.corpus import stopwords
    from nltk.tokenize import word_tokenize
    
    # 下载停用词列表
    nltk.download('stopwords')
    nltk.download('punkt')
    
    # 获取英文停用词表
    stop_words = set(stopwords.words('english'))
    
    # 你的文本
    text = "This is a sample sentence, showing off the stop words filtration."
    
    # 分词
    words = word_tokenize(text)
    
    # 去除停用词
    filtered_sentence = [w for w in words if not w.lower() in stop_words]
    
    print(filtered_sentence)
    

    解释:

    • stopwords.words('english'):获取英文停用词表。
    • word_tokenize:对文本进行分词。
    • 过滤逻辑:通过列表推导式,过滤掉在停用词表中的单词。

    输出结果:

    ['This', 'sample', 'sentence', ',', 'showing', 'stop', 'words', 'filtration', '.']
    
  2. 使用 SpaCy 去除停用词

    SpaCy 是另一个流行的自然语言处理库,它内置了更加丰富的语言模型和停用词列表。你可以通过以下方式去除停用词:

    import spacy
    
    # 加载语言模型
    nlp = spacy.load("en_core_web_sm")
    
    # 你的文本
    text = "This is a sample sentence, showing off the stop words filtration."
    
    # 处理文本
    doc = nlp(text)
    
    # 去除停用词
    filtered_sentence = [token.text for token in doc if not token.is_stop]
    
    print(filtered_sentence)
    

    解释:

    • is_stop:判断每个词是否为停用词,True 表示停用词,False 表示非停用词。
    • 语言模型:SpaCy 使用预训练语言模型,可以根据不同语言提供对应的停用词表。

    输出结果:

    ['This', 'sample', 'sentence', ',', 'showing', 'stop', 'words', 'filtration', '.']
    
  3. 使用 Gensim 去除停用词

    Gensim 是一个专注于主题建模和文档相似度的库,它同样提供了内置的停用词表。

    from gensim.parsing.preprocessing import remove_stopwords
    
    # 你的文本
    text = "This is a sample sentence, showing off the stop words filtration."
    
    # 去除停用词
    filtered_sentence = remove_stopwords(text)
    
    print(filtered_sentence)
    

    解释:

    • remove_stopwords:Gensim 提供的简单方法,可以从文本中直接去除停用词。

    输出结果:

    'This sample sentence, showing stop words filtration.'
    
  4. 自定义停用词列表

    你可以根据具体的任务场景自定义停用词列表,以满足不同领域的需求。例如,在某些场景下,特定的高频词(如 “data”, “model”)可能需要被去除。

    # 自定义停用词表
    custom_stop_words = ["sample", "showing", "off"]
    
    # 你的文本
    text = "This is a sample sentence, showing off the stop words filtration."
    
    # 分词
    words = word_tokenize(text)
    
    # 去除自定义停用词
    filtered_sentence = [w for w in words if not w.lower() in custom_stop_words]
    
    print(filtered_sentence)
    

    输出结果:

    ['This', 'is', 'a', 'sentence', ',', 'the', 'stop', 'words', 'filtration', '.']
    
  5. 其他语言的停用词

    不同的库通常也支持多语言的停用词。例如,在 NLTK 中,你可以通过以下方式获取不同语言的停用词表:

    # 法语的停用词表
    french_stopwords = set(stopwords.words('french'))
    print(french_stopwords)
    

    你也可以通过 SpaCy 加载不同语言的模型,并获取对应的停用词表。

  • NLTKSpaCy 都非常适合处理复杂的文本清洗和停用词去除任务。它们提供了现成的停用词表,并支持多语言处理。
  • Gensim 提供了更加简化的停用词去除方法,适合处理较为基础的任务。
  • 你也可以自定义停用词表,根据不同的应用场景对文本进行更精细化的清理。

去除中文停用词与英文类似,也可以通过分词和停用词表来实现。不过由于中文的特殊性(如没有空格区分单词),首先需要对中文文本进行分词。在中文自然语言处理中,常用的分词工具是 Jieba,同时,我们也可以使用常见的中文停用词表进行过滤。

  1. 中文停用词表的准备

    中文停用词表可以从一些公共的停用词列表获取,例如中文 NLP 研究中常用的停用词表。这些表格通常包含大量常见的无意义词语,如 “的”, “是”, “在” 等。

    以下代码展示了如何加载中文停用词列表和使用 Jieba 进行分词,再去除停用词。

  2. 使用 Jieba 和停用词表去除中文停用词

    • 安装 Jieba

      如果还没有安装 Jieba,可以通过以下命令安装:

      pip install jieba
      
    • 中文停用词去除示例代码

      import jieba
      
      # 加载停用词表
      def load_stopwords(filepath):
          with open(filepath, 'r', encoding='utf-8') as file:
              stopwords = set([line.strip() for line in file.readlines()])
          return stopwords
      
      # 假设我们有一个停用词表文件 stopwords.txt
      stopwords = load_stopwords("stopwords.txt")
      
      # 示例文本
      text = "这是一个用于测试停用词去除的简单例子。我们希望去除其中的无意义词语。"
      
      # 使用 Jieba 进行分词
      words = jieba.lcut(text)
      
      # 去除停用词
      filtered_words = [word for word in words if word not in stopwords]
      
      # 输出结果
      print("原始文本:", text)
      print("去除停用词后的文本:", " ".join(filtered_words))
      
    • 2.3 停用词表的格式
      停用词表通常是一个文本文件,每行一个词。例如:

      的
      是
      在
      ...
      

    输出结果:

    原始文本: 这是一个用于测试停用词去除的简单例子。我们希望去除其中的无意义词语。
    去除停用词后的文本: 测试 停用词 去除 简单 例子 希望 去除 无意义 词语
    
  3. 常见的中文停用词表来源

    • 百度停用词表:百度 NLP 开发的中文停用词表,内容覆盖广泛。
    • 哈工大停用词表:哈尔滨工业大学发布的中文停用词表,也是许多中文 NLP 项目中常用的选择。
    • SCU 停用词表:四川大学发布的中文停用词表。

    你可以从网络上获取这些停用词表并加载使用。

  4. 改进和定制化

    如果你有特定的领域需求,可以在通用停用词表的基础上添加删除词语,形成一个更符合你应用场景的停用词表。例如,你可能希望保留一些常见词汇,但在你的应用中具有特定意义的词(如“数据”,“模型”)。

  5. 处理标点符号

    你也可以在过滤停用词时同时去除标点符号。可以通过正则表达式来实现:

    import re
    import jieba
    
    # 示例文本
    text = "这是一个用于测试停用词去除的简单例子。我们希望去除其中的无意义词语。"
    
    # 使用正则表达式去除标点符号
    text = re.sub(r'[^\w\s]', '', text)
    
    # 使用 Jieba 进行分词
    words = jieba.lcut(text)
    
    # 去除停用词
    filtered_words = [word for word in words if word not in stopwords]
    
    print("去除停用词和标点符号后的文本:", " ".join(filtered_words))
    

    结果:

    去除停用词和标点符号后的文本: 测试 停用词 去除 简单 例子 希望 去除 无意义 词语
    
  6. 使用 SpaCy 处理中文

    除了 Jieba,SpaCy 也支持中文处理(通过外部模型),但是分词效果和性能上不如 Jieba。在处理中文时,Jieba 还是首选工具。

去除中文停用词的步骤:

  1. 分词:使用 Jieba 或其他分词工具将中文文本进行分词。
  2. 加载停用词表:准备一个中文停用词表。
  3. 去除停用词:通过过滤操作去除停用词表中的词汇。

Jieba 是处理中文文本的常用工具,结合停用词表和正则表达式,你可以轻松完成中文文本的清洗与预处理。如果你有更复杂的需求或想定制停用词表,也可以进行调整。

分块(Chunking)

RAG是一个考验技术的工作:RAG涉及的内容其实广泛,包括Embedding、分词分块、检索召回(相似度匹配)、chat系统、ReAct和Prompt优化等,最后还有与LLM的交互,整个过程技术复杂度很高。如果你用的LLM非常好,反而大模型这一块是你最不需要关心的。而这些环节里面我们每个都没达到1(比如0.9、0.7…),那么最终的结果可能是这些小数点的乘积。如果我们每个环节都可以做到>1.0,那么最终的结果会比上一个结果高出很多。

在构建RAG这类基于LLM的应用程序中,分块(chunking)是将大块文本分解成小段的过程。当我们使用LLM embedding内容时,这是一项必要的技术,可以帮助我们优化从向量数据库被召回的内容的准确性。

在向量数据库(如:Pinecone)中索引的任何内容都需要首先Embedding。分块的主要原因是尽量减少我们Embedding内容的噪音。

例如,在语义搜索中,我们索引一个文档语料库,每个文档包含一个特定主题的有价值的信息。通过使用有效的分块策略,我们可以确保搜索结果准确地捕获用户查询的需求本质。如果我们的块太小或太大,可能会导致不精确的搜索结果或错过展示相关内容的机会。根据经验,如果文本块尽量是语义独立的,也就是没有对上下文很强的依赖,这样子对语言模型来说是最易于理解的。因此,为语料库中的文档找到最佳块大小对于确保搜索结果的准确性和相关性至关重要。

在确定最佳分块策略时,有几个因素会对我们的选择起到至关重要的影响。以下是一些事实我们需要首先记在心里:

  1. 被索引内容的性质是什么? 这可能差别会很大,是处理较长的文档(如文章或书籍),还是处理较短的内容(如微博或即时消息)?答案将决定哪种模型更适合您的目标,从而决定应用哪种分块策略。

  2. 使用的是哪种Embedding模型,它在多大的块大小上表现最佳?例如,sentence-transformer[1]模型在单个句子上工作得很好,但像text- embedt-ada -002[2]这样的模型在包含256或512个tokens的块上表现得更好。

  3. 对用户查询的长度和复杂性有什么期望?用户输入的问题文本是简短而具体的还是冗长而复杂的?这也直接影响到我们选择分组内容的方式,以便在嵌入查询和嵌入文本块之间有更紧密的相关性。

  4. 如何在特定应用程序中使用检索结果? 例如,它们是否用于语义搜索、问答、摘要或其他目的?例如,和底层连接的LLM是有直接关系的,LLM的tokens限制会让你不得不考虑分块的大小。

没有最好的分块策略,只有适合的分块策略,为了确保查询结果更加准确,有时候我们甚至需要选择性的使用几种不同的策略。

分块的方法

分块有不同的方法,每种方法都可能适用于不同的情况,为了快速高效,我们使用langchain造好的分块轮子。

固定大小分块

这是最常见、最直接的分块方法。

我们只需决定块中的tokens的数量,以及它们之间是否应该有任何重叠。一般来说,我们会在块之间保持一些重叠,以确保语义上下文不会在块之间丢失。在大多数情况下,固定大小的分块将是最佳方式。与其他形式的分块相比,固定大小的分块在计算上更加经济且易于使用,因为它在分块过程中不需要使用任何NLP库。

from langchain.text_splitter import CharacterTextSplitter

def fixed_size_splitter(text:str):
    text_splitter = CharacterTextSplitter(
        separator = "\n\n",
        chunk_size = 256,
        chunk_overlap  = 20
    )
    docs = text_splitter.create_documents([text])
    return docs
Sentence splitting(句分割)

句分割可以确保每个生成的文本块都是一个完整的句子,保持语义的完整性和连贯性。这对于需要理解和分析文本内容的任务(如自然语言理解、问答系统等)尤为重要。

Naive splitting: 最幼稚的方法是用句号(。)和“换行”来分割句子。虽然这可能是快速和简单的,但这种方法不会考虑到所有可能的边缘情况。

def native_splitter(text:str)->list[str]:
    return text.split(".")

NLTK: 自然语言工具包(NLTK)是一个流行的Python库,用于处理自然语言数据。它提供了一个句子标记器,可以将文本分成句子,帮助创建更有意义的分块:

from langchain.text_splitter import CharacterTextSplitter,NLTKTextSplitter
def nltk_text_splitter(text:str)->list[str]:
    text_splitter = NLTKTextSplitter()
    docs = text_splitter.split_text(text)
    return docs

spaCy: spaCy是另一个用于NLP任务的强大Python库。它提供了一个复杂的句子分割功能,可以有效地将文本分成单独的句子,从而在生成的块中更好地保存上下文:

from langchain.text_splitter import CharacterTextSplitter,NLTKTextSplitter,SpacyTextSplitter
def spacy_text_splitter(text:str)->list[str]:
    text_splitter = SpacyTextSplitter()
    docs = text_splitter.split_text(text)
    return docs
递归分割

递归分块使用一组分隔符以分层和迭代的方式将输入文本分成更小的块。如果分割文本开始的时候没有产生所需大小或结构的块,那么这个方法会使用不同的分隔符或标准对生成的块递归调用,直到获得所需的块大小或结构。这意味着虽然这些块的大小并不完全相同,但它们仍然会逼近差不多的大小。

from langchain.text_splitter import CharacterTextSplitter,NLTKTextSplitter,SpacyTextSplitter,RecursiveCharacterTextSplitter
def recursive_text_splitter(text:str)->list[str]:
    text_splitter = RecursiveCharacterTextSplitter(
        # 设置一个非常小的块大小。
        chunk_size=256,
        chunk_overlap=20
    )

    docs = text_splitter.split_text(text)
    return docs
补充:特殊分块

Markdown: Markdown是一种轻量级的标记语言,通常用于格式化文本。通过识别Markdown语法(例如,标题、列表和代码块),您可以根据其结构和层次结构智能地划分内容,从而生成语义更连贯的块。例如:

from langchain.text_splitter import MarkdownTextSplitter
markdown_text = "..."

markdown_splitter = MarkdownTextSplitter(chunk_size=100, chunk_overlap=0)
docs = markdown_splitter.create_documents([markdown_text])

LaTex: LaTeX是一种文档准备系统和标记语言,通常用于学术论文和技术文档。通过解析LaTeX命令和环境,您可以创建尊重内容逻辑组织的块(例如,节、子节和方程),从而产生更准确和上下文相关的结果。例如:

from langchain.text_splitter import LatexTextSplitter
latex_text = "..."
latex_splitter = LatexTextSplitter(chunk_size=100, chunk_overlap=0)
docs = latex_splitter.create_documents([latex_text])

向量化(embedding)

Transformer 模型的输入序列长度是固定的,即使输入上下文窗口很大,用一个句子或几个句子的向量来代表它们的语义含义,通常比对几页文本进行平均向量化更为有效。因此,需要对数据进行分块处理,将文档切分成合适大小的段落,同时保持其原有意义不变(例如,将文本划分为句子或段落,而不是将单个句子切割成两部分)。市面上有多种文本分割工具可用于此任务。

需要考虑的一个参数是块的大小,这取决于你使用的嵌入模型及其处理token的能力。例如,基于BERT的标准Transformer编码器模型最多处理512个token,而OpenAI ada-002能处理更长的序列,如8191个token。但这里需要权衡的是为大语言模型提供足够上下文以进行推理,与实现高效搜索所需的足够具体的文本嵌入。

接下来的步骤是选择一个模型来嵌入这些文本块。有很多种模型可以选择,推荐使用像bge-large或E5嵌入系列这样的搜索优化模型。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2201436.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java项目实战II基于Java+Spring Boot+MySQL的作业管理系统设计与实现(源码+数据库+文档)

目录 一、前言 二、技术介绍 三、系统实现 四、文档参考 五、核心代码 六、源码获取 全栈码农以及毕业设计实战开发,CSDN平台Java领域新星创作者,专注于大学生项目实战开发、讲解和毕业答疑辅导。获取源码联系方式请查看文末 一、前言 在教育信息…

Spring Boot学习资源库:微服务架构的加速器

3 系统分析 3.1可行性分析 在进行可行性分析时,我们通常根据软件工程里方法,通过四个方面来进行分析,分别是技术、经济、操作和法律可行性。因此,在基于对目标系统的基本调查和研究后,对提出的基本方案进行可行性分析。…

网站集群批量管理-Ansible(playbook)

1.剧本概述 1. playbook 文件,用于长久保存并且实现批量管理,维护,部署的文件. 类似于脚本存放命令和变量 2. 剧本yaml格式,yaml格式的文件:空格,冒号 2. 区别 ans-playbookans ad-hoc共同点批量管理,使用模块批量管理,使用模块区别重复调用不是很方便,不容易重复场景部署服务…

视频流媒体解决方案,Liveweb国标GB28181视频监控汇聚平台

Liveweb视频监控国标平台指的是基于GB/T 28181协议的视频联网平台,可以对接各种符合国标GB/T 28181协议的视频平台、NVR录像机、网络监控摄像头、执法记录仪、应急布控球、移动单兵、无人机等设备。通过国标平台的联网,方便管理分布在不同地点的视频监控…

股指期货和股指期权有什么区别?

在金融衍生品的世界里,股权类衍生品无疑是其中的佼佼者,而股指期货和股指期权更是其中的佼佼者。尽管它们之间有着千丝万缕的联系,但它们之间的区别同样不容忽视。本文衍生股指君将详细解析股指期货和股指期权的核心区别。 一、交易的东西不…

【安装JDK和Android SDK】

安装JDK和Android SDK 1 前言2 下载2.1 下载途径2.2 JDK下载和安装2.2.1 下载2.2.2 安装并配置环境变量2.2.3 验证 2.3 SDK下载和安装2.3.1 下载2.3.2 安装2.3.3 环境变量配置2.3.4 验证 1 前言 在软件开发中,Android应用开发通常使用Android Studio,但…

进程守护化

文章目录 概念引入ps细节展示什么是进程组什么是会话细节演示有关指令的处理 用户级任务和进程组的关系关系不同 什么是守护进程如何创建守护进程 代码说明如何关闭守护进程 问题 概念引入 我们在之前的章节中已将看过进程相关的概念, 本篇介绍守护进程 进程还有进程组, 作业,…

Vue脚手架项目创建 --保姆级教程

Vue-项目创建 这里我默认已经安装好了脚手架,没装得可以看我上篇博客的安装教程。脚手架安装教程 脚手架提供了两种创建方式,我们以 vue ui 作为示例…… 1.输入 vue ui 进入图形界面进行项目配置 选择 一个你 的项目的存放路径,各自都不相…

[算法] 数组

1 二分查找 . - 力扣(LeetCode). - 备战技术面试?力扣提供海量技术面试资源,帮助你高效提升编程技能,轻松拿下世界 IT 名企 Dream Offer。https://leetcode.cn/problems/binary-search/submissions/570732311/ 前闭后闭 class …

Word 中脚注和尾注的区别有哪些?如何正确使用它们?

在撰写学术论文、报告或其他需要引用资料的文章时,脚注和尾注是两种常用的标注方法。它们不仅可以为读者提供额外的背景信息,还能帮助整理文章中的引用来源。下面我们就来详细的了解一下什么是脚注和尾注。 脚注 脚注(Footnote)…

大学离散数学:开启逻辑与思维的奇妙之旅

在大学的知识殿堂中,离散数学犹如一颗璀璨的明珠,散发着独特的魅力。 离散数学是现代数学的一个重要分支,它主要研究离散对象的结构及其相互关系。与连续数学不同,离散数学处理的是离散的、可数的对象,如整数、图、集…

Kubernetes简介与部署+Pod管理与优化

一、简介 1.基础信息 在Docker 作为高级容器引擎快速发展的同时,在Google内部,容器技术已经应用了很多年Borg系统运行管理着成干上万的容器应用。Kubernetes项目来源于Borg,可以说是集结了Borg设计思想的精华,并且吸收了Borg系统…

动态线程池设计与实现

为什么要有动态线程池 ThreadPoolExecutor 核心线程参数对某些业务不知到设置多少合适调整参数需要重新启动服务没有告警功能 设计思路 流程设计 库表抽象 更新操作流程图 代码实现 GitCode - 全球开发者的开源社区,开源代码托管平台

C++ 内部类

个人主页:Jason_from_China-CSDN博客 所属栏目:C系统性学习_Jason_from_China的博客-CSDN博客 所属栏目:C知识点的补充_Jason_from_China的博客-CSDN博客 概念概述 如果一个类定义在另一个类的内部,这个内部类就叫做内部类。内部类…

(02)python-opencv图像处理——更改颜色空间HSV

前言 1、更改颜色空间 1.1BGR 到 Gray 的示例 1.2 BGR 到 HSV 的示例: ​编辑 1.3 通过HSV进行颜色追踪 1.3.1hsv cv.cvtColor(frame, cv.COLOR_BGR2HSV) 1.3.2 BGR vs HSV: 1.3.3 为什么使用 HSV 颜色空间? 1.3.4 cv.inRange(hsv…

oracle-函数-instr()的妙用以及相似功能like

INSTR(C1,C2[,I[,J]]) 【功能】在一个字符串中搜索指定的字符,返回发现指定的字符的位置; 【说明】多字节符(汉字、全角符等),按1个字符计算 【参数】 C1 被搜索的字符串 C2 希望搜索的字符串 I 搜索的开始位置,默认为1 J 第J次出现的位置,默认为1 【…

安全帽未佩戴预警系统 劳保防护用品穿戴监测系统 YOLO

在建筑、矿山、电力等高危行业中,工人面临着各种潜在的危险,如高空坠物、物体打击等。安全帽能够有效地分散和吸收冲击力,大大降低头部受伤的严重程度。一旦工人未正确佩戴安全帽,在遭遇危险时,头部将直接暴露在危险之…

Linux网络编程 -- 网络套接字预备与udp

本文主要介绍网络编程的相关知识,在正式介绍网络编程之前,我们得先了解一些前置的知识。 1、端口号 我们上网其实就是两种动作,一个是将远处的数据拉取到本地,另一个是把我们的数据发送给远端。其实大部分的网络通信行为都是用户…

基于springboot vue3 工商局商家管理系统设计与实现

博主介绍:专注于Java(springboot ssm springcloud等开发框架) vue .net php phython node.js uniapp小程序 等诸多技术领域和毕业项目实战、企业信息化系统建设,从业十五余年开发设计教学工作☆☆☆ 精彩专栏推荐订阅☆☆☆☆…

【公共祖先】二叉树专题

里面涉及多个plus题 前言1.二叉树的最近公共祖先2.二叉搜索树的最近公共祖先3.二叉树的最近公共祖先II4.二叉树的最近公共祖先III5.二叉树的最近公共祖先IV 前言 公共祖先这一类题目,难度不大,但是非常实用,也是面试问到概率比较大的一类题目…