垂直领域的大模型应该如何构建？RAG还是微调呢？

垂直领域的大模型应该是2024年乃至未来五年内人工智能发展的热门所在。那么该如何构建？是RAG（Retrieval Augmentation Generation，检索增强生成）还是微调（Fine Tuning）。最近微软出了一篇论文《RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASE STUDY ON AGRICULTURE》（《RAG 与微调：管道、权衡和农业案例研究》），这篇论文着重在农业大模型的构建，非常具有实操性。如果意在构建垂直领域大模型，建议各位仔细阅读该论文。我们接下来围绕论文内容做一些介绍，供各位从参考。

论文摘要

在构建大型语言模型（LLM）应用程序时，开发人员可以通过两种常见方式整合专有数据和特定于领域的数据：检索增强生成（RAG）和微调。RAG使用外部数据增强提示，而微调则将其他知识合并到模型本身中。然而，这两种方法的优缺点尚不清楚。论文提出了一个用于微调和 RAG 的管道，并介绍了多种流行的 LLM（包括 Llama2-13B、GPT-3.5 和 GPT-4）的两者的权衡。我们的流程由多个阶段组成，包括从 PDF 中提取信息、生成问题和答案、使用它们进行微调，以及利用 GPT-4 评估结果。我们提出了一些指标来评估 RAG 和微调管道不同阶段的性能。我们对农业数据集进行了深入研究。农业作为一个行业，人工智能的渗透率并不高，我们研究了一种潜在的颠覆性应用——如果我们能为农民提供特定地理位置（Specific Location）的见解会怎样？我们的结果显示了我们的数据集生成管道在捕获特定地理知识方面的有效性，以及 RAG 和微调的定量和定性优势。在微调模型时，我们看到精度提高了6 个百分点以上（6 p.p），并且再进行RAG，它进一步提高了 5 个百分点的准确性（5 p.p）。在一个特定的实验中，我们还证明了微调模型利用来自不同地理位置的信息来回答特定问题，将答案相似度从 47% 提高到 72%。总体而言，研究结果指出了如何使用LLM构建的系统进行调整，以响应和整合对特定行业至关重要的维度上的知识，为LLM在其他工业领域的进一步应用铺平了道路。

介绍

在过去的几年里，人工智能和自然语言处理取得了重大进展，导致了强大的大型语言模型（LLM）的发展，例如GPT。驱动 LLM 的技术，包括先进的深度学习技术、大规模转换器和海量数据，推动了它们的快速发展。OpenAI的GPT-4 和Meta的Llama 2 等模型在众多任务和领域中表现出卓越的性能，通常没有特定的提示。这些模型超越了它们的前辈，在编码、医学、法律、农业和心理学等各个领域都具有巨大的潜力，非常接近人类水平的专业知识。随着大语言模型研究的继续，标识它们的局限性并应对开发更全面的通用人工智能（AGI）系统的挑战至关重要。此外，机器学习社区必须超越传统的基准数据集，并以与人类认知能力评估非常相似的方式评估大语言模型。

各行各业都在尝试用AI Copilot，正在改变企业运营和与环境互动的方式。这些由 LLM 提供支持的 AI Copilot在数据处理和决策过程起到一定的帮助。例如，在医疗保健领域，AI Copilot被用于预测患者风险并提高诊断准确性。在制造业中，它们有助于提高运营效率、减少停机时间和提高产品质量。在金融领域，AI Copilot有助于欺诈检测、风险管理和投资决策。通过利用AI Copilot的力量，各行各业可以推动创新、优化性能并获得竞争优势。

尽管取得了这些进步，但由于缺乏专门的训练数据，人工智能在农业等特定领域的应用仍然受到限制。虽然人工智能已被用于从农业中的卫星图像和传感器数据中获得见解，该技术仍在慢慢被农民采用。虽然 GPT-4 和 Bing 是查找信息的强大工具，但它们可能无法为对作物和牲畜有非常具体问题的农民提供最佳解决方案。这些问题通常需要了解当地条件、特定品种和最新数据，而这些数据可能无法通过一般搜索引擎轻松获得。例如，Table 1比较了 GPT-4 和一位农艺师专家对美国三个不同州提出的同一查询的答案。虽然专家会根据各州特定的气候和农业传统提供情境化的答案，但大语言模型提供了一个通用的答案，虽然正确，但对每个州来说并不像专家答案那样精确。

论文介绍了一个新的重点：为需要按照特定情景响应的行业（例如农业行业）创建AI Copilot。我们提出了一个全面的 LLM 管道，以生成高质量的、特定于行业的问题和答案。这种方法涉及一个系统的过程，包括确定和收集涵盖广泛农业主题的相关文档。然后对这些文档进行清理和结构化，以便于利用基本 GPT 模型生成有意义的问答对（Q&A Pairs）。随后根据其质量对生成的问答对进行评估和过滤。研究的目标是为特定行业创造宝贵的知识资源，并以农业为案例研究，最终为这一关键领域的发展做出贡献。

旨在生成特定领域的问题和答案的Pipeline，可以满足行业中的专业人士和利益相关者的需求，在这个行业中，Copilot的答案预计将以相关的行业特定因素为基础。就农业研究而言，研究的目标是产生针对特定地理位置的答案。为此，我们的出发点是一个农业数据集，它被输入到三个主要组成部分：问答生成、检索增强生成（RAG）和微调过程。Q&A 生成根据农业数据集中可用的信息创建问答对，而 RAG 则将其用作知识源。然后，对生成的数据进行细化并用于微调多个模型，同时使用建议的指标组合评估其质量。通过这种综合方法，我们的目标是利用法学硕士的力量造福农业及其利益相关者。

这篇论文的主要贡献：

LLMs的综合评估：在回答农业相关问题时，我们对包括LlaMa2-13B、GPT-4和Vicuna在内的大型语言模型进行了广泛的评估，这通过主要农业生产国的基准数据集来完成评估。评估包括完整的微调和 RAG 管道，每个管道都有自己的一组指标。这次评估的结果为理解这些模型在农业领域应用的性能提供了重要的基线。此外，论文还进行了评估，展示了空间转移对现有LM编码的知识的影响，以及空间范围微调提供的改进。论文研究表明，GPT-4 的表现一直优于其他模型，但需要考虑与其微调和推理相关的成本。
检索技术和微调的影响：我们研究了检索技术和微调对LLM性能的影响。该研究表明，RAG和微调都是提高LLM性能的有效技术。 RAG在数据与上下文相关的情况下被证明非常有效，例如在农场数据的解释中，同时也导致了比基础模型更简洁的响应。另一方面，微调被发现有助于向模型传授特定于农业领域的新技能，并提供更精确和简洁的响应。然而，由于需要大量工作来微调新数据的模型，因此初始成本很高，这是一个重要的考虑因素。
对 LLM 在不同行业的潜在用途的影响：这项研究是建立 RAG 和微调技术在 LLM 中应用管道的开创性一步，促进了多个行业的创新和合作。我们最初将重点放在农业上，展示了这些策略如何从问答生成过程开始产生更有效的模型。这项研究获得的见解可以应用于其他领域，有可能为各种应用开发更有效的人工智能模型。例如，一个潜在的应用可能是为不同行业开发人工智能副驾驶，在这些行业中，为用户查询提供准确、相关和简洁响应的能力至关重要。

方法论

该论文提出的方法是通过Pipeline来构建和评估农业领域的AI Copilot，该管道旨在生成和评估用于构建特定领域的副驾驶的问答对。具体Pipeline如下图所示：

Pipeline从数据采集开始，重点是收集与行业领域相关的多样化和精心策划的数据集（包括，美国、巴西和印度）。这包括从各种高质量的存储库（如政府机构、科学知识数据库和专有数据）中获取数据（如果需要）。第3节举例说明并进一步阐述了潜在数据来源的细节和所选文件的类型。

数据采集后，Pipeline继续从收集的文档中提取信息。此步骤至关重要，因为它涉及解析复杂和非结构化的 PDF 文件以恢复底层内容和结构，从PDF文档提取信息颇为挑战，论文作者尝试了多种开源工具（PDF2Text、PyPDF等），最终使用GROBID（GeneRation Of Bibliographic Data）开源工具，它采用强大的文本提取工具和机器学习算法来恢复文本、表格和视觉信息，同时识别文档的语义结构以及其中可能的交叉关系（如下图复杂文档利用GROBID也能够提取结构化信息）。

通过GROBID提取的结构化信息如下所示：

Pipeline的下一个组件是问答生成（Q&A Generation）。这里的目标是生成基于上下文的高质量问题，以准确反映提取文本的内容。该方法采用一个指导框架（Guidance Framework），其主要优势在于它能够对输入和输出的结构组成提供无与伦比的控制，从而增强语言模型生成响应的整体效率。这种程度的控制使输出不仅更加精确，而且表现出增强的连贯性和上下文相关性。该框架能够将生成、提示和逻辑控制合并到一个单一的统一流程中，这与语言模型文本处理的固有机制非常相似。此外，Guidance 的独特功能可以通过特定于上下文的提示来指导语言模型，有助于提高生成文本的语义相关性。以下是利用LLM产生的问题示例：

随后，Pipeline会为给定的问题生成答案。这里采用的方法利用检索-增强生成（RAG），它结合了检索和生成机制的力量来创建高质量的答案。创建向量数据库和检索是采用Facebook AI 相似性搜索（FAISS）及其similarity_search_with_score来完成，最后由LLM生成合成的答案。

最后，Pipeline使用成对的问答集微调模型，这优化过程采用了低秩适配（LoRA）等方法，并确保全面了解科学文献的内容和背景，使其成为各个领域或行业的宝贵资源。

结论

本论文旨在为评估大型语言模型（如 LLama 2、GPT-3.5 和 GPT-4）垂直领域（如解决农业复杂问题）的能力建立基准线。通过评估它们在使用 RAG 或/和微调时的表现，该研究为农业领域 LLM 的优势和局限性提供了宝贵的见解。

本论文的主要贡献包括在使用 RAG 或微调时为 LLM 建立性能基线，因为它具有不同的收益和成本。RAG 以提高大型模型的准确性而闻名，在数据与上下文相关的情况下非常有效，例如在解释农场数据时。创建嵌入（数据的向量表示）的初始成本较低，这使得 RAG 成为一个有吸引力的选择。但是，重要的是要考虑到输入token数量会增加prompt信息量，并且输出token数量往往更详细且更难控制。

另一方面，微调提供了精确、简洁的输出。它非常有效，并提供了在特定领域学习新技能的机会，例如改进作物产量预测或根据天气模式优化灌溉计划。然而，由于需要大量工作来根据新数据微调模型，因此初始成本很高。此外，微调需要最小的输入Token量，使其成为处理大型数据集的更有效的选择。

这项研究也是建立在各种LLM中应用RAG和微调技术的Pipeline的开创性一步，从而实现了跨多个行业的创新和协作。通过最初对农业的关注，论文已经展示了这些策略如何从问答生成过程开始产生更有效的模型。

在这项研究中，论文还展示了如何利用结构化文档理解，以及 GPT-4 生成问题和 RAG 生成答案，为特定行业的数据集生成相关的问题和答案。生成的问题与它们所衍生的各个部分高度具体，并且该模型能够利用整个文本来生成有见地和全面的答案。这篇论文的探索表明，单独生成问题和答案可以有效地使用Token，从而为问答对的每个组件使用不同的模型或方法开辟了可能性。论文还提出了一系列指标来正确评估生成的问题相对于原始文档中包含的信息的质量，并展示了用于衡量 RAG 生成答案质量的多个指标。

尽管 GPT-4 的表现一直优于其他模型，但与其微调和推理相关的成本不容忽视，这是一个需要考虑的重要权衡。总之，虽然RAG和微调都是有效的技术，但它们的适用性将取决于具体应用、数据集的性质和大小以及可用于模型开发的资源。尽管如此，这项工作为进一步研究如何最好地结合这两种方法以及进一步探索行业特定 LLM 应用程序的数据集生成管道铺平了道路。作为未来的工作，进一步研究微调模型获得的知识类型将很重要，更多的研究是如何改进从文档中提取的结构化，并在使用 LLM 开发系统时利用。另一个令人兴奋的方向是如何将带有图像和标题的PDF文档结构抽取出有用的信息，以实现多模态微调。