垂直领域的大模型应该如何构建?RAG还是微调呢?

news2024/10/17 19:35:01

垂直领域的大模型应该如何构建?RAG还是微调呢?

垂直领域的大模型应该是2024年乃至未来五年内人工智能发展的热门所在。那么该如何构建?是RAG(Retrieval Augmentation Generation,检索增强生成)还是微调(Fine Tuning)。最近微软出了一篇论文《RAG VS FINE-TUNING: PIPELINES, TRADEOFFS, AND A CASE STUDY ON AGRICULTURE》(《RAG 与微调:管道、权衡和农业案例研究》),这篇论文着重在农业大模型的构建,非常具有实操性。如果意在构建垂直领域大模型,建议各位仔细阅读该论文。我们接下来围绕论文内容做一些介绍,供各位从参考。

论文摘要

在构建大型语言模型 (LLM) 应用程序时,开发人员可以通过两种常见方式整合专有数据和特定于领域的数据:检索增强生成 (RAG) 和微调。RAG使用外部数据增强提示,而微调则将其他知识合并到模型本身中。然而,这两种方法的优缺点尚不清楚。论文提出了一个用于微调和 RAG 的管道,并介绍了多种流行的 LLM(包括 Llama2-13B、GPT-3.5 和 GPT-4)的两者的权衡。我们的流程由多个阶段组成,包括从 PDF 中提取信息、生成问题和答案、使用它们进行微调,以及利用 GPT-4 评估结果。我们提出了一些指标来评估 RAG 和微调管道不同阶段的性能。我们对农业数据集进行了深入研究。农业作为一个行业,人工智能的渗透率并不高,我们研究了一种潜在的颠覆性应用——如果我们能为农民提供特定地理位置(Specific Location)的见解会怎样?我们的结果显示了我们的数据集生成管道在捕获特定地理知识方面的有效性,以及 RAG 和微调的定量和定性优势。在微调模型时,我们看到精度提高了6 个百分点以上(6 p.p),并且再进行RAG,它进一步提高了 5 个百分点的准确性(5 p.p)。在一特定的实验中,我们还证明了微调模型利用来自不同地理位置的信息来回答特定问题,将答案相似度从 47% 提高到 72%。总体而言,研究结果指出了如何使用LLM构建的系统进行调整,以响应和整合对特定行业至关重要的维度上的知识,为LLM在其他工业领域的进一步应用铺平了道路。

介绍

在过去的几年里,人工智能和自然语言处理取得了重大进展,导致了强大的大型语言模型 (LLM) 的发展,例如GPT。驱动 LLM 的技术,包括先进的深度学习技术、大规模转换器和海量数据,推动了它们的快速发展。OpenAI的GPT-4 和Meta的Llama 2 等模型在众多任务和领域中表现出卓越的性能,通常没有特定的提示。这些模型超越了它们的前辈,在编码、医学、法律、农业和心理学等各个领域都具有巨大的潜力,非常接近人类水平的专业知识。随着大语言模型研究的继续,标识它们的局限性并应对开发更全面的通用人工智能(AGI)系统的挑战至关重要。此外,机器学习社区必须超越传统的基准数据集,并以与人类认知能力评估非常相似的方式评估大语言模型。

各行各业都在尝试用AI Copilot,正在改变企业运营和与环境互动的方式。这些由 LLM 提供支持的 AI Copilot在数据处理和决策过程起到一定的帮助。例如,在医疗保健领域,AI Copilot被用于预测患者风险并提高诊断准确性。在制造业中,它们有助于提高运营效率、减少停机时间和提高产品质量。在金融领域,AI Copilot有助于欺诈检测、风险管理和投资决策。通过利用AI Copilot的力量,各行各业可以推动创新、优化性能并获得竞争优势。

尽管取得了这些进步,但由于缺乏专门的训练数据,人工智能在农业等特定领域的应用仍然受到限制。虽然人工智能已被用于从农业中的卫星图像和传感器数据中获得见解,该技术仍在慢慢被农民采用。虽然 GPT-4 和 Bing 是查找信息的强大工具,但它们可能无法为对作物和牲畜有非常具体问题的农民提供最佳解决方案。这些问题通常需要了解当地条件、特定品种和最新数据,而这些数据可能无法通过一般搜索引擎轻松获得。例如,Table 1比较了 GPT-4 和一位农艺师专家对美国三个不同州提出的同一查询的答案。虽然专家会根据各州特定的气候和农业传统提供情境化的答案,但大语言模型提供了一个通用的答案,虽然正确,但对每个州来说并不像专家答案那样精确

img

论文介绍了一个新的重点:为需要按照特定情景响应的行业(例如农业行业)创建AI Copilot。我们提出了一个全面的 LLM 管道,以生成高质量的、特定于行业的问题和答案。这种方法涉及一个系统的过程,包括确定和收集涵盖广泛农业主题的相关文档。然后对这些文档进行清理和结构化,以便于利用基本 GPT 模型生成有意义的问答对(Q&A Pairs)。随后根据其质量对生成的问答对进行评估和过滤。研究的目标是为特定行业创造宝贵的知识资源,并以农业为案例研究,最终为这一关键领域的发展做出贡献。

旨在生成特定领域的问题和答案的Pipeline,可以满足行业中的专业人士和利益相关者的需求,在这个行业中,Copilot的答案预计将以相关的行业特定因素为基础。就农业研究而言,研究的目标是产生针对特定地理位置的答案。为此,我们的出发点是一个农业数据集,它被输入到三个主要组成部分:问答生成、检索增强生成 (RAG)和微调过程。Q&A 生成根据农业数据集中可用的信息创建问答对,而 RAG 则将其用作知识源。然后,对生成的数据进行细化并用于微调多个模型,同时使用建议的指标组合评估其质量。通过这种综合方法,我们的目标是利用法学硕士的力量造福农业及其利益相关者。

这篇论文的主要贡献:

  • LLMs的综合评估:在回答农业相关问题时,我们对包括LlaMa2-13B、GPT-4和Vicuna在内的大型语言模型进行了广泛的评估,这通过主要农业生产国的基准数据集来完成评估。评估包括完整的微调和 RAG 管道,每个管道都有自己的一组指标。这次评估的结果为理解这些模型在农业领域应用的性能提供了重要的基线。此外,论文还进行了评估,展示了空间转移对现有LM编码的知识的影响,以及空间范围微调提供的改进。论文研究表明,GPT-4 的表现一直优于其他模型,但需要考虑与其微调和推理相关的成本。
  • 检索技术和微调的影响:我们研究了检索技术和微调对LLM性能的影响。该研究表明,RAG和微调都是提高LLM性能的有效技术。 RAG在数据与上下文相关的情况下被证明非常有效,例如在农场数据的解释中,同时也导致了比基础模型更简洁的响应。另一方面,微调被发现有助于向模型传授特定于农业领域的新技能,并提供更精确和简洁的响应。然而,由于需要大量工作来微调新数据的模型,因此初始成本很高,这是一个重要的考虑因素。
  • 对 LLM 在不同行业的潜在用途的影响:这项研究是建立 RAG 和微调技术在 LLM 中应用管道的开创性一步,促进了多个行业的创新和合作。我们最初将重点放在农业上,展示了这些策略如何从问答生成过程开始产生更有效的模型。这项研究获得的见解可以应用于其他领域,有可能为各种应用开发更有效的人工智能模型。例如,一个潜在的应用可能是为不同行业开发人工智能副驾驶,在这些行业中,为用户查询提供准确、相关和简洁响应的能力至关重要。

方法论

该论文提出的方法是通过Pipeline来构建和评估农业领域的AI Copilot,该管道旨在生成和评估用于构建特定领域的副驾驶的问答对。具体Pipeline如下图所示:

img

Pipeline从数据采集开始,重点是收集与行业领域相关的多样化和精心策划的数据集(包括,美国、巴西和印度)。这包括从各种高质量的存储库(如政府机构、科学知识数据库和专有数据)中获取数据(如果需要)。第3节举例说明并进一步阐述了潜在数据来源的细节和所选文件的类型。

数据采集后,Pipeline继续从收集的文档中提取信息。此步骤至关重要,因为它涉及解析复杂和非结构化的 PDF 文件以恢复底层内容和结构,从PDF文档提取信息颇为挑战,论文作者尝试了多种开源工具(PDF2Text、PyPDF等),最终使用GROBID(GeneRation Of Bibliographic Data)开源工具,它采用强大的文本提取工具和机器学习算法来恢复文本、表格和视觉信息,同时识别文档的语义结构以及其中可能的交叉关系(如下图复杂文档利用GROBID也能够提取结构化信息)。

img

通过GROBID提取的结构化信息如下所示:

img

Pipeline的下一个组件是问答生成(Q&A Generation)。这里的目标是生成基于上下文的高质量问题,以准确反映提取文本的内容。该方法采用一个指导框架(Guidance Framework),其主要优势在于它能够对输入和输出的结构组成提供无与伦比的控制,从而增强语言模型生成响应的整体效率。这种程度的控制使输出不仅更加精确,而且表现出增强的连贯性和上下文相关性。该框架能够将生成、提示和逻辑控制合并到一个单一的统一流程中,这与语言模型文本处理的固有机制非常相似。此外,Guidance 的独特功能可以通过特定于上下文的提示来指导语言模型,有助于提高生成文本的语义相关性。以下是利用LLM产生的问题示例:

img

随后,Pipeline会为给定的问题生成答案。这里采用的方法利用检索-增强生成 (RAG),它结合了检索和生成机制的力量来创建高质量的答案。创建向量数据库和检索是采用Facebook AI 相似性搜索 (FAISS)及其similarity_search_with_score来完成,最后由LLM生成合成的答案。

img

最后,Pipeline使用成对的问答集微调模型,这优化过程采用了低秩适配 (LoRA) 等方法,并确保全面了解科学文献的内容和背景,使其成为各个领域或行业的宝贵资源。

结论

本论文旨在为评估大型语言模型(如 LLama 2、GPT-3.5 和 GPT-4)垂直领域(如解决农业复杂问题)的能力建立基准线。通过评估它们在使用 RAG 或/和微调时的表现,该研究为农业领域 LLM 的优势和局限性提供了宝贵的见解。

本论文的主要贡献包括在使用 RAG 或微调时为 LLM 建立性能基线,因为它具有不同的收益和成本。RAG 以提高大型模型的准确性而闻名,在数据与上下文相关的情况下非常有效,例如在解释农场数据时。创建嵌入(数据的向量表示)的初始成本较低,这使得 RAG 成为一个有吸引力的选择。但是,重要的是要考虑到输入token数量会增加prompt信息量,并且输出token数量往往更详细且更难控制。

另一方面,微调提供了精确、简洁的输出。它非常有效,并提供了在特定领域学习新技能的机会,例如改进作物产量预测或根据天气模式优化灌溉计划。然而,由于需要大量工作来根据新数据微调模型,因此初始成本很高。此外,微调需要最小的输入Token量,使其成为处理大型数据集的更有效的选择。

这项研究也是建立在各种LLM中应用RAG和微调技术的Pipeline的开创性一步,从而实现了跨多个行业的创新和协作。通过最初对农业的关注,论文已经展示了这些策略如何从问答生成过程开始产生更有效的模型。

在这项研究中,论文还展示了如何利用结构化文档理解,以及 GPT-4 生成问题和 RAG 生成答案,为特定行业的数据集生成相关的问题和答案。生成的问题与它们所衍生的各个部分高度具体,并且该模型能够利用整个文本来生成有见地和全面的答案。这篇论文的探索表明,单独生成问题和答案可以有效地使用Token,从而为问答对的每个组件使用不同的模型或方法开辟了可能性。论文还提出了一系列指标来正确评估生成的问题相对于原始文档中包含的信息的质量,并展示了用于衡量 RAG 生成答案质量的多个指标。

尽管 GPT-4 的表现一直优于其他模型,但与其微调和推理相关的成本不容忽视,这是一个需要考虑的重要权衡。总之,虽然RAG和微调都是有效的技术,但它们的适用性将取决于具体应用、数据集的性质和大小以及可用于模型开发的资源。尽管如此,这项工作为进一步研究如何最好地结合这两种方法以及进一步探索行业特定 LLM 应用程序的数据集生成管道铺平了道路。作为未来的工作,进一步研究微调模型获得的知识类型将很重要,更多的研究是如何改进从文档中提取的结构化,并在使用 LLM 开发系统时利用。另一个令人兴奋的方向是如何将带有图像和标题的PDF文档结构抽取出有用的信息,以实现多模态微调。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2209533.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Springboot 整合 Java DL4J 实现医学影像诊断功能

🧑 博主简介:历代文学网(PC端可以访问:https://literature.sinhy.com/#/literature?__c1000,移动端可微信小程序搜索“历代文学”)总架构师,15年工作经验,精通Java编程,…

PDF 转 CAD 工具:实现文档格式高效转换的利器

音频创作已经变得越来越普及啦,这就导致我们需要一款音乐软件来进行音频创作。作为刚入门的新手我比较推荐使用免费的音频剪辑软件来开启音乐之门。所以今天我们就一同来探讨有什么好用的音频剪辑工具吧。

【在Linux世界中追寻伟大的One Piece】信号捕捉|阻塞信号

目录 1 -> 信号捕捉初识 2 -> 阻塞信号 2.1 -> 信号其他相关常见概念 2.2 -> 在内核中的表示 2.3 -> sigset_t 2.4 -> 信号集操作函数 2.5 -> sigprocmask 2.6 -> sigpending 3 -> 捕捉信号 3.1 -> 内核如何实现信号的捕捉 3.2 ->…

以JavaScript的学习角度看Axios,并以spring boot+vue3为例具体分析实现

什么是Axios Axios 是一个基于 Promise 的 HTTP 客户端,用于在浏览器和 后端 中发送异步的 HTTP 请求。它功能强大、易用,常用于与 API 交互,发送 GET、POST、PUT、DELETE 等请求。 Axios 的主要特点: 支持 Promise Axios 基于 …

【数据结构笔记】搜索树

二叉搜索树 任一节点x的左/右子树中,所有非空节点均不大于(不小于)x 必须是所有的非空节点,仅左右孩子不够(左孩子的右孩子可能很大)一棵二叉树是二叉搜索树当且仅当中序遍历序列是单调非降序列 两棵二叉…

在电脑上免费压缩视频的 16 个视频压缩软件

正在寻找适用于 Windows 或 Mac 的最佳视频压缩器,让您轻松压缩 MP4、AVI、MKV、MOV 和更多类型的文件?无论您是通过社交媒体与朋友分享视频录制、释放手机空间,还是通过邮件发送长 MP4 视频,都必须使用付费或免费视频压缩软件来压…

2013年国赛高教杯数学建模D题公共自行车服务系统解题全过程文档及程序

2013年国赛高教杯数学建模 D题 公共自行车服务系统 公共自行车作为一种低碳、环保、节能、健康的出行方式,正在全国许多城市迅速推广与普及。在公共自行车服务系统中,自行车租赁的站点位置及各站点自行车锁桩和自行车数量的配置,对系统的运行…

提升邮件营销设计精准度秘诀,效率与效果实践

邮件营销通过确定目标群体、数据分析、邮件设计、测试优化、保持频率时效性及结合其他渠道实现精准营销,提高市场效益。ZohoCampaigns集成CRM、自动化功能和客户细分提升效果。 1、确定目标群体 精准营销的第一步是了解并确定你的目标群体。标定目标群体包括年龄、…

SpringSecirity(四)——用户退出

因为JWT是无状态的,去中心化的,在服务器端无法清除,服务器一旦进行颁发,就只能等待自动过期 才会失效,所以需要redis配合才能完成登录状态的记录。 实现思路: 登录后在redis中添加一个白名单,把…

信息系统运维管理方案,运维建设文档,运维平台建设方案,软件硬件中间件运维方案,信息安全管理(原件word,PPT,excel)

建设方案目录: 1、智慧运维系统建设背景 2、智慧运维系统建设目标 3、智慧运维系统建设内容 4、智慧运维系统建设技术 5、智慧运维系统建设流程 6、智慧运维系统建设收益 企业对运维管理的需求: 1、提高运维效率:降低运维成本,提高…

威纶通触摸屏与三菱FX5u之间 EtherNet/IP无线以太网通信方案

在实际系统中,同一个车间里分布多台PLC,由触摸屏集中控制。通常所有设备距离在几十米到上百米不等。在有通讯需求的时候,如果布线的话,工程量较大且不美观,这种情况下比较适合采用无线通信方式。本方案以威纶通触摸屏和…

Python数据分析-Scipy科学计算法

1.认识Scipy SciPy(发音为 "Sigh Pie")是一个开源的 Python 算法库和数学工具包。 通常与 NumPy、Matplotlib 和 pandas 等库一起使用,这些库共同构成了 Python 的科学计算基础。 2.使用Scipy基本函数 2.1 引用Scipy函数 impor…

vue+echarts实现雷达图及刻度标注

文章目录 前言代码实现实现效果总结 前言 最近项目有做数据可视化 大屏 不免再次使用些echarts应用 记录下其中echarts雷达图的实现 代码实现 先上代码 <template><div class"container"><div ref"chart" style"width: 500px; heig…

【Spring AI】Java实现类似langchain的向量数据库RAG_原理与具体实践

介绍一下RAG&#xff1a; 检索增强生成&#xff08;RAG&#xff09;是一种技术&#xff0c;它结合了检索模型和生成模型来提高文本生成的质量。通过从企业私有或专有的数据源中检索相关信息&#xff0c;并将这些信息与大型语言模型相结合&#xff0c;RAG能够显著减少模型产生幻…

如何建立高质量的谷歌外链?

想做谷歌seo&#xff0c;外链是绝对绕不开的一个门槛&#xff0c;外链对网站的流量和SEO表现有很大帮助&#xff0c;正常途径想建立高质量外链需要策略和技巧&#xff0c;内容平台和博客是获取外链的好地方。在这些平台上发布文章并嵌入外链&#xff0c;不仅可以展示你的专业能…

删除链表的倒数第 N 个结点 | LeetCode-19 | 双指针 | 递归 | 栈 | 四种方法

&#x1f64b;大家好&#xff01;我是毛毛张! &#x1f308;个人首页&#xff1a; 神马都会亿点点的毛毛张 这道题还可以用递归法&#xff0c;你想到了吗&#xff1f;毛毛张介绍四种方法 LeetCode链接&#xff1a;19. 删除链表的倒数第 N 个结点 1.题目描述 给你一个链表&a…

《Linux从小白到高手》综合应用篇:深入理解Linux进程调优

本篇深入介绍Linux进程调优. 1. Linux系统进程类型&#xff1a; Linux的进程可能有成千上万个&#xff1a; ‌新建状态‌&#xff1a;进程刚刚被创建&#xff0c;但尚未运行。 ‌就绪状态‌&#xff1a;进程已经准备好运行&#xff0c;等待CPU分配。 ‌运行状态‌&#xff1…

解读 AI 获客关键要素,开启营销新未来

​在当今数字化浪潮席卷的时代&#xff0c;企业获客的难度与日俱增&#xff0c;传统方式逐渐力不从心。而 AI 获客宛如一颗璀璨的新星&#xff0c;为企业带来全新的机遇。 AI 获客凭借人工智能强大的数据分析能力&#xff0c;能从海量数据中精准挖掘出目标客户。其优势显著&…

C语言题目练习2

前面我们知道了单链表的结构及其一些数据操作&#xff0c;今天我们来看看有关于单链表的题目~ 移除链表元素 移除链表元素&#xff1a; https://leetcode.cn/problems/remove-linked-list-elements/description/ 这个题目要求我们删除链表中是指定数据的结点&#xff0c;最终返…

虹科应用 | 15分钟部署CAN记录仪,节省95%成本的秘诀是什么?

欢迎关注虹科&#xff0c;为您提供最新资讯&#xff01; 导读 虹科CSS的CANedge数据记录仪专为汽车和工业领域的工程师设计&#xff0c;旨在通过监控现场资产来支持研发、诊断和预测性维护。为了将这些数据转化为直观的可视化信息&#xff0c;工程师们通常依赖于Grafana仪表板…