大模型什么时候应该进行微调

news2025/2/25 8:26:30

经常会遇到一个问题——LinkedIn 上的人们问我如何微调 LLaMA 等开源模型,试图找出销售 LLM 托管和部署解决方案的业务案例的公司,以及试图利用人工智能和大模型应用于他们的产品。但当我问他们为什么不想使用像 ChatGPT 这样的闭源模型时,他们并没有真正的答案。因此,我决定以一个每天应用大模型来解决业务问题的人的身份来写这篇文章。

封闭 API 的案例

您是否尝试过为您的用例实现 ChatGPT API?也许您想总结文档或回答问题,或者只是想在您的网站上安装聊天机器人。通常,您会发现 ChatGPT 在多语言任务上表现得相当不错。

人们普遍认为这些模型太贵了。但以 0.002 美元/1K 代币的价格,我打赌您至少可以在 100 个样本上尝试一下,并评估 LLM 是否适合您的特定应用程序。事实上,在每天数千次 API 调用或在该范围内的情况下,ChatGPT API 的成本比我在本博客中所写的自定义开源模型的托管基础设施便宜得多。

一种说法是,假设您想要回答有关数千或数万份文档的问题。在这种情况下,仅根据此数据训练或微调开源模型并向微调模型询问有关此数据的问题不是更容易吗?事实证明,这并不像听起来那么简单(出于多种原因,我将在下面有关微调数据的标签部分中讨论)。

但 ChatGPT 有一个简单的解决方案可以回答包含数千个文档的上下文中的问题。它基本上是将所有这些文档作为小文本块存储在数据库中。

现在,向模型提供所有必要信息以回答问题的问题已从模型架构转移到包含文档块的数据库。

然后可以通过计算问题和文档块之间的相似性来找到相关文档。这通常是通过将块和问题转换为词嵌入向量,并计算块和问题之间的余弦相似度,最后仅选择高于特定余弦相似度的那些块作为相关上下文来完成的。

最后,问题和上下文可以组合成如下提示,并输入 LLM API(如 ChatGPT):

Prompt= f"回答问题。上下文: {context} \\n 问题: {question} "

您可能会问 - 为什么不将整个文档和问题输入提示中,而不是将其分成多个块?我们将文档分成块而不是将所有文档合并到一个提示中的原因是因为 LLM 对最大输入和输出长度有一定的限制。对于 ChatGPT,这是 4096 个令牌,或者大约 6-7 页文本。

当答案明显存在于这些文档中时,将文档卸载到数据库并使用封闭的 LLM API 进行查询可能会很有效。但在很多情况下,这些可能会产生次优结果,例如,如果您希望 ChatGPT 就某个利基主题提供专家观点,例如推测美国经济的财务前景。

特定领域的大模型

好的,您尝试过 ChatGPT 或 BARD — 但您不喜欢它。答案有点不对劲。例如,您询问 ChatGPT:

“美国经济的通胀可能会持续多久?”

它返回了:

作为人工智能语言模型,我无法确定地预测未来,尤其是对于复杂的经济系统。不过,我可以为您提供一些信息和观点,可能有助于您了解当前的情况。

通货膨胀是一种复杂的现象,可能由多种因素引起,例如需求增加、供应限制……。

不幸的是,这对你来说还不够好。当然,您可以向 ChatGPT 提供一些有关美联储主席杰罗姆·鲍威尔声明的最新消息。但这并不能为您提供与您交谈时所获得的同样丰富的领域经验 - 好吧,杰罗姆·鲍威尔,还有谁!或者另一位专家。

想想成为某个领域的专家需要什么。虽然其中一部分是阅读有关该主题的书籍,但也有很多是与该领域的主题专家互动,并从经验中学习。虽然 ChatGPT 接受过大量金融书籍的培训,但它可能还没有接受过顶级金融专家或其他特定领域专家的培训。那么如何才能让大模型成为金融领域的“专家”呢?这就是微调的用武之地。

大模型微调

在讨论微调 LLM 之前,我们先谈谈微调像 BERT 这样的小型语言模型,这在 LLM 之前很常见。对于像 BERT 和 RoBERTa 这样的模型,微调相当于传递一些上下文和标签。任务定义明确,例如从上下文中提取答案,或将电子邮件分类为垃圾邮件与非垃圾邮件。

然而,大型语言模型(LLM)之所以风靡一时,是因为它们可以通过改变你构建提示的方式无缝地执行多个任务,并且你拥有类似于与另一端的人交谈的体验。我们现在想要的是将大模型微调为某个学科的专家,并像“人”一样参与对话。这与在特定任务上微调 BERT 等模型有很大不同。

最早的开源突破之一是斯坦福大学的一组研究人员对 7B LLaMa 模型(今年早些时候由 Meta 发布)进行了微调,他们将其称为 Alpaca,在 52K 指令上的价格不到 600美元。不久之后,Vicuna团队发布了130亿参数的模型,达到了ChatGPT质量的90%。

最近,MPT-7B 转换器发布,可以摄取 65k 代币,是 ChatGPT 输入大小的 16 倍!培训从头开始,历时 9.5 天,花费 20 万美元。作为特定领域大模型的示例,彭博社发布了一个类似 GPT 的模型BloombergGPT,该模型专为金融而构建,并且也是从头开始训练的。

最近在培训和微调开源模型方面取得的进展只是中小型公司通过定制大模型丰富其产品的开始。那么,您如何决定何时需要微调或培训整个特定领域的大模型?

首先,重要的是要清楚地确定您所在领域的闭源 LLM API 的局限性,并证明让客户能够以极低的成本与该领域的专家聊天。对于十万条左右的指令来说,微调模型并不是很昂贵,但获得正确的指令需要仔细考虑。这也是你需要大胆一点的地方——我还想不出在许多领域中,经过微调的模型在特定领域的任务上表现得比 ChatGPT 明显更好,但我相信这即将到来,任何做得好的公司都会得到奖励。

这让我想到了从头开始完全训练大模型的案例。是的,这很容易花费数十万美元,但如果你提出一个可靠的案例,投资者会很乐意参与。在最近接受IBM 采访时,Hugging Face 首席执行官 Clem Delangue评论说,很快,定制的大模型可能会像作为专有代码库很常见,也是在行业中保持竞争力的重要组成部分。

要点

应用于特定领域的大模型在行业中可能非常有价值。有增加成本和可定制性的 3 个级别:

  1. 闭源 API + 文档嵌入数据库:第一个解决方案可能是最容易上手的,考虑到 ChatGPT API 的高质量 - 甚至可能为您提供足够好的(如果不是最好的)性能。而且很便宜!

  2. 微调 LLM:微调 LLaMA 类模型的最新进展表明,在某些领域获得类似于 ChatGPT 的基准性能需要约 500 美元。如果您有一个包含约 50-100k 指令或对话的数据库来微调基线模型,那么这可能是值得的。

  3. 从头开始训练:正如 LLaMA 和更新的 MPT-7B 模型所示,这需要大约 100-200k 的成本,并且需要一两周的时间。

现在您已经掌握了知识 - 继续构建您的自定义领域特定 LLM 应用程序!

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1842017.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

真空玻璃可见光透射比检测 玻璃制品检测 玻璃器皿检测

建筑玻璃检测 防火玻璃、钢化玻璃、夹层玻璃、均质钢化玻璃、平板玻璃、中空玻璃、真空玻璃、镀膜玻璃夹丝玻璃、光栅玻璃、压花玻璃、建筑用U形玻璃、镶嵌玻璃、玻璃幕墙等 工业玻璃检测 钢化安全玻璃、电加温玻璃、玻璃、半钢化玻璃、视镜玻璃、汽车安全玻璃、汽车后窗电热…

智慧油品营销调度大屏可视化应用

图扑应用自研 HT 搭建的 2D 智慧油品营销调度中心大屏展示模块主要以综合业务支撑平台为架构,全方位展示公司主要概况、业务运行、管理服务等多项内容,在内外部交流和品牌管理提升等方面发挥了积极作用。

接口提示信息国际化, 调用LibreTranslate 离线翻译, 国际化支持

文章目录 背景实现方式步骤下载并部署离线翻译服务;前端接入 背景 将接口返回内容进行翻译, 以适配多语言需求; 实现方式 前端拦截接口返回内容, 调用离线翻译服务进行翻译, 翻译之后再进行相应的提示 参考资料: 离线翻译服务: https://github.com/LibreTranslate/LibreTra…

Spring Boot 3 整合 SpringDoc OpenAPI 生成接口文档

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

Go 内存模型与分配机制

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

亚马逊测评怎么赚钱,其他跨境电商平台也可以测评吗?

跨境电商平台我们应该都知道,有Amazon(亚马逊)、eBay、全球速卖通(AliExpress)、Wish、Shopee、Lazada、阿里巴巴国际站、沃尔玛、敦煌、希音、temu、独立站等 近几年国内电商行业市场饱和,竞争大利润低&a…

【机器学习】使用Python实现图神经网络(GNN):图结构数据的分析与应用

🔥 个人主页:空白诗 文章目录 一、引言二、图神经网络的基础知识1. 图的基本概念和术语2. 传统的图分析方法3. 图神经网络的基本原理4. GNN的基本模型 三、主要的图神经网络模型1. 图卷积网络(Graph Convolutional Network, GCN)2…

“拥堵的6·18”一去不返,快递业终于“松了一口气”?

一年一度的电商“618”大促已然步入尾声。 与往年不同的是,今年自4月起,天猫、京东、快手等主流平台相继官宣取消预售。自此,今年的“618”成了首个取消预售的大促节。只是,有的平台取消了“预售制”,却新增了“仅退款…

巡检机器人智能联网,促进工厂自动化

随着工业4.0和智能制造的快速发展,企业引入自动化设备和智能机器人以提高生产效率和降低人工成本已成为大势所趋。其中,巡检机器人作为一种能够在复杂和危险环境中进行自动巡检的设备,受到了广泛关注。如何实现巡检机器人稳定、安全的联网是每…

Nature将大罢工!或将致Nature创刊155年首次发生缺刊!

Nature要罢工了! 这两天一则爆炸性新闻袭击了学术界,根据英国National Union of Journalists(NUJ,全国记者工会)发布的信息。Nature期刊的编辑们将于2024年6月20日起举行罢工。 而那一天正是Nature最新一期发布的日子…

Wireshark v4 修改版安装教程(免费开源的网络嗅探抓包工具)

前言 Wireshark(前称Ethereal)是一款免费开源的网络嗅探抓包工具,世界上最流行的网络协议分析器!网络封包分析软件的功能是撷取网络封包,并尽可能显示出最为详细的网络封包资料。Wireshark网络抓包工具使用WinPCAP作为…

调教NewspaceGPT之GPT4o实战

NewspaceGPT地址:https://newspace.ai0.cn 需求一:我需要一个创意logo 我的问题 我觉得我的描述对一个设计人员来说时精准的,但是不具体的。 需求描述:我需要一个logo。 表现司法公正和司法数字化,人工智能化 。 Ne…

电路分析期末总结笔记下

对称三相电路的线电流和相电流,线电压和相电压关系 相电压与线电压的关系 线电压定义:任意两相之间的电压称为线电压,常用符号V_L表示。 相电压定义:一相绕组两端的电压称为相电压,常用符号V_P表示。 关系&#xff1…

微信聊天记录导出为电脑文件实操教程(附代码)

写在前面 最近,微信中加的群有点多,信息根本看不过来。如果不看,怕遗漏了有价值的信息;如果一条条向上翻阅,实在是太麻烦。 有没有办法一键导出所有聊天记录? 一来翻阅更方便一点,二来还可以…

深入了解Redis的TYPE命令

Redis作为一个高性能的内存数据库,支持多种数据结构。在管理和操作Redis数据库时,了解键对应的数据类型是至关重要的。本文将深入探讨Redis的TYPE命令,它用于返回存储在指定键中的值的数据类型。 什么是TYPE命令? TYPE命令用于查…

Zynq学习笔记--了解中断配置方式

目录 1. 简介 2. 工程与代码解析 2.1 Vivado 工程 2.2 Vitis 裸机代码 2.3 关键代码解析 3. 总结 1. 简介 Zynq 中的中断可以分为以下几种类型: 软件中断(Software Generated Interrupt, SGI):由软件触发,通常…

CTF-pwn-虚拟化-【d3ctf-2021-d3dev】

文章目录 参考流程附件检查启动信息逆向分析漏洞查看设备配置信息exp 参考 https://x1ng.top/2021/11/26/qemu-pwn/ https://bbs.kanxue.com/thread-275216.htm#msg_header_h1_0 https://xz.aliyun.com/t/6562?time__1311n4%2BxnD0DRDBAi%3DGkDgiDlhjmYh2xuCllx7whD&alic…

[Linux] Shell

chsh不是一种sh,而是一个命令行使用程序,用于更改默认shell CentOS是个开源软件,没有sh,sh是商业版的, 按ls /bin/*sh显示的sh实际上是个链接文件,连接的bash 在命令行输入新的sh名,会启动一个新的进程, 输…

计算机网络知识点汇总

计算机网络知识点汇总 第1章计算机网络体系结构 1.1 计算机网络概述 1.1.1 计算机网络的概念 ​ 计算机网络是由若干个结点(node)和连接这些结点的链路(link)组成。网络中的结点可以是就三级、集线器、交换机、或者路由器等,网络之间通过路由器进行互联&#xf…

【Java】已解决java.sql.SQLException异常

文章目录 一、分析问题背景二、可能出错的原因三、错误代码示例四、正确代码示例五、注意事项 已解决java.sql.SQLException异常 在Java中,java.sql.SQLException是一个通用的异常类,用于表示在数据库操作中发生的错误。无论是类型错误、数据类型不匹配…