以小搏大:Salesforce 十亿参数模型表现超过ChatGPT

news2024/11/15 3:53:23

图片

小模型的强势崛:轻量化AI如何以高效表现撼动大型模型的统治!

©作者|DWT

来源|神州问学

导读

近年来,人工智能领域的迅猛发展使得大型语言模型(LLM)成为了焦点。这些模型,如OpenAI的GPT-4和Google的Bard,凭借着数千亿到的参数,在众多自然语言处理任务中表现出色。规模越来越大的法学硕士和日益庞大的训练数据集使得聊天机器人能够通过大学考试,甚至医学院的入学考试。总而言之,规模越大的人工智能往往能力越强。

然而,这种增长也存在弊端:随着模型规模越来越大,它们也变得越来越笨重、耗能越来越大,运行和构建也越来越困难。规模较小的模型和数据集可以帮助解决这个问题。这就是为什么人工智能开发人员,甚至是一些最大的科技公司的开发人员,都开始重新审视和重新评估小型人工智能模型。这引发了对“规模是否等同于性能”的广泛讨论。

越来越多的研究开始探索如何在减少模型参数的同时,依然保持甚至超越大型模型的性能表现。如Salesforce开发的xLAM-1B模型,尽管仅有10亿参数,却在功能调用任务中表现超越了如OpenAI的GPT-3.5 Turbo和Anthropic的Claude-3 Haiku等更大规模的模型,成为这一探索的成功范例。

图片

xLAM在伯克利函数调用排行榜的优异表现

2.  以小博大:小模型的高效表现

xLAM-1B模型的成功挑战了当前对大模型的崇拜,尤其是在功能调用任务中的卓越表现,吸引了业界的广泛关注。在功能调用这一具体任务中,xLAM-1B不仅展现出极高的准确性和响应速度,还能够在资源消耗上大幅度降低,与那些拥有数百亿甚至数千亿参数的模型相媲美甚至超越。这表明,模型的大小并非决定其性能的唯一因素,通过创新的架构设计和数据处理方法,小规模模型也能够实现与大模型同样甚至更好的效果。

具体来说,基于一系列严格的基准测试,xLAM-1B在多个功能调用任务中均表现优异。例如,在处理复杂函数调用的场景中,xLAM-1B能够准确地理解用户指令,生成合适的函数调用,而不会因为参数数量的限制而影响其对复杂任务的处理能力。此外,xLAM-1B在响应速度和计算资源的利用上也展现出明显的优势,这使得它非常适合部署在资源受限的环境中,如移动设备或边缘计算场景。

3.数据驱动的高效训练方法

图片

xLAM-1B的训练依赖于高质量的“教科书级”数据集,这些数据集是通过APIGen自动化流水线生成的。APIGen是Salesforce开发的一套先进的数据生成工具,它能够根据模型的需求自动生成多样化且高质量的数据集。具体来说,APIGen使用了21个不同类别的3673个API,生成了大量与函数调用相关的数据。这些数据集不仅涵盖了广泛的功能调用场景,还经过了严格的三阶段验证,包括格式检查、实际函数执行、语义验证,以确保数据的准确性和相关性。

通过APIGen生成的数据集,xLAM-1B模型得以在训练过程中接触到大量的高质量样本,这对于模型在功能调用任务中的表现至关重要。与传统的大模型训练方法不同,xLAM-1B更加强调数据的质量而非数量,这种数据驱动的训练方法使得模型能够在较少参数的情况下,依然具备强大的推理和处理能力。此外,APIGen的数据生成机制还支持多任务学习,即通过在多个任务上联合训练,xLAM-1B能够更好地掌握各类任务的共性,并通过任务间的相互增强提高整体性能。

更多详细内容可参考上周的:《人工数据的没落:APIGen的崛起》

4.  精细化的微调策略:优化小模型的关键

图片

AgentOhana 的工作流程。设计了一种同质多轮数据格式,用于整合来自不同数据源的异构轨迹。然后,AgentRater 评估和过滤代理轨迹。最后,流式数据加载器可以集成各种数据集,并将数据随机输入到分布式训练过程中。(https://arxiv.org/pdf/2402.15506)

xLAM-1B的训练过程使用了Salesforce开发的AgentOhana框架。AgentOhana框架是一种专门用于整合多种数据源的训练框架,它通过将不同来源的数据标准化为统一的格式,确保了模型训练数据的一致性和高质量。在微调过程中,xLAM-1B利用AgentOhana框架中的多任务学习能力,在多个任务上进行了深入的训练和优化。通过这种方式,xLAM-1B不仅能够在每个任务上表现出色,还能够通过任务间的相互影响和增强,提高整个模型的泛化能力。

此外,在具体的微调过程中,xLAM-1B还采用了QLoRA技术(Quantized Low-Rank Adaptation),这种技术能够在保持高效计算的同时,进一步优化模型的性能。QLoRA技术通过对模型参数进行量化处理,大幅减少了计算资源的消耗,使得xLAM-1B在资源有限的环境中依然能够保持较高的性能。此外,QLoRA还支持多轮迭代训练,使得模型能够在反复训练中逐步优化,从而达到最佳的性能表现。

在xLAM-1B模型的微调过程中,使用了精心设计的超参数设置,以确保模型能够在有限的资源下达到最佳性能。具体的微调策略包括:

● 学习率:微调过程中使用了5 × 10^-6的学习率,这是一个相对较小的学习率设置,能够帮助模型在优化过程中逐步收敛,避免参数调整过快导致的过拟合问题。

● 训练轮次:模型进行了四个epoch的训练。这种适中的训练轮次设置能够让模型充分学习数据中的模式,同时避免过度训练导致的性能下降。

● 优化器:使用了AdamW优化器,这是一种改进的Adam优化器,能够有效处理权重衰减问题,从而提高模型的泛化能力。

● 最大截断长度2048:这一设置允许模型处理长文本输入,确保在复杂任务中保持足够的信息容量。

● 每设备批量大小为6:这一设置平衡了计算资源与模型更新频率,确保在内存限制下有效训练。

梯度累积:通过两次梯度累积步骤,模型能够有效利用小批量数据进行训练,进一步优化计算效率。

● warmup与学习率调度:使用50步warmup与余弦学习率调度器,帮助模型在初始训练阶段逐步适应,并在训练后期保持稳定的学习率。

● BF16数据类型:采用bfloat16数据类型以提高计算效率和内存利用率,特别适合在大规模训练中使用。

这些微调策略的结合,使得xLAM-1B能够在较少的训练资源下,依然实现高效的性能表现。模型在这些参数设置下,能够在训练过程中逐步优化,最终达到卓越的表现。这一微调策略不仅提升了xLAM-1B在功能调用任务中的表现,还为未来的小型模型训练提供了重要的经验参考。

5.良好的提示工程优化:提升模型表现的利器

在xLAM-1B模型的训练过程中,Salesforce团队设计了三种关键的提示(prompt)策略,每种策略在数据生成和验证的不同阶段发挥了重要作用,确保了模型在功能调用任务中的卓越表现。

(1)首先是生成器提示(Generator Prompt):

图片

图片

这一提示主要用于引导模型生成多样化的并行函数调用数据。提示要求模型生成一组具有实际应用场景的查询和对应的函数调用答案,这些查询不仅要涵盖基本的功能调用,还应包含多个平行的查询,这些查询可以使用相同的函数但具有不同的参数,或者使用不同的函数来完成不同的任务。生成器提示的设计强调了清晰、简洁的表达,同时确保所有生成的函数调用都严格符合JSON格式,并能够有效地解决用户提出的所有请求。这种提示策略的作用在于帮助模型在生成过程中涵盖广泛的应用场景,提升了数据的多样性和实际应用价值。

(2)接下来是语义检查提示(Semantic Checker Prompt):

图片

用于验证生成的数据与用户查询的语义一致性。该提示要求模型评估生成的函数调用是否准确反映了用户查询的意图,并检查函数调用和执行结果之间的匹配程度。语义检查提示的主要作用是确保生成的数据在语义上与用户的需求高度一致,避免生成错误或不相关的函数调用。在验证过程中,模型必须判断函数调用是否与查询目标一致,参数是否正确选择,以及执行结果是否有效。这种提示的引入大大提高了生成数据的质量和准确性。

(3)最后是模型训练提示(Model Training Prompt):

图片

图片

在训练过程中引导模型进行函数调用的预测。该提示为模型提供了详细的任务指令、可用工具的描述,以及严格的输出格式要求。模型在接收到用户查询和可用工具后,必须生成符合指定格式的函数调用列表。如果查询无法通过可用工具解决,模型需要明确指出这一点,并拒绝回答。模型训练提示的作用在于确保模型在训练过程中学会如何正确地调用函数,并在面对不完整或不相关信息时做出适当的响应。这种提示策略的使用,使得模型能够在训练过程中逐步优化其函数调用能力,最终在实际应用中表现卓越。

这三种提示策略分别在数据生成、数据验证和模型训练的不同阶段发挥了不可或缺的作用,确保了xLAM-1B模型在功能调用任务中的出色表现。通过这些精心设计的提示工程,模型不仅能够生成高质量的函数调用,还能够在复杂任务中准确理解和响应用户的需求。

6.并非孤例:小模型的崛起

xLAM-1B的成功并非孤例。近年来,越来越多的小型模型在各类任务中表现优异,证明了小模型在特定任务中的巨大潜力。以下是一些其他表现出色的小模型的例子:

(1)微软的phi-1.5和phi-2系列

微软开发的phi-1.5和phi-2模型系列是小型模型领域的另一个成功案例。phi-1.5模型仅有13亿参数,但其在自然语言处理和编程任务中的表现却非常出色,甚至超越了一些参数量更大的模型。根据《Textbooks Are All You Need II: phi-1.5 technical report》一文的描述,phi-1.5模型在常识推理和编程任务中的表现超越了许多数倍甚至数十倍更大规模的模型,证明了数据质量和任务专用训练对模型性能的巨大影响。

(2)苹果的智能模型

苹果公司在其全球开发者大会上发布的30亿参数智能模型同样展示了小型模型的潜力。尽管参数量仅为部分大型模型的十分之一,苹果智能模型在多个基准测试中的表现却不逊于那些更大规模的模型。这一成果进一步证明了在优化数据和训练方法后,小模型可以实现与大模型相当甚至更优的性能。

(3)微软的Phi-3系列模型

微软的Phi-3系列模型同样展示了小型模型的强大潜力。Phi-3-mini模型仅有38亿参数,但在一些基准测试中,其表现甚至超过了OpenAI的GPT-3.5。这一成功展示了小型模型在能效和性能之间找到平衡的可能性,同时也表明,通过高质量数据和优化微调训练,小模型完全有可能在特定任务中超越大模型。

7.未来展望:人工智能的新方向

xLAM-1B模型的成功展示了小模型在人工智能领域的巨大潜力。通过创新的架构设计、高效的数据生成与训练方法、精细化的微调策略以及对参数的高效利用,xLAM-1B不仅在功能调用任务中表现卓越,还以较小的资源消耗实现了与大模型相当甚至更优的性能。这一成果不仅挑战了当前对大模型的崇拜,更为未来的人工智能发展指明了新的方向。

未来,随着更多公司和研究机构开始重视小模型的开发和应用,人工智能领域或将迎来一场深刻的变革。小模型有望在更多场景中取代大模型,特别是在资源受限的环境中,如移动设备和边缘计算。它们不仅能够提供高效的计算能力,还能大幅降低能耗和成本,实现更加可持续的发展模式。

总之,xLAM-1B及类似小模型的崛起,标志着人工智能技术发展的一个新方向。通过优化数据和训练方法,未来的AI系统有望在更小规模的模型中实现更高效、更智能的性能,为各行各业带来更多的创新和变革。

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2084844.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

展会直击 | 美格智能亮相IOTE 2024第二十二届国际物联网展·深圳站

IOTE 2024第二十二届国际物联网展深圳站于2024年8月28日—30日在深圳国际会展中心(宝安)开展,美格智能携最新的5G/4G AIoT模组与物联网行业解决方案精彩亮相,持续为客户带来通信技术、AI智能方面的创新产品和创新技术解决方案&…

养宠物家里有浮毛怎么办?口碑相传优质浮毛空气净化器汇总

有没有养猫五年以上还是单猫的铲屎官?能不能分享一下怎么才能控制住不养新猫。 从我养的第一只猫长大开始,看到别人家的小幼猫自己也控制不住的想养。到现在已经陆陆续续养了7只了,前段时间看楼下流浪的小三花差点又没忍住...要不是那段时间…

Java 集合Collection(List、Set)Map

集合的理解和优点 1)可以动态保存任意多个对象,使用比较方便!2)提供了一系列方便的操作对象的方法: add、remove、 set、 get等3)使用集合添加,删除新元素的示意代码- Java集合的分类 Java的集合类很多,主要分为两大类,如图: 1…

安美数字酒店宽带运营系统-任意文件读取

漏洞描述: 安美数字酒店宽带运营系统 weather.php 接口存在任意文件读取漏洞,未经身份验证攻击者可通过该漏洞读取系统重要文件(如数据库配置文件、系统配置文件)、数据库配置文件等等,导致网站处于极度不安全状态 fo…

朴素贝叶斯分类算法

文章目录 贝叶斯定理问题背景朴素贝叶斯朴素贝叶斯分类算法原理朴素贝叶斯分类算法步骤给定示例数据 极大似然估计如何求 P ( 特征 ∣ 类别 ) P ( 类别 ) P(\text{特征} \mid \text{类别}) \times P(\text{类别}) P(特征∣类别)P(类别)?如何求 P ( 类别 ) P(\text{…

网络基础:理解IP地址、默认网关与网段(IP地址是什么,默认网关是什么,网段是什么,IP地址、默认网关与网段)

前言 在计算机网络中,IP地址、默认网关和网段(也称为子网)之间有着密切的关系。它们是网络通信中的至关重要的概念,但它们并不相同。这里来介绍一下它们之间的关系,简单记录一下 一. IP地址 1. 介绍 IP 地址&#xf…

反爬虫策略收录集

前言 反爬虫,是指对扫描器中的网络爬虫环节进行反制,通过一些反制策略来阻碍或干扰爬虫的正常爬行,从而间接地起到防御目的。下面是一些常见的反爬虫策略的收录。 入门版 封IP 由于服务器有防火墙(如果防火墙在TCP/UDP层或者它…

Profinet 从站转 EtherNet/IP 从站网关

产品用途 本产品是 PN(Profinet) 和 EtherNet/IP 网关,使用数据映射方式工作。 本产品在 PN 侧作为 PN IO 从站,接 PN 主站设备,比如西门子 PLC 等;在EtherNet/IP 侧做为 EtherNet/IP 从站,接 EtherNet…

mongodb日期转换

public static void main(String[] args) throws ParseException {// 把mongodb日期转成yyyy-MM-dd HH:mm:ss日期String date "2024-08-27T15:59:40.327Z";date date.replace("Z", " UTC");//注意是空格UTCSimpleDateFormat format new Simpl…

深度学习基础--监督学习

第二章 监督学习(Supervised Learning) 监督学习模型就是将一个或多个输入转化为一个或多个输出的方式。比如,我们可以将某部二手丰田普锐斯的车龄和行驶里程作为输入,预估的车辆价格则是输出。 这个模型其实只是个数学公式&…

第12章 网络 (5)

目录 12.8 网络层 12.8.1 IPv4 12.8.2 接受分组 12.8.3 交付到本地传输层 本专栏文章将有70篇左右,欢迎关注,查看后续文章。 12.8 网络层 12.8.1 IPv4 IPv4首部: version: 值为4。 IHL: IP header leng…

AI模型:追求全能还是专精?详细阐述

AI模型:追求全能还是专精? 近日,OpenAI预计在秋季推出代号为“草莓”的新AI。从专注于数学问题到处理主观营销策略,"草莓"模型展现出惊人的多样性。而这种全能型 AI 是否代表了未来趋势?相比专攻于某一领域…

Python和MATLAB及R平均意见得分导图

🎯要点 文本转语音预测语音视频得分后验分布预测语音质量移动端语音质量测量英伟达GPU深度学习语音质量评估秩统计平均意见得分比较置信区间音频波形质量等分测评转换语音和自然语言相似性评估 JavaScript平均意见得分 平均意见得分是体验质量和电信工程领域中使用…

什么是Cursor?Cursor 是用于编码的 ChatGPT,现在任何人都能在几分钟内制作出应用程序

有时,一款人工智能工具会突然出现,并主导社交媒体上的话题。这款应用程序就是 Cursor,它是一款人工智能编码工具,使用 Claude 3.5 Sonnet 和 GPT-4o 等模型,让你比以往任何时候都更容易构建自己的应用程序。 Cursor 既…

3分钟千人被裁,IBM中国 “灭霸式“裁员背后原因?

2024年8月23日,IMB即有员工传出“无法访问系统”,“无法连接到公司网络”的消息,后续传出裁员的传闻。 图片来源网络 2024年8月26日周一,IBM召开3分钟的会议,宣布彻底关闭IBM中国研发部门,之后直接切断会议…

i.MX6裸机开发(12):eLCDIF——液晶显示

本章参考资料:《IMX6ULRM》(参考手册)Chapter 32: Enhanced LCD Interface (eLCDIF) 显示器介绍,显示器的分类和基本参数。 液晶控制原理,野火液晶屏介绍和控制原理讲解。 eLCDIF液晶显示实验,开发板预留…

安卓蓝牙技术的使用和场景

1.蓝牙协议应用领域 蓝牙协议是一种无线通信技术,广泛应用于短距离的数据和语音传输。以下是蓝牙协议的主要使用场景: 个人设备互联:蓝牙技术允许智能手机、平板电脑、笔记本电脑等设备之间进行数据传输和共享。例如,通过蓝牙将手…

“遥感+”集成技术的碳储量、碳排放、碳循环、温室气体等多领域监测与模拟

以全球变暖为主要特征的气候变化已成为全球性环境问题,对全球可持续发展带来严峻挑战。2015年多国在《巴黎协定》上明确提出缔约方应尽快实现碳达峰和碳中和目标。2019年第49届 IPCC全会明确增加了基于卫星遥感的排放清单校验方法。随着碳中和目标以及全球碳盘点的现…

DP2.0和HDMI2.1的计算

一、HDMI 8K60Hz,需要带宽64Gbps HDMI2.1支持48Gbps,不足以支持8K60Hz 增加HDMI2.1 FRL(Fixed Rate Link)模式,实现接口带宽的增加,满足8Kp60Hz需要。同时需要结合相应的YCbCr 4:2: 0编码和视频压缩技术。 1、变更内…

Redis高级----主从、哨兵、分片、脑裂原理

目前已更新系列: 当前:Redis高级----主从、哨兵、分片的原理 计算机网络--面试知识总结一 计算机网络-----面试知识总结二 计算机网络--面试总结三(Http与Https) 计算机网络--面试总结四(HTTP、RPC、WebSocket、S…