Platypus:快速、廉价且强大的大模型

news2025/1/12 9:42:50

一系列经过微调和合并的模型,在 Open LLM 排行榜上名列前茅。他们是如何做到的呢?

近年来,模型参数爆炸到数量巨大(PaLM 为 540 B)。有人提出的问题是这个参数数量是否必要。

根据 OpenAI 的说法,随着模型的增长,性能也会提高。此外,还出现了突现属性(除非在一定规模内才能观察到的属性)。

这种观点受到了以下事实的挑战:实际上更多的数据,因此扩展受到最佳训练模型所需的令牌数量的限制。此外,甚至这些新兴属性也可能不存在。

Platypus:快速、廉价且强大的法学硕士

龙猫缩放定律,随着参数数量的增加,我们需要更多的数据来对其进行最佳训练。

其次,这些专有模型不能被科学界自由分析或使用。因此,首先是BLOOM,然后是META 的 LLaMA,社区已转向使用开源模型。LLaMA还表明,对数据的更多关注使得较小的模型能够与较大的模型竞争。

然而,另一方面,小模型不能像大模型一样具有泛化能力。然而,这导致人们寻找降低这些模型成本的技术,例如知识蒸馏(教师模型教授学生模型)。后来的方法试图通过提取数据集(从大型训练数据集开始,到较小但同时有效的数据集)来进一步降低成本。

Platypus:快速、廉价且强大的法学硕士

降低计算成本的另一个想法是混合专家,其中网络的各个部分根据输入被激活。例如,在开关变压器中,为每个示例(以及不同的令牌)选择不同的参数集。

Platypus:快速、廉价且强大的法学硕士

开关变压器。另一方面,在 LoRA 之前和 Quantized-LoRA 之后的最近几个月,已经开发出了用于微调大型语言模型(LLM) 的技术。这使得训练更加高效,并且在特定任务或领域出现了专门的模型(专用于编码、生物医学领域的模型)。

然而目前,训练模型是一个昂贵且耗时的过程。那么为什么不学习所有这些元素并将它们结合在一起呢?

Platypus :快速、廉价且强大

Platypus:快速、廉价且强大的法学硕士

在最近发表的一篇文章中,Platypus 试图将这些元素结合在一起

具体来说:

  • 他们发布了 open-platypus,这是一个精心策划的数据集,训练集和测试集之间既没有污染,也没有冗余。
  • 冗余效应分析。
  • 方法描述、代码和其他资源。

Open-platypus,人类数据集

作者决定对LLaMa-2作为基本模型进行微调。事实上,他们的动机是三个想法:模型在预训练中学习大部分知识,而对齐则使模型能够利用这些知识。基线模型尚未达到饱和,因此仍然可以进行训练。数据质量对于执行模型至关重要。

因此,作者的目标是最大限度地提高数据集的质量,同时最大限度地减少其大小,以提高计算效率。因此,作者采用开放数据集并筛选出优质示例(特别关注 STEM)。

作者选择了多达 11 个数据集,主要采用人类生成的问题(仅占大模型生成问题的 ∼10%)。

Platypus:快速、廉价且强大的法学硕士

考虑到他们从不同的来源检索问题,作者检查并排除了相同或过于相似的问题。这是为了防止模型存储答案:

  • 他们消除了重复的问题。
  • 他们使用SentenceTransformers来嵌入问题,然后消除相似的问题(80%相似度余弦)

不要污染测试装置

作者注意确保基准数据集中的任何问题都不会泄漏到训练集中(最常见的错误之一)。

然而,这并不是一件容易的事,因为问题可能相似,并且有多种表达查询的方法。因此作者过滤掉了所有相似的查询。事实上,经过分析,他们发现了被视为潜在泄漏的问题,并将其分为三组:

  • 重复。许多重复查询要么是精确的副本,要么是句子的重新排列或一些单词的添加。
  • 灰色区域。不完全重复且属于常识范围的问题。这些问题需要由该领域的专家进行评估,因为它们包含同义词、非常相似的说明,或者被改写。
  • 相似但又不同。这些问题具有很高的余弦相似度,但却有不同的答案。这是因为问题的结构发生了变化。

Platypus:快速、廉价且强大的法学硕士

微调

作者使用低秩近似(LoRA),因为 QLoRA 出现较晚,但将来他们计划使用它。他们通过使用最先进的参数高效微调(PEFT)库进一步提高了训练效率。无论如何,他们声称他们能够使用单个 1 A100 80GB 对较小的 13B 模型进行 5 小时的微调。他们在选择参数时也特别小心。

Platypus:快速、廉价且强大的法学硕士

另一个有趣的方法是,一旦经过训练,适配器就会与不同的模型合并。

每种情况的代码均已发布,可在此处获取

它还提供IPython Notebook和详细的在线文档。

结果:效果如何?

Platypus:快速、廉价且强大的法学硕士

作者决定利用HuggingFace 排行榜来比较他们的模型的结果。作者指出,他们的模型在 8 月份达到了排行榜的第一名:

Platypus:快速、廉价且强大的法学硕士

作者指出,他们的方法提高了基本模型 ( LLaMA2 ) 在不同基准上的性能。此外,特别是对于较小的模型,合并会产生有趣的结果(根据作者的说法,合并会导致模型访问它不知道的信息)。因此合并可以被认为是一种提高模型性能的低成本策略。当然,这种技术也有局限性:它的效果更好取决于领域,事实上在代数中它的影响较小。因此,必须对模型和应用程序域进行仔细选择来完成合并。

作者还指出,该模型是开源模型中的第一个。

Platypus:快速、廉价且强大的法学硕士

事实上,Playtypus最近在 HuggingFace 排行榜上被超越。事实证明它的性能相当可观。

局限性

Platypus:快速、廉价且强大的法学硕士

当然,该模型并非没有局限性。其中一些源自LLaMA2,因为该模型在此基本模型上进行了微调。事实上,它与持续学习不相容,并且可能产生幻觉,并产生偏见和有害内容。

LLaMA2主要是在英语文本上训练的模型,因此其对其他语言的熟练程度较少。后来的研究表明,大模型可用于恶意目的(传播错误信息或探究敏感话题)。对于鸭嘴兽来说也是如此。

尽管 Platypus 已经接受过 STEM 领域的培训,但在处理其主要专业领域之外的主题时,它可能会遇到困难。

最后,虽然作者已经小心翼翼地避免污染,但可能仍然存在未被过滤掉的问题

结论

训练模型很昂贵,但从排行榜上可以看出,小型模型可以在某些任务中取得成功。LoRA 和其他技术的使用使获得大模型的机会更加平民化。这项工作进一步展示了领域专家如何成为一种可行的方法、如何合并适配器以及如何获取高质量的数据集。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/999033.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MQTT 连接优化指南

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

Maven部署打包多环境(开发、测试、生产)配置教程

Maven打包多环境(开发、测试、生产)配置教程 1、多环境配置的必要性1.1 没有进行多环境配置进行的操作复杂性1.2 不影响运行时配置 2、配置方案2.1 添加profile属性2.1 添加两个插件2.3 主配置文件中添加插值变量 3、效果展示3.1 勾选prod环境3.2 控制台…

Archery- SQL审核查询平台告警通知设置

邮箱通知 进入系统管理-》配置项管理 工单通知分类里面 ARCHERY_BASE_URL:平台地址,告警通知的时候可以点此链接跳转,访问审核sql详情页 DDL_NOTIFY_AUTH_GROUP:DDL工单通知权限组名,对应权限组管理页面的名称,为空则不通知,仅DDL工单执行完毕时会进行通知 NOTIFY_P…

基于SSM的助学贷款管理系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

【Redis】.net core Redis事件订阅与发布,基础篇

2023年,第38周。给自己一个目标,然后坚持总会有收货,不信你试试! 发布与订阅(Publish/Subscribe,也简称为 Pub/Sub)是一种消息传递模式,用于解耦发布者和订阅者之间的关系。 目录 一…

离散性行业介绍及与MES系统的好处

离散型行业是指那些生产、制造或提供一种有形产品或明确定义的服务的行业,这些产品或服务通常可以分为离散的单位,而且它们的生产通常遵循一定的工序或流程。与连续型行业不同,离散型行业的生产过程通常是间断的,而不是连续的。 …

【ArcGIS Pro二次开发】(66):三调规程_土地利用现状分类面积汇总表

之前做了一个三调的土地利用现状分类统计表,是按照自己的习惯做的,发现不符合土规专业的要求,于是翻开三调规程,按规范重新制作。 一、要实现的功能 如上图所示,在【规划应用】组—【三调】面板下,点击【1、…

若依vue前端 报错error:0308010C:digital envelope routines::unsupported

第一步: 直接打开package.json 第二步: 直接替换scripts的内容为下面的内容 "scripts": {"dev": "SET NODE_OPTIONS--openssl-legacy-provider && vue-cli-service serve","build:prod": "SET NODE_OPTIONS--openssl-leg…

【虹科案例】​使用虹科数字化仪测量遥远恒星的直径

加那利群岛拉帕尔马岛的 MAGIC 望远镜是为了观测发射高能伽马射线的宇宙物体(即超新星或黑洞)而建造的。天文学家使用双望远镜测量恒星的直径,以研究其整个生命周期的过程。对于地球上的望远镜来说,这是一项具有挑战性的任务&…

第二证券:5分钟k线图买卖技巧?

K线图是股票交易中最常用的技术剖析工具。而5分钟K线图则是其间的一种常见方式。那么如安在5分钟K线图上找到生意的时机呢?下面从几个视点剖析一下这个问题。 一、研讨商场趋势 在5分钟K线图上,商场走势的方向和力度非常重要。一般来说,假如…

尚硅谷大数据项目《在线教育之离线数仓》笔记008

视频地址:尚硅谷大数据项目《在线教育之离线数仓》_哔哩哔哩_bilibili 目录 P123 P124 P125 P126 P127 P128 P129 P123 Apache Superset是一个现代的数据探索和可视化平台。它功能强大且十分易用,可对接各种数据源,包括很多现代的大数…

网络安全实战对抗中的观察与思考

在本次攻防演练的过程中,绿盟科技M-SEC社区监测并确认了上百个漏洞在被积极利用,其中0day和1day漏洞的数量较往年有所提升,但nday漏洞依然是主力。 近日,一场行业瞩目的大型实战化网络安全攻防演练活动落下帷幕,在这场…

Hadoop之HDFS使用命令(常用)

本篇仅记载部分常用命令 若无所需命令可查看官方网站Apache Hadoop 3.3.6 – Overview 注:一切命令仅在启动HDFS集群后执行,否则会报错 注:仅在hadoop用户下操作 在Linux中超级用户是:root 但HDFS的超级用户是:启动n…

Gateway核心架构

1 Gateway核心架构 1.1 基本概念 路由(Route) 是 gateway 中最基本的组件之一,表示一个具体的路由信息载体。主要定义了下面的几个信息: id,路由标识符,区别于其他 Route。uri,路由指向的目的地 uri,即客户端请求最终…

EasyRecovery易恢复2023最新免费的电脑数据恢复软件

EasyRecovery是一款非常专业的硬盘数据恢复工具,EasyRecovery拥有磁盘诊断、数据恢复、文件修复、E-mail 修复等功能。有了EasyRecovery,你可以把误删,被破坏的文件,格式化的磁盘轻轻松松的找回来。小伙伴们可以使用EasyRecovery恢…

AWS EC2入门指南中创建和配置云虚拟机实例的基本步骤

文章目录 创建 AWS 账户登录 AWS 控制台导航到 EC2 控制台启动 EC2 实例选择 AMI(Amazon Machine Image)选择实例类型配置实例添加存储审查和启动实例创建密钥对 连接到 EC2 实例管理 EC2 实例了解定价和计费结论 🎈个人主页:程序…

预售33.8万元起:全新蔚来EC6开始接受预订,四驱标配 + 电动尾翼

蔚来汽车近日宣布,全新款EC6已经开始接受预订。从9月15日开始,广大消费者可以参与试驾活动,亲身体验这款定位为智能电动轿跑SUV的新车带来的魅力。据悉,这款车型将于9月16日开始交付,预售价格为33.8万元起,…

寻找联想集团的AI预期差

股票市场中最重要的因素是什么?不是技术分析,也不是基本面分析,而是预期差。 当下的市场,是复杂与困难的,想要在迷雾中看清方向,就要寻找更高的确定性,以及更大的预期差。 今天能大家分享一下联…

【Arduino29】74HC595控制LED灯

硬件准备 74HC595直插芯片:1 个 绿色LED灯:4 个 红色LED灯:4 个 220欧的电阻:8个 面包板:1个 杜邦线:若干 硬件连线 软件程序 #define DS_pin 11 //DS引脚 #define STCP_pin 8 //ST_CP引脚,输出…

海学会读《乡村振兴战略下传统村落文化旅游设计》2023年度许少辉八一新书

海学会读《乡村振兴战略下传统村落文化旅游设计》2023年度许少辉八一新书