微调样本质量胜于数量 LIMA: Less Is More for Alignment

news2024/11/16 23:54:22

1、总体介绍

大型语言模型的训练分为两个阶段:(1)从原始文本中进行无监督的预训练,以学习通用的表征;(2)大规模的指令学习和强化学习,以更好地适应最终任务和用户的偏好。

作者通过训练LIMA来衡量这两个阶段的相对重要性,LIMA是一个65B参数的LLaMa语言模型,仅在1000个精心策划的提示和回应上用标准的监督损失进行微调,没有任何强化学习或人类偏好建模。

LIMA表现出了非常强大的性能,从训练数据中仅有的几个例子中学习到了具体的反应格式,包括从规划旅行路线到猜测另一个历史的复杂查询。

此外,该模型倾向于对训练数据中没有出现过的任务进行良好的泛化。

在一项受控的人类研究中,来自LIMA的反应在43%的情况下与GPT-4相比更好;与Bard相比,这一统计数字高达58%,与DaVinci003相比,这一统计数字为65%,后者是用人类反馈进行训练的。

这些结果显著表明,大型语言模型中的几乎所有知识都是在预训练中学习的,只需要有限的指令学习数据就可以教会模型产生高质量的输出。

2. 关键方法

论文提出「表面对齐假设Superficial Alignment Hypothesis」:假设大模型的知识和能力主要是在预训练阶段学习到的,对齐只是教会模型在与用户交互时应该使用哪种格式的子分布。如果该假设正确,那么对齐在很大程度上是关于学习风格的,人们可以用一组相当小的样本便可充分调动激活预训练语言模型的能力。

MetaAI认为,前面说的两阶段的第二个阶段需要大量的人类标注的交互结果,非常的耗费时间和成本。但是,如果我们已经有了一个强大的预训练模型,那么应该可以有更简单的方法让模型拥有这样的能力。为此,MetaAI提出了LIMA,仅仅用1000个精心挑选的训练数据即可让模型激发强大的能力。

从社区论坛StackExchange和wikiHow筛选750例热门问题答案,样例筛选要保证质量和多样性。在质量和多样性方面,作者针对不同的论文数据做了大量筛选工作,包括不同主题、最佳回答、长度控制等,具体见文章章节Aligment Data。论文作者手动撰写了250个prompts和对应答案,同时保证了样例多样性和回答风格的一致性。

下图是LIMA使用的训练数据总结:

LIMA背后的核心思想是,对齐可以是一个简单的过程,可以是模型从与用户互动中学习相应的风格或格式,以展示在预训练期间已经获得的知识和能力。这种方法使LIMA能够从训练数据中的少数几个示例中学习遵循特定的响应格式,包括从规划旅行行程到推测关于交替历史的复杂查询。此外,该模型往往能很好地推广到未出现在训练数据中的未见任务。

3、结果分析

作者通过消融实验研究了微调训练数据的多样性、质量和数量对生成结果的影响。结论是微调样本的多样性和质量对结果具有可衡量的积极影响,而仅扩大微调样本数量可能并不会产生良性影响。

对未经筛选和经过筛选的Stack Exchange 2000样本数据,微调训练模型结果对比,在生成结果质量评估上二者相差0.5分。设置指数增长的训练集,当训练样本数量倍增时生成结果的质量并没有提升,这一结果表明对齐的比例定律(scaling laws)不仅取决于数量,而在于保证质量的同时提高prompt的多样性

4、思考

大模型预训练阶段获得的能力决定了模型能力的上限,通常来说,在同级别海量语料和相同网络架构下,模型参数越多模型能力越强。在微调训练阶段,只是在进一步激活模型的潜在性能,通过本论文可以看到,微调样本量对生成结果质量并不是关键因素,在微调阶段,更应该关注于微调样本的多样性和数据质量。

基于GPT的生成式大语言模型,在预训练阶段通过对海量数据的无监督学习,得到语言生成能力和对世界知识的存储能力,这一步相当于是在「练内功」,预训练之后的微调和对齐训练是对语言模型能力的挖掘和激活,引入各种任务数据进行微调训练,相当于是「练招式」,只有内功强大,才能更好凸现武术招式的厉害。反过来,如果没有强大的内功再精彩的招式也是花拳绣腿,缺乏实战和落地能力。

chatGPT大模型的一些关键要点:

  • 语言生成能力、基础世界知识、上下文学习能力来自于预训练语言模型(GPT3+)
  • 存储大量知识的能力来自于千亿级的参数量
  • 执行复杂推理的能力很可能来自于代码的训练
  • 指令微调不会为模型注入新的能力
  • 指令微调通过牺牲性能换取与人类的对齐(alignment tax)
  • 生成中立、客观的能力,安全和翔实的答案来自与人类的对齐(RLHF)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/611997.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

作为网络安全工程师,都有哪些公司可以选?

招聘平台 首选内推 其次是公司自有招聘平台 再是第三方平台:boos直聘、前程无忧、拉钩、猎聘、牛客、牛聘 乙方 启明星辰 商标:云众可信,云子可信 投资:网御星云,恒安嘉新 拳头产品:Secin 社区、天清…

企企通×天能股份SRM一期项目成功上线,持续深化企业采购数字化

近期,企企通凭借在赋能客户数字化转型方面的优秀实践与丰富的解决方案,荣获天能电池集团股份有限公司(以下简称“天能股份”)颁发的“2022年度数字化优秀供应商奖”,同时,企企通SRM项目还获得天能股份采购管…

vue-cli4打包优化

项目开始时webpack配置 vue-cli3以后,我们修改webpack配置,需要自己在项目根路径下创建vue.config.js文件。 一、 配置 proxy 跨域 使用vue-cli发开项目,在本地开发环境中,如果遇到跨域的问题。可以通过配置proxy的方式&#xff…

uniapp(二) 之 uniapp 搭建与组件库的引用

小扩展: rpx(responsive pixel):可以根据屏幕宽度自适应。规定屏幕宽度为750rpx。如果iphon6上,屏幕宽度为375px,共有750个像素,则750rpx 375培训 750物理像素,1rpx 0.5px 1物理像素。 页面跳转&#xff…

你知道TikTok的推荐算法吗?TikTok数据分析平台哪家好?

作为当下最受欢迎的社交媒体,TikTok这几年的成绩大家也是有目共睹了,超10亿的月活加上大量活跃的年轻人,让无数企业和品牌为之心动。入局的人越来越多,想要在众多竞争者中脱颖而出,入局前需要了解TikTok底层逻辑和推荐…

Treadlocal源码实例详解

我们都知道treadlocal维护变量时候,可以为每个线程维护一个独立的副本,改变的是自己线程的数据。 ThreadLocal公用方法有四个:get,set,remove,intiValue 既然threadLocalMap是局部变量,所以他存…

内网安全:内网渗透.(拿到内网主机最高权限 vulntarget 靶场 1)

内网安全:内网渗透.(拿到内网主机最高权限) 内网穿透又被称为NAT穿透,内网端口映射外网,在处于使用了NAT设备的私有TCP/IP网络中的主机之间建立连接的问题。通过映射端口,让外网的电脑找到处于内网的电脑。…

中国人民大学与加拿大女王大学金融硕士——人生选对方向很重要

有人说,人生最重要的不是财富、不是荣誉,而是选择一条正确的道路。选择正确的方向,对一个人的成长和事业的成功与否,起着决定作用。有了方向,你前进的每一步都跟接近幸福。在职计划读研的你有了解过中国人民大学与加拿…

Linux - 第23节 - Linux高级IO(一)

1.IO的基本概念 IO的概念: I/O(input/output)也就是输入和输出,在著名的冯诺依曼体系结构当中,将数据从输入设备拷贝到内存就叫做输入,将数据从内存拷贝到输出设备就叫做输出。 • 对文件进行的读写操作本质…

SpringBoot注解详解,建议收藏!

一、简介 基于 SpringBoot 平台开发的项目数不胜数,与常规的基于Spring开发的项目最大的不同之处,SpringBoot 里面提供了大量的注解用于快速开发,而且非常简单,基本可以做到开箱即用! 那 SpringBoot 为开发者提供了多少注解呢?…

《大数据技术与应用》课程实验报告|week12|实验8|Pig——高级编程环境|验证评估函数

目录 一、实验内容 二、实验目的 三、实验设备 四、实验步骤 步骤一 步骤二 步骤三 步骤四 步骤五 步骤六 步骤七 步骤八 步骤九 步骤十 步骤十一 步骤十二 步骤十三 步骤十四 步骤十五 步骤十六 五、实验结果 六、实验小结 一、实验内容 验证19.5节中的…

亚马逊云科技携手木卫四,为汽车行业智能安全赋能

木卫四(北京)科技有限公司在汽车网络安全领域拥有独特专业知识,其融合人工智能算法的安全检测引擎可以不依赖车辆中安装的代理软件,只需几周即可快速部署实施,是汽车网络安全领域的技术领先者。 在亚马逊云科技初创团…

chatgpt赋能python:Python同一行多个语句:如何提高你的编程效率?

Python同一行多个语句:如何提高你的编程效率? Python是一种优雅的编程语言,拥有简洁易懂的语法,可以帮助你快速编写可以在各种领域使用的高级代码。其中,Python同一行多个语句,是一种可以大大提高编程效率…

Springboot +spring security,基于内存模型实现授权

一.简介 1.1概念 所谓授权,举个例子:某个用户想要访问某个资源(接口、页面、功能等),我们应该先去检查该用户是否具备对应的权限,如果具备就允许访问,如果不具备,则不允许访问。也就是说,授权…

第二十二章行为型模式—备忘录模式

文章目录 备忘录模式解决的问题结构实例“白箱” 备忘录模式“黑箱” 备忘录模式 存在的问题适用场景 行为型模式用于描述程序在运行时复杂的流程控制,即描述多个类或对象之间怎样相互协作共同完成单个对象无法单独完成的任务,它涉及算法与对象间职责的分…

【QQ聊天界面、创建模型、懒加载数据 Objective-C语言】

一、今天我们要做的就是这个案例 1.我们今天要做的案例,做好了之后的效果就是这样 这个案例,和昨天那个微博的案例是非常相像的, 哪些相像呢, 1)整体是不是也是能滚动啊, 2)能滚动,它不仅仅是一个UIScrollView 它里面,这个也是一行、两行、三行、四行、 所以说,…

Java核心知识点常考面试题(持续更新中)

Java核心知识点常考面试题(持续更新中) 线程与线程池Java锁机制轻量级锁重量级锁 线程与线程池 一、线程 1、线程的状态 2、线程的创建方式 (1)继承 Thread 类; (2)实现 Runnable 接口&#…

大学计算机专业 学习Python学习路线图(最新版)

这是我刚开始学习python时的一套学习路线,从入门到上手。(不敢说精通,哈哈~) 希望对大家有帮助哈~ 大家需要高清得完整python学习路线可以 一、Python入门、环境搭建、变量、数据类型 二、数据库编程 三、Linux系统 四、网页编…

工信部—高级软件开发工程师认证

工业和信息化部教育与考试中心是工业和信息化部直属事业单位,承担计算机技术与软件专业技术资格考试、通信专业技术人员职业水平考试、电子通信行业职业技能鉴定、全国信息技术人才培养工程、产业工人网络平台建设等人才培养选拔工作。 软件工程师(Software Enginee…

京东数据分析软件工具(京东618销量查询)

这一期,我们主要分享今年618京东美妆的预售数据,包括面部护肤、香水彩妆、男士面部护肤品类。 -面部护肤- 今年618,面部护肤品类在京东累计预售量达到130万件,预售额达到13亿元。预售期间,护肤品类均价在1010元左右。期…