Scaling Instruction-Finetuned Language Models

news2025/1/16 14:45:25

Paper name

Scaling Instruction-Finetuned Language Models

Paper Reading Note

Paper URL: https://arxiv.org/pdf/2210.11416.pdf

TL;DR

  • 2022 年谷歌出的文章,对指令微调的影响因素进行分析,提出了一些提升指令微调效果的方案。与该文章一起出品的数据集 Flanv2 也是业界公认的高质量微调数据集,对于各种公开榜单刷榜有重要意义

Introduction

背景

  • 人工智能的一个重要目标是开发可以推广到看不见的任务的模型。在自然语言处理 (NLP) 中,预训练的语言模型朝着这个目标取得了重大进展,因为它们可以在给定自然语言描述的情况下执行任务,但这需要一些提示词工程(few-shot 示例)来进行协助
  • 通过在表示为指令的任务集合上微调语言模型,已经取得了进一步的进展,这使得模型能够更好地响应指令,并减少对 few-shot 示例的需求

本文方案

  • 本文提出了几种优化指令微调的方式
    • 研究了缩放对指令微调的影响
      • 与微调指令的任务数量有关,任务数量越多效果越好
      • 与模型的大小有关,模型越大效果越好
    • 研究了指令微调对推理任务的影响
      • 微调指令中增加思维链(CoT)数据能提升效果

在这里插入图片描述

  • 本文贡献
    • 使用 540B 参数模型训练 Flan-PaLM,将微调任务的数量增加到 1.8K,包括 CoT 数据。Flan-PaLM 优于 PaLM,在几个基准测试中实现了最优效果。比如 MMLU 实现了 75.2 的精度
    • 与 PaLM 相比,Flan-PaLM 也提高了多语言能力,例如 one-shot TyDiQA 的绝对精度提升为 14.9%,代表性不足语言的算术推理的绝对提升为 8.1%
    • 在人工评估员评估中,Flan-PaLM 在一组具有挑战性的开放式生成问题上大大优于 PaLM,这表明可用性有所提高
    • 指令微调 Flan-T5 模型(80M 到 11B)。这些 checkpoints 具有很强的 zeroshot、few-shot 和 CoT 能力,优于之前的 T5 模型。

在这里插入图片描述

Methods

Flan Finetuning

  • 将指令微调称为 Flan(Finetuning language models),加上 Flan 的模型指代微调后的模型,比如 Flan-PaLM。指令微调的流程可适配以下多种模型结构
    在这里插入图片描述

微调数据

  • 多个任务混合,如下图所示,包含 Muffin, T0-SF, NIV2, CoT 四个混合数据源,一共 1836 个微调任务,数据集就包含了 473 个
    在这里插入图片描述
  • 上图推理部分包含了 CoT 数据,用它来探索对 CoT 注释进行微调是否可以提高 unseen 场景下的推理任务的性能
    • 从先前的工作中创建了一个包含九个数据集的新混合,人类评分者手动为训练语料库编写 CoT 注释,九个数据集主要包含算术推理、multi-hop 推理、自然语言推理任务,每个任务手动编写十个指令模板
  • 模板设置
    • 对于 Muffin、T0-SF 和 NIV2,我们为每个任务使用指示性模板,由各个数据源的创建者给出
    • 对于 CoT,手动为九个数据集中的每个数据集编写了大约十个指令模板,包含/不包含 CoT 数据基于带/不带 few-shot 的样例数据如下
      在这里插入图片描述

finetuning 流程

  • T5、PaLM、U-PaLM 的不同尺寸模型都进行训练,训练流程一致,除了少量超参数:学习率、batch size、dropout 和训练 step 数目
    • 使用 Adafactor 优化器,恒定学习率
    • 使用 packing 将多个训练示例组合成一个序列,使用序列结束标记将输入与目标分开
    • masking 操作:用于防止 token 在 packing 的示例边界关注其他 token
    • 对于每个模型,对所有后续评估评估都仅使用某个固定 checkpoint;最佳 checkpoint 是基于评测任务的定期评估(每个 2k 到 10k 步,具体取决于模型大小),并且在给定模型的所有消融实验中都使用相同的 checkpoint 步骤数
    • 微调的计算资源消耗与预训练相比很小,例如只使用 0.2% 的预训练计算来指导微调 Flan-PaLM 540B(大约 512 v4 TPU 芯片 37 小时)

模型和任务规模的缩放效应

  • 以下图片的纵坐标是在多个评测集上的结果平均后的结果,随着模型规模提升精度提升,另外随着微调任务提升精度也提升
    在这里插入图片描述
    在这里插入图片描述
  • 从以上实验可以提取出的一些经验
    • 增加模型规模稳定涨点,不管是微调前还是微调后的
    • 指令微调对于大模型和小模型的提升幅度基本差不多。如果指令数据的任务足够多,看起来是小模型的绝对提升幅度大于大模型。但是这样评估也不一定科学,比如 8B 模型的绝对增益大于 540B 模型(8B 为 15.5%,5.4B 为 9.4%),但 540B 模型的错误率的相对减少更大(18.4% 540 B vs 16.6% 8B)
    • 增加任务种类涨点,282 个任务后的涨点幅度变小,可能有两种解释
      • 282 个任务之后的任务不是特别多样化,没有提供具有新知识的模型
      • 多任务指令微调的大部分收益来自让模型更好表达预训练过程中模型已经知道的知识,超过 282 个任务后作用就不大了。作者认为这个解释是有道理的,因为预训练数据由 780B 个 token 组成,而指令微调仅使用 1.4B 个 token(预训练标记的 0.2%)

CoT 的影响

  • CoT 的影响分为两方面

    • CoT 训练数据:从上节表格中,可以看出 CoT 的数据增加有明显涨点
    • CoT prompt:对于大尺度模型(540B)在推理性任务(比如 BBH)上有涨点,知识性任务(MMLU)上不论大小模型都掉点
  • CoT 如何结合 self-consistency 对于大模型可以显著涨点;指令微调后的模型 (Flan-PaLM)相比于预训练模型(PaLM)稳定涨点
    在这里插入图片描述

  • 同时使用 CoT 和 non-CoT 数据的精度最高;可以看出如果没有 CoT 数据引入,微调是掉点的(对于 CoT 评测任务),但是增加 CoT 数据后微调能涨点。这说明为了保持推理能力,对某些 CoT 示例进行微调至关重要
    在这里插入图片描述

  • 训练任务中有 CoT 的数据可以解锁 zero-shot 推理能力:对于预训练模型,使用 CoT prompt 无法涨点,但是对于微调后的模型,使用 CoT 能涨点。CoT 的方式为使用经典的 “let’s think step-by-step”
    在这里插入图片描述
    一些使用 CoT 的样例对比如下

在这里插入图片描述

Experiments

  • 基于 Flanv2 数据集训练的模型都能稳定涨点
    在这里插入图片描述

  • 基于人工评测模型的开放域问答能力,微调后的模型效果更佳
    在这里插入图片描述

Thoughts

  • 本文一些重要结论汇总
    • 指令微调对于大模型和小模型的提升幅度基本差不多。如果指令数据的任务足够多,小模型的绝对提升幅度大于大模型
    • 增加模型规模稳定涨点
    • 增加任务种类涨点,但增加任务种类在 282 个任务后的涨点幅度变小
    • 微调的计算资源消耗与预训练相比很小,例如只使用 0.2% 的预训练计算来指导微调 Flan-PaLM 540B(大约 512 v4 TPU 芯片 37 小时)
    • 指令微调后的模型 (Flan-PaLM)相比于预训练模型(PaLM)稳定涨点
    • 同时使用 CoT 和 non-CoT 数据的精度最高
    • 训练任务中有 CoT 的数据可以解锁 zero-shot 推理能力
  • CoT + self-consistency 对于大模型(540B)刷榜很有效
  • 文章实验充分且解释详尽,不愧是 yaofu 说要全文背诵的文章

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/794078.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI学习笔记四:yolov5训练自己的数据集

若该文为原创文章,转载请注明原文出处。 一般情况下,大部分人的电脑都是没有cpu的,cpu也是可以训练的,但花费的时间太长,实际200张图片,使用CPU训练300轮花了3天,本章记录使用云服务器来训练自…

【无废话解决bug】python dash库 127.0.0.1 拒绝了我们的连接请求

无废话。 Q: python dash库在127.0.0.1无法打开–访问本地IP时显示拒绝访问 在python3写好了代码,打算运行代码后在浏览器127.0.0.1查看,浏览器提示:127.0.0.1 拒绝了我们的连接请求。 A:【本解决方法对dash库问题适用,其他涉及…

【前端知识】React 基础巩固(三十四)——组件中的异步操作及优化

React 基础巩固(三十四)——组件中的异步操作及优化 一、待优化的异步请求流程 通过组件的生命周期来完成网络请求,网络请求的异步代码直接放在组件中 import React, { PureComponent } from "react"; import { connect } from "react-redux"…

OLED透明屏的安装价格与安装步骤

OLED透明屏的安装价格因各种因素而异,例如屏幕尺寸、分辨率、透明度等。一般来说,安装OLED透明屏需要考虑到以下几个步骤: 准备表面:首先,需要清理屏幕表面以确保透明度。然后,需要钻孔以安装屏幕。 安装框…

Java在线OJ项目(一)、多进程编程实现 做题代码的编译和运行

在线OJ项目(一)、多进程编程实现 做题代码的编译和运行 一、回顾线程和进程二、进程比线程的优势三、多进程编程样例四、多进程思想 实现对代码 的编译 以及 运行两个功能CommandUtil 由于我们是在线oj,所以得编译用户的代码不仅编译 还需要 …

TEE GP(Global Platform)安全认证方案

TEE之GP(Global Platform)认证汇总 一、安全认证介绍 GlobalPlatform的安全认证计划通过独立的安全评估,确认安全组件是否符合通用标准认可的Protection Profile。它确保安全组件满足为特定服务定义的所需安全级别,使服务提供商能够自信有效地管理风险并…

技术干货|详解威胁情报在WAF类产品中如何发挥最大价值?

在产业互联网发展的过程中,企业也将面临越来越多的安全风险和挑战,威胁情报在企业安全建设中的参考权重大幅上升。早期安全产品对威胁的鉴定是“一维”的:鉴定文件是黑(恶意文件)、白(正常文件)…

数据结构初阶--带头双向循环链表

目录 一.带头双向循环链表的定义 二.带头双向循环链表的功能实现 2.1.带头双向循环链表的定义 2.2.带头双向循环链表的结点创建 2.3.带头双向循环链表的初始化 2.4.带头双向循环链表的打印 2.5.带头双向循环链表的判空 2.6.带头双向循环链表的尾插 2.7.带头双向循环链…

要做接口并发性能测试,总得先学会分析吧!

引言 这篇是我3月份在公司内部做的技术分享内容,由于我在公司内部分享的内容较多以及一些特殊性,我摘取了接口并发测试从设计思路整理→测试方案设计→设计分析→代码编写这套流程(我不会承认我把40多页PPT的内容都放在这篇博文里&#xff0…

高压放大器在无线电能传输中的作用和用途

高压放大器是一种电子放大器,主要用于放大输入信号的幅度,通过输出端输出一个较大的电压信号,以达到强化原始信号的功能。在无线电能传输中,高压放大器扮演着非常重要的角色。本文将从无线电能传输的定义、高压放大器的特性以及高…

mysql数据备份与还原进阶操作

创建以下表 创建普通用户backup并给权限 备份数据库school到/backup目录 mysqldump -u backup -p school > /backup/school.sql备份MySQL数据库为带删除表的格式,能够让该备份覆盖已有数据库而不需要手动删除原有数据库 mysqldump -u backup -p --add-drop-d…

mysql mha高可用

目录 1.MHA是什么以及作用 2.工作原理 3.案例 1.MHA是什么以及作用 MHA(Master High Availability) MySQL高可用环境下故障切换和主从复制的软件 MHA 的出现就是解决MySQL单点故障 MySQL故障切换过程中 MHA能做到0-30秒内自动完成故障切换操作 MHA能在故障切换的过程中最大程…

行业追踪,2023-07-26,如果主力不骗人,化工原料和磷化工有第一波机会

自动复盘 2023-07-26 凡所有相,皆是虚妄。若见诸相非相,即见如来。 k 线图是最好的老师,每天持续发布板块的rps排名,追踪板块,板块来开仓,板块去清仓,丢弃自以为是的想法,板块去留让…

1.java入门(基础概念与常识)

文章目录 1.1.java语言有哪些特点?1.2.关于JVM JDK和JRE最详细通俗的解答1.2.1JVM1.2.2 JDK和JRE 1.3. Oracle JDK 和 OpenJDK 的对比1.4. Java 和 C的区别?1.5. import java 和 javax 有什么区别?1.6. 为什么说 Java 语言“编译与解释并存”&#xff1…

Docker仓库

Docker仓库 一、docker Harbor简介 Harbor 是 VMware 公司开源的企业级 Docker Registry 项目,其目标是帮助用户迅速搭建一个企业级的 Docker Registry 服务。Harbor以 Docker 公司开源的 Registry 为基础,提供了图形管理 UI 、基于角色的访问控制(Rol…

Python 基础(十八):异常处理

❤️ 博客主页:水滴技术 🌸 订阅专栏:Python 入门核心技术 🚀 支持水滴:点赞👍 收藏⭐ 留言💬 文章目录 一、异常是什么?二、异常处理的基本语法三、捕获特定的异常类型四、finall…

P3183 [HAOI2016] 食物链

题目描述 如图所示为某生态系统的食物网示意图,据图回答第 1 小题 现在给你 n 个物种和 m 条能量流动关系,求其中的食物链条数。物种的名称为从 1 到 n 编号 M 条能量流动关系形如 1,2,3​,…,am−1​,bm−1​,am​,bm​。其中 ai​ 和 bi​ 表示能量从物…

《零基础入门学习Python》第067讲:GUI的终极选择:Tkinter4

今天我们来学习 Entry 组件,也就是我们平时所说的 输入框。 输入框是跟程序打交道的途径,比如 程序要求你输入 账号 和 密码。那么它就要提供两个输入框,并且接收密码的输入框还会用 星号 * 将实际的内容给隐藏起来。 我们学了还几个 tkint…

uniapp 微信小程序 navigationBarBackgroundColor 标题栏颜色渐变

大体思路: 第一步:“navigationStyle”:“custom” 第二步: template内 重点:给view添加ref“top” 第三步:添加渐变色样式 1、pages.json {"path" : "pages/user/user","style" : …

FAQ文档的重点注意事项!别踩坑了

在很多优秀的大企业中,FAQ文档是企业运营管理中不可或缺的重要部分。但是也仅限大企业,很多企业目前还是没有这个意识的。一方面原因是因为缺乏这个客户服务的意识,另一方面也和技术水平不足有关。但是其实现在有不少的第三方搭建平台可以帮助…