文献阅读:Scaling Instruction-Finetuned Language Models

news2024/12/27 11:07:50
  • 文献阅读:Scaling Instruction-Finetuned Language Models
    • 1. 文章简介
    • 2. 实验
      • 1. 数据集 & 模型
        • 1. 数据集考察
        • 2. 使用模型
      • 2. scale up对模型效果的影响
      • 3. CoT对模型效果的影响
      • 4. 不同模型下Flan的影响
      • 5. 开放接口人工标注指标
    • 3. 结论
  • 文献链接:https://arxiv.org/abs/2210.11416

1. 文章简介

这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。

在这篇文章当中,作者对Flan进行了更加细致的考察。

在这里插入图片描述

具体来说,在Flan最开始提出的时候,Flan只是用在了预训练语言模型上,但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究,具体来说:

  1. 在Palm以及T5模型上测试了Flan的效果;
  2. 将Flan的数据任务进行了scale up;
  3. 将模型的size进一步进行了scale up;
  4. 加入CoT数据考察效果。

基于此,文章获得了更好的整体指标表达以及一些case如下:

在这里插入图片描述

在这里插入图片描述

下面,我们来具体看看文中的实验结果。

2. 实验

1. 数据集 & 模型

首先,我们来看一下文中使用的数据集以及模型进行一下整理。

1. 数据集考察

我们首先看一下文中使用的数据集:

在这里插入图片描述

可以看到,相较于前作Flan的62个训练任务,本文对任务进行了大幅的扩充,扩展至146个任务类型中的473个数据集以及合计1836个任务。

其中,关于CoT数据集的使用方式如下:

在这里插入图片描述

可以看到,其实就是加上引导词“by reasoning step-by-step”,然后答案当中加入推理过程。

2. 使用模型

而文中使用的模型则如下表所示:

在这里插入图片描述

可以看到,文中同时考察了自回归语言模型以及Transformer架构的T5模型,比对了不同的预训练方式以及不同的模型size下Flan的效果。

2. scale up对模型效果的影响

下面,我们首先来看一下scale up对模型效果的影响,具体包括:

  1. 模型size的scale up对模型效果的影响;
  2. 训练任务的scale up对模型效果的影响;

给出文中的实验结果如下:

在这里插入图片描述

可以看到:

  1. 随着模型size的增大,模型效果不断提升;
  2. 随着模型使用的finetune数据集的增多,模型效果也是不断提升的。

更直观的,文中还给出了上述结果的图表形式:

在这里插入图片描述

3. CoT对模型效果的影响

然后,我们来看一下CoT数据集对模型效果的影响。

同样,我们首先给出文中的实验结果表格如下:

在这里插入图片描述

可以看到:

  • CoT数据集对于LLM的效果总是正向的。

而在不同的benchmarks下,可以看到:

  • 对于CoT benchmarks,CoT数据集对效果提升很明显,而对于non-CoT benchmarks,CoT数据集对于模型效果并没有太大的影响。

在这里插入图片描述

另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响,得到结果如下图所示:

在这里插入图片描述

可以看到:

  • 对于不加入Flan训练的Palm模型,CoT文本的加入并不能够带来效果的提升;
  • 对于Flan之后的Palm模型,CoT能够明显的提升模型的效果;
  • Flan本身也能够给模型带来足够的效果提升。

最后,文中还给了几个具体的case如下:

在这里插入图片描述

4. 不同模型下Flan的影响

除了在自回归语言模型的情况下,文中还对T5进行了考察,看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性,得到结果如下:

在这里插入图片描述

5. 开放接口人工标注指标

最后,文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果,得到结果如下:

在这里插入图片描述

可以看到:

  • Flan-PaLM的效果确实是优于PaLM的。

3. 结论

综上,文章进一步考察了Flan以及CoT在大模型中的效果,整体上可以看到:

  • Flan和CoT对于模型效果都是正向的影响,且目前看起来还没有到顶;
  • Flan以及CoT除了在自回归模型上有效之外,在T5上面同样有效,但是前者似乎效果更好。

不过还是那个说法,大模型现在真就是看着玩玩了,完全不可本地服务化,也不可能自己去跑这看效果,这能通过外部接口访问了,大概就只能作为旁观者看他们玩了……

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/339744.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C++】类和对象(一)

目录一、面向过程和面向对象初步认识二、类的引入三、类的定义四、类的访问限定符及封装4.1、访问限定符4.2、封装五、类的作用域六、类的实例化七、类对象的大小八、this指针8.1、this指针的引出8.2、this指针的特性8.3、C语言和C实现Stack的对比一、面向过程和面向对象初步认…

XSS漏洞,通过XSS实现网页挂马

**今天讲下通过XSS实现网页挂马~*,目的是了解安全方面知识,提升生活网络中辨别度 原理: 实验分为两部分: 1、通过Kali linux,利用MS14_064漏洞,制作一个木马服务器。存在该漏洞的用户一旦通过浏览器访问木…

C语言(C文件处理函数和文件指针)

C语言有很多文件操作函数,这里我们挑了一些重要的开始讲,首先说下这些函数都定义在stdio.h头文件中 目录 一.文件指针 二.文件处理函数 1.fopen(打开文件) 2.fclose(关闭文件) 3.getc和putc(从文件指针读取字符) 4.I/O工作…

「C++控制台生存游戏」暗黑体素 DarkVoxel 控制台版

“《只有作者能看懂的一款游戏》” 刚进高中前开始写的一款抽象的生存游戏 BUG很多请见谅 ###【点击此处,免费畅玩】### 类似泰拉瑞亚的一款游戏 『暗黑体素 DarkVoxel』 直接上图! 用控制台写出如此奇葩的生存游戏,可谓世间少有。 操作…

2022黑马Redis跟学笔记.实战篇(二)

2022黑马Redis跟学笔记.实战篇 二实战篇Redis开篇导读4.1短信登录4.1.1. 搭建黑马点评项目一、导入黑马点评项目二、导入SQL三、有关当前模型四、导入后端项目相关依赖配置redis和mysql连接项目组成概述关闭Linux防火墙五、导入前端工程六、 运行前端项目4.1.2. 基于Session实现…

选购交换机的参数依据和主要的参数指标详解

如何选购交换机?用什么交换机?在选购交换机时交换机的优劣无疑十分的重要,而交换机的优劣要从总体构架、性能和功能三方面入手。交换机选购时。性能方面除了要满足RFC2544建议的基本标准,即吞吐量、时延、丢包率外,随着…

网络是怎么连接笔记(一)WEB浏览器

文章目录介绍生成HTTP请求消息向DNS服务器查询WEB服务的IP地址全世界DNS服务器的大接力委托协议栈发送消息介绍 互联网整个消息传递流程 生成HTTP请求消息向DNS服务器查询WEB服务的IP地址然后DNS服务器进行查询IP地址委托协议给对应IP发送消息 生成HTTP请求消息 整个网络发…

Spring面试重点(三)——AOP循环依赖

Spring面试重点 AOP 前置通知(Before):在⽬标⽅法运行之前运行;后置通知(After):在⽬标⽅法运行结束之后运行;返回通知(AfterReturning):在⽬标…

2023年前端面试知识点总结(CSS篇)

近期整理了一下高频的前端面试题,分享给大家一起来学习。如有问题,欢迎指正! 1. 对CSS盒模型的理解 CSS3的盒模型有两种盒子模型:标准盒子模型、IE盒子模型 盒模型都是由四个部分组成的,分别是content(内容…

layui框架学习(6:基础菜单)

菜单是应用系统的必备元素,虽然网页中的导航也能作为菜单使用,但菜单和导航的样式和用途有所不同(不同之处详见参考文献5)。Layui中用不同的预设类定义菜单和导航的样式,同时二者依赖的模块也不一样。本文主要学习和记…

Vue (3)

文章目录1. 数据代理1.1 回顾1.2 开始2. 事件处理2.1 v-on:click 点击事件2.2 事件修饰符2.3 键盘事件3. 计算属性3.1 插值语法实现3.2 methods实现3.3 计算属性实现4. 监视属性4.1 深度监视4.2 监视属性的简写形式4.3 watch 与 computed 对比1. 数据代理 在学习 数据代理 时 先…

SQL数据查询——单表查询和排序

文章目录一、单表查询1.查询列1)查询全部列指定列2)查询经过计算的值3)列的别名2.查询元组1)消除取值重复的行(DISTINCT)2)条件查询(WHERE)3.空值参与运算4.着重号二、排序(ORDER BY子句)一、单表查询 单表查询指仅涉及…

Webpack的知识要点

在前端开发中,一般情况下都使用 npm 和 webpack。   npm是一个非常流行的包管理工具,帮助开发者管理项目中使用的依赖库和工具。它可以方便地为项目安装第三方库,并在项目开发过程中进行版本控制。   webpack是一个模块打包工具&#xff…

C语言深度剖析之程序环境和预处理

1.程序的翻译环境和执行环境 第一种是翻译环境,在这个环境中源代码被转换为可执行的机器指令 第二种是执行环境,它用于实际执行代码 2.翻译环境 分为四个阶段 预编译阶段 ,编译,汇编,链接 程序编译过程:多个…

使用vue3,vite,less,flask,python从零开始学习硅谷外卖(16-40集)

严正声明! 重要的事情说一遍,本文章仅供分享,文章和代码都是开源的,严禁以此牟利,严禁侵犯尚硅谷原作视频的任何权益,我知道学习编程的人各种各样的心思都有,但这不是你对开源社区侵权的理由&am…

iptables防火墙之SNAT与DNAT

目录 1、SNAT策略概述 1.SNAT策略的典型应用环境 2.SNAT策略的原理 3.SNAT工作原理 4.SNAT转换前提条件 5.开启SNAT命令 6.SNAT转换 2.SNAT示例 1. 配置网关服务器 2.Xshell 连接192.168.100.100 3.DNAT策略及应用 1. DNAT策略概述 2.DNAT 策略的应用 3.DNAT转换前提条件…

看完这篇 教你玩转渗透测试靶机vulnhub——Hack Me Please: 1

Vulnhub靶机Hack Me Please: 1渗透测试详解Vulnhub靶机介绍:Vulnhub靶机下载:Vulnhub靶机安装:Vulnhub靶机漏洞详解:①:信息收集:②:漏洞利用③:获取反弹shell:④&#x…

how https works?https工作原理

简单一句话: https http TLShttps 工作原理:HTTPS (Hypertext Transfer Protocol Secure)是一种带有安全性的通信协议,用于在互联网上传输信息。它通过使用加密来保护数据的隐私和完整性。下面是 HTTPS 的工作原理:初始化安全会…

Camtasia2023最新版电脑视频录屏记录编辑软件

在Mac或Wind上有各种可用的视频记录和编辑软件,其中Camtasia被称为视频记录器和视频编辑器。录屏软件Camtasia2023到底有什么特色功能?本文将帮助您选择理想的选择来开始视频捕获,创建和编辑。Camtasia2023是Mac/win平台上一款使用非常简单的…

【JavaScript】题(牛客网)——熟练使用函数调用,超详细讲解

1 熟练使用函数调用 1.1 题目 执行以下程序,输出结果为 var uname "window"; var object {uname: "object",fun: function () {console.log(this.uname);return function () {console.log(this.uname);};}, };object.fun()();1.2 答案 ob…