文献阅读：Scaling Instruction-Finetuned Language Models

文献阅读：Scaling Instruction-Finetuned Language Models

news2026/2/7 22:58:04

文献阅读：Scaling Instruction-Finetuned Language Models
- 1. 文章简介
- 2. 实验
  - 1. 数据集 & 模型
    - 1. 数据集考察
    - 2. 使用模型
  - 2. scale up对模型效果的影响
  - 3. CoT对模型效果的影响
  - 4. 不同模型下Flan的影响
  - 5. 开放接口人工标注指标
- 3. 结论

文献链接：https://arxiv.org/abs/2210.11416

1. 文章简介

这篇文章同样是Google在上年发表的一篇同样关于大模型的工作。

在这篇文章当中，作者对Flan进行了更加细致的考察。

在这里插入图片描述

具体来说，在Flan最开始提出的时候，Flan只是用在了预训练语言模型上，但是这篇文章当中对Flan的适用范围以及使用的数据集等做了进一步的扩展研究，具体来说：

在Palm以及T5模型上测试了Flan的效果；
将Flan的数据任务进行了scale up；
将模型的size进一步进行了scale up；
加入CoT数据考察效果。

基于此，文章获得了更好的整体指标表达以及一些case如下：

在这里插入图片描述

在这里插入图片描述

下面，我们来具体看看文中的实验结果。

2. 实验

1. 数据集 & 模型

首先，我们来看一下文中使用的数据集以及模型进行一下整理。

1. 数据集考察

我们首先看一下文中使用的数据集：

在这里插入图片描述

可以看到，相较于前作Flan的62个训练任务，本文对任务进行了大幅的扩充，扩展至146个任务类型中的473个数据集以及合计1836个任务。

其中，关于CoT数据集的使用方式如下：

在这里插入图片描述

可以看到，其实就是加上引导词“by reasoning step-by-step”，然后答案当中加入推理过程。

2. 使用模型

而文中使用的模型则如下表所示：

在这里插入图片描述

可以看到，文中同时考察了自回归语言模型以及Transformer架构的T5模型，比对了不同的预训练方式以及不同的模型size下Flan的效果。

2. scale up对模型效果的影响

下面，我们首先来看一下scale up对模型效果的影响，具体包括：

模型size的scale up对模型效果的影响；
训练任务的scale up对模型效果的影响；

给出文中的实验结果如下：

在这里插入图片描述

可以看到：

随着模型size的增大，模型效果不断提升；
随着模型使用的finetune数据集的增多，模型效果也是不断提升的。

更直观的，文中还给出了上述结果的图表形式：

在这里插入图片描述

3. CoT对模型效果的影响

然后，我们来看一下CoT数据集对模型效果的影响。

同样，我们首先给出文中的实验结果表格如下：

在这里插入图片描述

可以看到：

CoT数据集对于LLM的效果总是正向的。

而在不同的benchmarks下，可以看到：

对于CoT benchmarks，CoT数据集对效果提升很明显，而对于non-CoT benchmarks，CoT数据集对于模型效果并没有太大的影响。

在这里插入图片描述

另外文中还在BBH数据集上考察了CoT对于Zero-Shot的影响，得到结果如下图所示：

在这里插入图片描述

可以看到：

对于不加入Flan训练的Palm模型，CoT文本的加入并不能够带来效果的提升；
对于Flan之后的Palm模型，CoT能够明显的提升模型的效果；
Flan本身也能够给模型带来足够的效果提升。

最后，文中还给了几个具体的case如下：

在这里插入图片描述

4. 不同模型下Flan的影响

除了在自回归语言模型的情况下，文中还对T5进行了考察，看了一下T5这种完形填空式的预训练方式得到的大模型对于Flan以及CoT数据集的兼容性，得到结果如下：

在这里插入图片描述

5. 开放接口人工标注指标

最后，文章使用人工标注结果对比了Flan-PaLM以及PaLM模型的效果，得到结果如下：

在这里插入图片描述

可以看到：

Flan-PaLM的效果确实是优于PaLM的。

3. 结论

综上，文章进一步考察了Flan以及CoT在大模型中的效果，整体上可以看到：

Flan和CoT对于模型效果都是正向的影响，且目前看起来还没有到顶；
Flan以及CoT除了在自回归模型上有效之外，在T5上面同样有效，但是前者似乎效果更好。

不过还是那个说法，大模型现在真就是看着玩玩了，完全不可本地服务化，也不可能自己去跑这看效果，这能通过外部接口访问了，大概就只能作为旁观者看他们玩了……

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/339744.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

【C++】类和对象（一）

【C++】类和对象（一）

目录一、面向过程和面向对象初步认识二、类的引入三、类的定义四、类的访问限定符及封装4.1、访问限定符4.2、封装五、类的作用域六、类的实例化七、类对象的大小八、this指针8.1、this指针的引出8.2、this指针的特性8.3、C语言和C实现Stack的对比一、面向过程和面向对象初步认…

阅读更多...

XSS漏洞,通过XSS实现网页挂马

XSS漏洞,通过XSS实现网页挂马

**今天讲下通过XSS实现网页挂马~*，目的是了解安全方面知识，提升生活网络中辨别度原理： 实验分为两部分： 1、通过Kali linux，利用MS14_064漏洞，制作一个木马服务器。存在该漏洞的用户一旦通过浏览器访问木…

阅读更多...

C语言（C文件处理函数和文件指针）

C语言（C文件处理函数和文件指针）

C语言有很多文件操作函数，这里我们挑了一些重要的开始讲，首先说下这些函数都定义在stdio.h头文件中目录一.文件指针二.文件处理函数 1.fopen（打开文件） 2.fclose(关闭文件) 3.getc和putc(从文件指针读取字符) 4.I/O工作…

阅读更多...

「C++控制台生存游戏」暗黑体素 DarkVoxel 控制台版

「C++控制台生存游戏」暗黑体素 DarkVoxel 控制台版

“《只有作者能看懂的一款游戏》” 刚进高中前开始写的一款抽象的生存游戏 BUG很多请见谅 ###【点击此处，免费畅玩】### 类似泰拉瑞亚的一款游戏『暗黑体素 DarkVoxel』直接上图！ 用控制台写出如此奇葩的生存游戏，可谓世间少有。操作…

阅读更多...

2022黑马Redis跟学笔记.实战篇(二)

2022黑马Redis跟学笔记.实战篇(二)

2022黑马Redis跟学笔记.实战篇二实战篇Redis开篇导读4.1短信登录4.1.1. 搭建黑马点评项目一、导入黑马点评项目二、导入SQL三、有关当前模型四、导入后端项目相关依赖配置redis和mysql连接项目组成概述关闭Linux防火墙五、导入前端工程六、运行前端项目4.1.2. 基于Session实现…

阅读更多...

选购交换机的参数依据和主要的参数指标详解

选购交换机的参数依据和主要的参数指标详解

如何选购交换机？用什么交换机？在选购交换机时交换机的优劣无疑十分的重要，而交换机的优劣要从总体构架、性能和功能三方面入手。交换机选购时。性能方面除了要满足RFC2544建议的基本标准，即吞吐量、时延、丢包率外，随着…

阅读更多...

网络是怎么连接笔记（一）WEB浏览器

网络是怎么连接笔记（一）WEB浏览器

文章目录介绍生成HTTP请求消息向DNS服务器查询WEB服务的IP地址全世界DNS服务器的大接力委托协议栈发送消息介绍互联网整个消息传递流程生成HTTP请求消息向DNS服务器查询WEB服务的IP地址然后DNS服务器进行查询IP地址委托协议给对应IP发送消息生成HTTP请求消息整个网络发…

阅读更多...

Spring面试重点（三）——AOP循环依赖

Spring面试重点（三）——AOP循环依赖

Spring面试重点 AOP 前置通知（Before）：在⽬标⽅法运行之前运行；后置通知（After）：在⽬标⽅法运行结束之后运行；返回通知（AfterReturning）：在⽬标…

阅读更多...

2023年前端面试知识点总结（CSS篇）

2023年前端面试知识点总结（CSS篇）

近期整理了一下高频的前端面试题，分享给大家一起来学习。如有问题，欢迎指正！ 1. 对CSS盒模型的理解 CSS3的盒模型有两种盒子模型：标准盒子模型、IE盒子模型盒模型都是由四个部分组成的，分别是content（内容…

阅读更多...

layui框架学习（6：基础菜单）

layui框架学习（6：基础菜单）

菜单是应用系统的必备元素，虽然网页中的导航也能作为菜单使用，但菜单和导航的样式和用途有所不同（不同之处详见参考文献5）。Layui中用不同的预设类定义菜单和导航的样式，同时二者依赖的模块也不一样。本文主要学习和记…

阅读更多...

Vue (3)

Vue (3)

文章目录1. 数据代理1.1 回顾1.2 开始2. 事件处理2.1 v-on:click 点击事件2.2 事件修饰符2.3 键盘事件3. 计算属性3.1 插值语法实现3.2 methods实现3.3 计算属性实现4. 监视属性4.1 深度监视4.2 监视属性的简写形式4.3 watch 与 computed 对比1. 数据代理在学习数据代理时先…

阅读更多...

SQL数据查询——单表查询和排序

SQL数据查询——单表查询和排序

文章目录一、单表查询1.查询列1）查询全部列指定列2）查询经过计算的值3）列的别名2.查询元组1）消除取值重复的行(DISTINCT)2）条件查询(WHERE)3.空值参与运算4.着重号二、排序(ORDER BY子句)一、单表查询单表查询指仅涉及…

阅读更多...

Webpack的知识要点

Webpack的知识要点

在前端开发中，一般情况下都使用 npm 和 webpack。　　npm是一个非常流行的包管理工具，帮助开发者管理项目中使用的依赖库和工具。它可以方便地为项目安装第三方库，并在项目开发过程中进行版本控制。　　webpack是一个模块打包工具&#xff…

阅读更多...

C语言深度剖析之程序环境和预处理

C语言深度剖析之程序环境和预处理

1.程序的翻译环境和执行环境第一种是翻译环境，在这个环境中源代码被转换为可执行的机器指令第二种是执行环境，它用于实际执行代码 2.翻译环境分为四个阶段预编译阶段 ，编译，汇编，链接程序编译过程：多个…

阅读更多...

使用vue3,vite,less,flask,python从零开始学习硅谷外卖(16-40集)

使用vue3,vite,less,flask,python从零开始学习硅谷外卖(16-40集)

严正声明！ 重要的事情说一遍，本文章仅供分享，文章和代码都是开源的，严禁以此牟利，严禁侵犯尚硅谷原作视频的任何权益，我知道学习编程的人各种各样的心思都有，但这不是你对开源社区侵权的理由&am…

阅读更多...

iptables防火墙之SNAT与DNAT

iptables防火墙之SNAT与DNAT

目录 1、SNAT策略概述 1.SNAT策略的典型应用环境 2.SNAT策略的原理 3.SNAT工作原理 4.SNAT转换前提条件 5.开启SNAT命令 6.SNAT转换 2.SNAT示例 1. 配置网关服务器 2.Xshell 连接192.168.100.100 3.DNAT策略及应用 1. DNAT策略概述 2.DNAT 策略的应用 3.DNAT转换前提条件…

阅读更多...

看完这篇教你玩转渗透测试靶机vulnhub——Hack Me Please: 1

看完这篇教你玩转渗透测试靶机vulnhub——Hack Me Please: 1

Vulnhub靶机Hack Me Please: 1渗透测试详解Vulnhub靶机介绍：Vulnhub靶机下载：Vulnhub靶机安装：Vulnhub靶机漏洞详解：①：信息收集：②：漏洞利用③：获取反弹shell：④&#x…

阅读更多...

how https works？https工作原理

how https works？https工作原理

简单一句话： https http TLShttps 工作原理：HTTPS (Hypertext Transfer Protocol Secure)是一种带有安全性的通信协议，用于在互联网上传输信息。它通过使用加密来保护数据的隐私和完整性。下面是 HTTPS 的工作原理：初始化安全会…

阅读更多...

Camtasia2023最新版电脑视频录屏记录编辑软件

Camtasia2023最新版电脑视频录屏记录编辑软件

在Mac或Wind上有各种可用的视频记录和编辑软件，其中Camtasia被称为视频记录器和视频编辑器。录屏软件Camtasia2023到底有什么特色功能？本文将帮助您选择理想的选择来开始视频捕获，创建和编辑。Camtasia2023是Mac/win平台上一款使用非常简单的…

阅读更多...

【JavaScript】题（牛客网）——熟练使用函数调用，超详细讲解

【JavaScript】题（牛客网）——熟练使用函数调用，超详细讲解

1 熟练使用函数调用 1.1 题目执行以下程序，输出结果为 var uname "window"; var object {uname: "object",fun: function () {console.log(this.uname);return function () {console.log(this.uname);};}, };object.fun()();1.2 答案 ob…

阅读更多...

推荐文章

最新文章