文献阅读：Finetuned Language Models Are Zero-Shot Learners

文献阅读：Finetuned Language Models Are Zero-Shot Learners

news2025/4/13 3:36:14

文献阅读：Finetuned Language Models Are Zero-Shot Learners
- 1. 文章简介
- 2. 方法介绍
- 3. 实验
  - 1. 数据集整理
  - 2. 基础实验
  - 3. 消解实验
    - 1. finetune任务数量
    - 2. 模型size
    - 3. Instruct Tuning
    - 4. Few-Shot
    - 5. Prompt Tuning
- 4. 结论

文献链接：https://arxiv.org/abs/2109.01652

1. 文章简介

这篇文章是上年两月份的Google发表的一个工作，提出了他们所谓的Flan模型，算是大模型当中目前比较著名的变体之一了，后面又引申出了Flan-T5，反正都是一个系列的。

上年挺早的时候就听说过这个工作了，然后后面也是在各类报告还有博客推广当中都看到过Flan的大名，也算是相当有名的一个工作了，但是因为是大模型，在实际工作中感觉也不太能用的到，因此虽然很早就知道这个工作，但是其实也一直没有去真正去看过这篇文献，直到现在稍微有点空闲了才回过头来拜读了一下这个原文。

不过，坦率地说，多少有点失望了，因为文中其实没啥特别新的东西，结论也是非常平凡的一个结论，基本可以用一句话来概括：

大规模语言模型在经过了标注数据的Finetune之后可以达到更好的效果，且在Finetune中从未见过的任务当中也能够获得更好地效果表达。

在这里插入图片描述

这个结论还是挺平凡的，不过真心一般人玩不起来就是了，不得不说，有钱真好啊……

2. 方法介绍

下面，我们来具体看一下文中的方法，也就是文中提出的FLAN模型。

FLAN模型是Finetuned Language Net的缩写，顾名思义，其实就是对Language模型进行了一下Finetune，不过FLAN的finetune方式是Instruction Tuning，也就是说，他事实上是通过在其它类型的标注数据上面进行finetune，然后在没有见过的类型任务当中进行测试。

在这里插入图片描述

这部分其实整体上都感觉没啥有意思的，从实验到结论都挺平凡的，不过文中进行了一些消解实验，这里面还是有一些比较有意思的结论的。

3. 实验

1. 数据集整理

首先，我们来看一下文中使用的数据集整理如下：

在这里插入图片描述

包含了12个大的任务中的62个子数据集。

文中对于每一个任务，都会使用其他任务的数据聚合成一个数据集进行finetune，然后用这个任务中的数据集进行测试。

而有关数据的具体构造方式，文中是通过prompt的方式将标注数据整合成训练文本的，具体如下：

在这里插入图片描述

2. 基础实验

文中将FLAN模型在各类任务当中都进行了考察，具体结果如下：

在这里插入图片描述

可以看到：

FLAN在绝大多数任务当中都取得了不错的表现。

3. 消解实验

下面，我们整理一下文中给出的一些消解实验。

1. finetune任务数量

首先，文中考察了一下Tuning的任务数目对最终的模型效果的影响，得到的结果如下：

在这里插入图片描述

可以看到：

Tuning过程中使用的数据类型越多，模型最终的泛化表现就越好。

2. 模型size

然后，文中还考查了FLAN在不同size模型基础上的表现，得到结果如下：

在这里插入图片描述

这是一个比较有意思的结果，或者说是一个多少有一点反直觉的结果，可以看到：

FLAN在小模型的效果上反而劣于不经过finetune的模型，只有在模型size足够大的情况下，FLAN才会表现出较好的效果。

这部分的原因很可能是由于在小模型上finetune可能会导致模型针对任务过拟合，弱化了模型的整体泛化性能。

3. Instruct Tuning

然后，文中还考察了一下不同的训练数据构造方式对于模型效果的影响：

在这里插入图片描述

可以看到：

Instruction Tuning的方式可以获得更好的模型效果，说明自然语言化的文本对于模型在finetune时的理解还是有帮助的。

4. Few-Shot

另外，在原版的GPT3当中，我们知道Few-Shot的方式可以提升模型的表达效果，因此，这里文中还考察了一下Few-Shot方法在FLAN模型当中是否依然有效。

在这里插入图片描述

可以看到：

Few-Shot的方式在FLAN模型当中依然可以提升模型的表达效果。

5. Prompt Tuning

同样的，现有的实验已经证明，soft prompt效果是由于Instruction Prompt的，因此，文中也考察了一下soft prompt是否也适用于FLAN模型。

在这里插入图片描述

从上图可以看到：

Soft-Prompt Tuning的方式同样适用于FLAN模型。

4. 结论

综上，我们可以看到：

对于大规模语言模型，Finetune依然可以有效的提升模型的效果，即使不是同类型任务的标注数据，依然可以有效地提升模型的效果，且Prompt以及Few-Shot等方法依然可以适用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/340727.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

简单理解小目标分割中的weighted BCE Loss与weighted IoU Loss

简单理解小目标分割中的weighted BCE Loss与weighted IoU Loss

这两个损失函数出自《FNet: Fusion, Feedback and Focus for Salient Object Detection》一文中，用于处理显著性检测(二分割)中小目标的问题。对于传统的BCE Loss，其存在以下三个问题： 只是简单的将每个像素求BCE再平均，忽视了目…

阅读更多...

day5——冒泡排序，选择排序和插入排序的学习

day5——冒泡排序，选择排序和插入排序的学习

选择排序冒泡排序插入排序选择排序选择排序的基本思路就是： 首先假定第一个的下表为所有元素中最小的一个， 然后用后面的每一个元素跟这个元素进行比较， 如果后面的元素比这个元素更小一点， 那么就将找到的最小的元素的下标和…

阅读更多...

【c++】vector实现（源码剖析+手画图解）

【c++】vector实现（源码剖析+手画图解）

vector是我接触的第一个容器，好好对待，好好珍惜！ 目录文章目录前言二、vector如何实现二、vector的迭代器（原生指针） 三、vector的数据结构图解： 四、vector的构造及内存管理 1.push_back() …

阅读更多...

《爆肝整理》保姆级系列教程python接口自动化（十二）--https请求（SSL）（详解）

《爆肝整理》保姆级系列教程python接口自动化（十二）--https请求（SSL）（详解）

简介本来最新的requests库V2.13.0是支持https请求的，但是一般写脚本时候，我们会用抓包工具fiddler，这时候会报：requests.exceptions.SSLError: [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed (_ssl.c:590) 小编…

阅读更多...

C++：提高篇：栈-寄存器和函数状态：windows X86-64寄存器介绍

C++：提高篇：栈-寄存器和函数状态：windows X86-64寄存器介绍

寄存器1、什么是寄存器2、寄存器分类3、windows X86寄存器命名规则4、寄存器相关术语5、寄存器分类5.1、RAX(accumulator register)5.2、RBX(Base register)5.3、RDX(Data register)5.4、RCX(counter register)5.5、RSI(Source index)5.6、RDI(Destination index)5.7、RSP(stac…

阅读更多...

iptables和nftables的使用

iptables和nftables的使用

文章目录前言iptable简介iptable命令使用iptables的四表五链nftables简介nftables命令的时候nftables与iptables的区别iptables-legacy和iptables-nft实例将指定protocol:ip:port的流量转发到本地指定端口前言本文展示了，iptables和nftable命令的使用。 # 实验环…

阅读更多...

win10 安装rabbitMQ详细步骤

win10 安装rabbitMQ详细步骤

win10 安装rabbitMQ详细步骤 win10 安装rabbitMQ详细步骤win10 安装rabbitMQ详细步骤一、下载安装程序二、安装配置erlang三、安装rabbitMQ四、验证初始可以通过用户名：guest 密码guest来登录。报错：安装RabbitMQ出现Plugin configuration unchanged.问题…

阅读更多...

力扣SQL刷题10

力扣SQL刷题10

目录标题618. 学生地理信息报告--完全不会的新题型1097. 游戏玩法分析 V - 重难点1127. 用户购买平台--难且不会618. 学生地理信息报告–完全不会的新题型 max()函数的功效：（‘jack’, null, null）中得出‘jack’，（nul…

阅读更多...

基于微信小程序图书馆座位预约管理系统

基于微信小程序图书馆座位预约管理系统

开发工具：IDEA、微信小程序服务器：Tomcat9.0， jdk1.8项目构建：maven数据库：mysql5.7前端技术：vue、uniapp服务端技术：springbootmybatis本系统分微信小程序和管理后台两部分，项目采用…

阅读更多...

索引的基本介绍

索引的基本介绍

索引概述-优缺点索引介绍：索引是一种高效获取数据的数据结构； 索引优点：提供查询效率；降低IO成本；怎么减低IO成本呢？因为数据库的数据是存放在磁盘的，你要操作数据就会涉及到磁盘IO&#xff0…

阅读更多...

Windows11 安装Apache24全过程

Windows11 安装Apache24全过程

Windows11 安装Apache24全过程一、准备工作 1、apache-httpd-2.4.55-win64-VS17.zip - 蓝奏云 2、Visual Studio Code-x64-1.45.1.exe - 蓝奏云二、实际操作 1、将下载好的zip文件解压放到指定好的文件夹。我的是D:\App\PHP下个人习惯把版本号带上。方便检测错误。 2…

阅读更多...

数组常使用的方法

数组常使用的方法

1. join (原数组不受影响)该方法可以将数组里的元素,通过指定的分隔符,以字符串的形式连接起来。返回值:返回一个新的字符串const arr[1,3,4,2,5]console.log(arr.join(-)；//1-3-4-2-52. push该方法可以在数组的最后面,添加一个或者多个元素结构: arr.push(值)返回值…

阅读更多...

（考研湖科大教书匠计算机网络）第四章网络层-第一、二节：网络层概述及其提供的服务

（考研湖科大教书匠计算机网络）第四章网络层-第一、二节：网络层概述及其提供的服务

获取pdf：密码7281专栏目录首页：【专栏必读】考研湖科大教书匠计算机网络笔记导航文章目录一：网络层概述（1）概述（2）学习内容二：网络层提供的两种服务（1）面向连…

阅读更多...

nginx越界读取缓存漏洞（CVE-2017-7529）

nginx越界读取缓存漏洞（CVE-2017-7529）

range格式: Range: <unit><range-start>- Range: <unit><range-start>-<range-end> Range: <unit><range-start>-<range-end>, <range-start>-<range-end> range事例： Range: bytes500-999 //表示第…

阅读更多...

Spring Security简介

Spring Security简介

前面我们已经完成了传智健康后台管理系统的部分功能，例如检查项管理、检查组管理、套餐管理、预约设置等。接下来我们需要思考2个问题： 问题1：在生产环境下我们如果不登录后台系统就可以完成这些功能操作吗？ 答案显然是否定的&am…

阅读更多...

微前端-模块联邦

微前端-模块联邦

一、 Module Federation 模块联邦概述 Module Federation 即为模块联邦，是 Webpack 5 中新增的一项功能，可以实现跨应用共享模块。二、快速上手需求通过模块联邦在容器应用中加载微应用。应用结构 products ├── package-lock.json ├──…

阅读更多...

程序的机器级表示part3——算术和逻辑操作

程序的机器级表示part3——算术和逻辑操作

目录 1.加载有效地址 2. 整数运算指令 2.1 INC 和 DEC 2.2 NEG 2.3 ADD、SUB 和 IMUL 3. 布尔指令 3.1 AND 3.2 OR 3.3 XOR 3.4 NOT 4. 移位操作 4.1 算术左移和逻辑左移 4.2 算术右移和逻辑右移 5. 特殊的算术操作 1.加载有效地址指令效果描述leaq S, DD…

阅读更多...

【项目实战】32G的电脑启动IDEA一个后端服务要2min！谁忍的了？

【项目实战】32G的电脑启动IDEA一个后端服务要2min！谁忍的了？

一、背景本人电脑性能一般，但是拥有着一台高性能的VDI（虚拟桌面基础架构），以下是具体的配置二、问题描述但是，即便是拥有这么高的性能，每次运行基于Dubbo微服务架构下的微服务都贼久，以下…

阅读更多...

使用太极taichi写一个只有一个三角形的有限元

使用太极taichi写一个只有一个三角形的有限元

公式来源 https://blog.csdn.net/weixin_43940314/article/details/128935230 GAME103 https://games-cn.org/games103-slides/ 初始化我们的三角形全局的坐标范围为0-1 我们的三角形如图所示 ti.kernel def init():X[0] [0.5, 0.5]X[1] [0.5, 0.6]X[2] [0.6, 0.5]x[0…

阅读更多...

每天10个前端小知识【Day 12】

每天10个前端小知识【Day 12】

👩 个人主页：不爱吃糖的程序媛 🙋‍♂️ 作者简介：前端领域新星创作者、CSDN内容合伙人，专注于前端各领域技术，成长的路上共同学习共同进步，一起加油呀！ ✨系列专栏：前端…

阅读更多...

推荐文章

最新文章