ACL 2022 | chatglm微调神器P-Tuning v2论文学习

ACL 2022 | chatglm微调神器P-Tuning v2论文学习

news2025/6/30 14:48:07

一、概述

title：P-Tuning v2: Prompt Tuning Can Be Comparable to Fine-tuning Universally Across Scales and Tasks

论文地址：https://arxiv.org/abs/2110.07602

代码：GitHub - THUDM/P-tuning-v2: An optimized deep prompt tuning strategy comparable to fine-tuning across scales and tasks

1.1 Motivation

之前的prompt tuning方法对正常大小的模型（小模型例如BERT）效果比较差，另外对于有些任务（例如序列标注）效果也不太行。
本文提出一个方法适应于不同大小的模型，并且对各种NLU任务效果都不错，

1.2 Methods

之前的prompt tuning方法只在embedding层加了prompt参数，本文在其他层也添加可训练的prompt参数，提升其适用各种任务的容量（能力）

1.3 Conclusion

添加可训练的参数，提升其适应各式各样任务的能力
加的位置越深（越靠近输出层），效果越好

1.4 limitation

创新新可能不太够，但是提供了一个强的baseline，具有高的准确率和参数有效性。

二、详细内容

1 与v1版本效果对比，可以适用于各种大小的模型

v1模型在330M的模型上，效果比fine-tuning差的比较多，如今v2版本，基本和fine-tuning在各种尺寸上效果都差别不大了。

2 与v1版本模型结构对比

v1:

- 因为序列长度的限制，可训练的参数还比较少
- 输入的embeding没有直接影响模型的输出

v2

- 每一层都加上可训练的参数，可训练的参数变多了（0.01%->0.1%-0.3%）,对各式各样的任务，有更大的容量（能力）去适应
- prompt加到更深的层次，可以直接影响输出

3 模型效果

在NLU任务上，不同尺寸的模型，效果都比v1版本好

在序列标注任务，QA任务，语义角色Labeling上，效果也比v1版本好
Multi-task：多任务训练初始化，可以获得持续的提升

4 同样数量的连续prompts加的层数越深（越靠近输出层）效果越好

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/534645.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

ESP32 浮点性能评估

ESP32 浮点性能评估

根据数据表，处理器应该包含一个硬件浮点单元： ESP32数据手册摘录我编写了一个小测试来测量单精度（32 位）和双精度（64 位）的基本浮点运算。除了这些基本测试之外，我还测量了一个典型的小型算法的性能，该算法计算天文学中使用的本地视恒星时间。作为参考，我在 STM32…

阅读更多...

Apache Kafka实战：超越数据边界-Apache Kafka在大数据领域的崭新征程【上进小菜猪大数据】

Apache Kafka实战：超越数据边界-Apache Kafka在大数据领域的崭新征程【上进小菜猪大数据】

上进小菜猪，沈工大软件工程专业，爱好敲代码，持续输出干货。 Apache Kafka 本文将介绍Apache Kafka在大数据领域的应用及其重要性，并提供一些代码实例来帮助读者更好地理解和应用Apache Kafka。文章主要包括以下几个方面&#xf…

阅读更多...

GPT-2 面试题

GPT-2 面试题

简介 1、GPT-2 是什么？它是基于什么模型的？ GPT-2 是一种人工智能的大型语言模型，由 OpenAI 在2019年提出。它是基于变压器（Transformer）模型的，使用了自注意力（Self-Attention）机…

阅读更多...

分布式锁的实现？

分布式锁的实现？

分布式锁的实现？ 答： 应用比较广泛：后台业务的防重提交以前的传统应用用户流量比较小，为了节省成本，很多应用的成本都是单节点部署，为了解决单节点访问资源一致性的问题，对于java来说&#…

阅读更多...

linux系统(守护进程-线程)08_守护进程,线程，线程创建，线程退出，线程回收，杀死线程，线程分离，线程属性分离

linux系统(守护进程-线程)08_守护进程,线程，线程创建，线程退出，线程回收，杀死线程，线程分离，线程属性分离

01 学习目标 1.守护进程的特点 2.熟练进行守护进程的创建 3.熟练掌握多线程的创建 4.熟练掌握线程的退出和资源回收 02 守护进程相关的概念进程组：多个进程在同一个组，第一个进程默认是进程组的组长。会话：进程组的更高一级，多…

阅读更多...

二分搜索帮我解决实际问题

二分搜索帮我解决实际问题

文章阅读文章阅读二分搜索代码框架常应用于「在有序数组中搜索指定元素」这个基本场景，具体的实际问题可以没有那么直接，但是也可以使用二分搜索进行解决实际问题一般都让你求最值，比如让你求吃香蕉的「最小速度」，让你求轮船…

阅读更多...

JavaWeb《后端内容：4. 项目实战：书城系统》

JavaWeb《后端内容：4. 项目实战：书城系统》

0.把之前的系统的Myssm部分封装为包新建空的工件jar包创建相同的文件夹，导入相应文件要从out里面导入字节码文件全部设置完后点构建工件，然后点刚刚我们设置的这个工件，然后从src下的out文件相应的位置就能找到这个jar包，用于…

阅读更多...

Discourse Table Builder 插件

Discourse Table Builder 插件

ABC 仓库链接GitHub - discourse/discourse-table-builder: A theme component that allows for easily building and editing of markdown tables in Discourse. 概述Table Builder 这个插件能够让用户能够在 Discourse 的编辑对话框中快速的对表格进行编辑，同时也…

阅读更多...

Flink学习——处理不同数据源的流数据，存入不同的Sink端

Flink学习——处理不同数据源的流数据，存入不同的Sink端

目录一、单机版安装二、IDEA操作Flink (一)添加依赖 (二)数据源——Source 1.加载元素数据 2.加载集合数据 3.加载文件目录 4.加载端口 5.加载kafka的topic——重要&常用 6.加载自定义数据源 (三)输出端——Sink 1.读取文件中的数据，处理后输出到…

阅读更多...

ESP32设备驱动-振动电机模块驱动

ESP32设备驱动-振动电机模块驱动

振动电机模块驱动文章目录振动电机模块驱动1、振动电机介绍2、硬件准备3、软件准备4、驱动实现1、振动电机介绍振动电机是用于产生振动的机械装置。振动的产生是在驱动轴上质量不均匀的电动机的支持下发生的。它是一种微型直流电机，通过振动让用户知道声音。在此必须注…

阅读更多...

《计算机网络—自顶向下方法》 Wireshark实验（五）：UDP 协议分析

《计算机网络—自顶向下方法》 Wireshark实验（五）：UDP 协议分析

用户数据报(UDP)协议是运输层提供的一种最低限度的复用/分解服务，可以在网络层和正确的用户即进程间传输数据。UDP 是一种不提供不必要服务的轻量级运输协议，除了复用/分用功能和简单的差错检测之外，几乎就是 IP 协议了，也可以说它…

阅读更多...

RabbitMQ养成记（10.高级特性：死信队列，延迟队列）

RabbitMQ养成记（10.高级特性：死信队列，延迟队列）

死信队列（DLX） 这个概念在其他MQ产品里面也是有的，只不过在Rabbitmq中稍微特殊一点什么叫私信队列呢？ 就是当消息成为 dead message之后，可以重新发到另外一台交换机，这个交换机就是DLX。注意这里的有翻…

阅读更多...

基于OpenCV的人脸检测软件（含Python源码+UI界面+图文详解）

基于OpenCV的人脸检测软件（含Python源码+UI界面+图文详解）

软件功能演示摘要：人脸检测的目标是找出图像中所有的人脸对应的位置，算法的输出是人脸外接矩形在图像中的坐标，可能还包括姿态如倾斜角度等信息。本文详细介绍了其实现的技术原理，同时给出完整的Python实现代码，并且通…

阅读更多...

GeoTools实战指南: 空间坐标系-地理信息科学的核心

GeoTools实战指南: 空间坐标系-地理信息科学的核心

GeoTools实战指南: 空间坐标系-地理信息科学的核心引言在我们的日常生活中，地图、GPS导航和地理位置服务已经变得司空见惯。但是，你有没有想过这些工具背后的工作原理呢？它们都依赖于一种称为"空间坐标系"的关键概念。本文将深入探讨空间坐标系的基础知识和其…

阅读更多...

多线程专题（上）学习随手笔记

多线程专题（上）学习随手笔记

JMM：主内存物理内存线程共享，工作内存CPU缓存线程独占volatile：可见性、禁止指令重排，不可保证原子性；用于懒汉单例模式（双重检测）或状态标记Synchronized：保证代码块或方法同步化执…

阅读更多...

Unity的URP下使用SRPBatcher

Unity的URP下使用SRPBatcher

大家好，我是阿赵。这里继续来讲一下URP相关的东西。这次主要说的是SRP Batcher的使用一、在URP下实现SRP Batcher 1、设置在我们创建的URPAsset文件的高级选项里面，有一个SRP Batcher的开关，默认就是勾上的。 2、修改shader 在把项目转…

阅读更多...

小白白也能学会的 PyQt 教程 —— 自定义组件 Switch Button

小白白也能学会的 PyQt 教程 —— 自定义组件 Switch Button

文章目录前言思路讲解代码部分前言最近在搞 Python 课程设计，想要搞一个好看的 UI，惊艳全班所有人。但打开 Qt Creator，Win7 风格的复古的按钮是在让我难以下手。其次，我因为想要打造一个 Fluent UI 样式的设置页面&#xff…

阅读更多...

详解c++STL—string组件

详解c++STL—string组件

目录一、string基本概念 1、本质 2、string和char * 区别： 3、特点： 二、string构造函数 1、构造函数原型 2、示例三、string赋值操作 1、赋值的函数原型 2、示例四、string字符串拼接 1、函数原型 2、示例五、string查找和替换 1、功…

阅读更多...

tomcat目录结构

tomcat目录结构

tomcat服务器安装根目录下有很多子目录，这些目录的作用是： (1)bin：存放了tomcat服务器中的可执行的批处理文件(startup.bat shutdown.bat) (2)conf：存放了tomcat相关的配置文件(其中的server.xml是tomcat服务器核心配置文件) …

阅读更多...

26. Pandas处理分析网站原始访问日志

26. Pandas处理分析网站原始访问日志

Pandas处理分析网站原始访问日志目标：真实项目的实战，探索Pandas的数据处理与分析实例： 数据来源：我自己的wordpress博客蚂蚁学Python – 你有没有为写代码拼过命？那你知不知道人生苦短，我用Python&am…

阅读更多...

推荐文章

最新文章