EMNLP 2023 | DeepMind提出大模型In-Context Learning的可解释理论框架

news2024/11/25 18:47:37

3855e5ebba92484d949afcfd8e810f71.png

论文题目:In-Context Learning Creates Task Vectors

论文链接:https://arxiv.org/abs/2310.15916

01. 引言

938688b4f9e744c59e743f126fd79f4a.png

此外,作者也提到本文的方法与软提示(soft-prompt)[1]方法类似,soft-prompt也是通过调整大模型内部transformer的激活值来实现特定的新任务,但是本文的方法仅在ICL的前向传播过程中进行调整,而不是微调整个模型来实现

02. 解释ICL的理论框架

2.1 理论框架

2.2 ICL的假设空间

4346f82b5d0e4f798f1df131f8eaf408.png

03. 实验验证

为了验证本文的理论框架,作者设计了4个类别中(包含算法、翻译、语言和事实知识方面)的18项不同任务来进行实验验证,下表中展示了不同任务的任务描述和具体示例。对于测试时使用的LLMs,作者选择了多个开源LLMs,包含LLaMA 7B、13B和30B版本[2]、GPT-J 6B版本[3]以及Pythia 2.8B、6.9B和12B版本[4]。

df55408ac0544d3cb73f8805fee1e7bb.png

7f4f1069978b4971ad7d7bababb3bd29.png

从上图的结果可以看出, 的最优值几乎都在相似的中间层中出现,而与模型的参数规模和层数差异无关

3.2 ICL理论框架的性能对比

c9a78b3eacf34954928a5ea40fc45156.png

3.3 任务向量的鲁棒性

41a000c56f8f4bb1aa3c0a70fe98b7f9.png

上图展示了使用t-SNE算法对任务向量降维后的簇分布情况,每个簇都包含单个任务的任务向量,下图进一步显示了同一类别任务之间的接近程度,这表明任务向量在一定程度上可以掌握不同任务的语义

0b7f6f951e83497290e50f4a13bbb0a1.png

78d06bdf15384ae9b7922f5d1ccaa9ac.png

fdc7ea86eddf47b88d5182fe6db8dc0e.png

上表显示了LLaMA-13B模型在三个任务上的激活token,在多种情况下,可以直接观察到描述任务的token,需要注意的是,这些单词从未明确出现在上下文中。例如,在从法语翻译成英语的任务中,可以观察到诸如“English”和“translate”之类的token。这进一步支持了本文的观点,即 携带了有关任务的重要的语义信息。

04. 总结

本文提出了一种针对LLMs中In-Context Learning的理论探索框架,揭示了一种ICL学习机制的新视角。本文提出的框架具备了简单而优雅的特性,其假设ICL过程通过将输入的训练示例压缩为单个任务向量来发挥作用,并且引导Transformer层根据给定的查询生成目标输出。将原本LLMs复杂的前向传递过程分解为一种学习算法和规则机制的组合,并且通过了大量的实验支持了本文的观点。目前社区的研究方向主要集中在如何提高LLMs的推理性能,但更需要探索LLM内部机理的基础工作作为指导。

参考

[1] Brian Lester, Rami Al-Rfou, and Noah Constant. 2021. The power of scale for parameter-efficient prompt tuning. arXiv preprint arXiv:2104.08691.

[2] Hugo Touvron, Thibaut Lavril et al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971.

[3] Ben Wang and Aran Komatsuzaki. 2021. GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model.

[4] Stella Biderman, Hailey Schoelkopf et al. 2023. Pythia: A suite for analyzing large language models across training and scaling. arXiv preprint arXiv:2304.01373.


  关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>TechBeat,一个荟聚全球华人AI精英的学习成长社区 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1213816.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

C语言查看main函数的参数

这里写自定义目录标题 argc 代表参数的个数argv 代表参数的具体值,其中argv[0]代表的是可执行文件的名字,参考上图

[工业自动化-22]:西门子S7-15xxx编程 - 软件编程 - 如何PLC建立用户界面: SIMATIC 面板式HMI 或工控机PC HMI

目录 前言: 一、PLC(可编程逻辑控制器)的用户界面支持方式 1.1 概述 1.2 西门子(Siemens)的人机界面(HMI)支持多种类型 1.3 PC HMI VS SIMATIC HMI 二、PC—HMI—PLC连接架构的实现 三、…

百度曹海涛:生成式AI正从“探索能力边界”向“推动应用落地”过渡

11月9日,以“星云棋布,步步为‘赢’”为主题的2023 IDC中国生态峰会在北京举办。会上,IDC中国区总裁霍锦洁女士的发表致辞。同时,IDC生态伙伴和行业领袖从多重维度分析了AI技术应用的发展,以及对于整体IT生态所产生的影…

虹科方案 | 从概念到生产的自动驾驶软件在环(SiL)测试解决方案

来源:雅名特自动驾驶 虹科方案 | 从概念到生产的自动驾驶软件在环(SiL)测试解决方案 自动驾驶软件在环(SiL)测试解决方案 自动驾驶软件在环(SiL)测试解决方案能够研究和验证高历程实验和恶劣驾…

PCA降维Python demo

读这篇15年CVPR的文章🤣🤣🤣🤣🤣 inproceedings{liu2015sparse,title{Sparse convolutional neural networks},author{Liu, Baoyuan and Wang, Min and Foroosh, Hassan and Tappen, Marshall and Pensky, Marianna},…

Android 框架

MVC: MVP MVVM Model 数据以及业务数据 View 视图 Control 控制器 simple code MVP OnFinishInflate ViewGroup 加载完成 MVC 优化 Struts MVC- MVP MVC-单次调用逻辑把 MVP / 把C拆分出来 MVVM 2017Google推出ViewModel DataBind MVVM是一种框架规则,双向绑定 Model…

91.移动零(力扣)

问题描述 代码解决以及思想 class Solution { public:void moveZeroes(vector<int>& nums) {int left 0; // 左指针&#xff0c;用于指向当前非零元素应该放置的位置int right 0; // 右指针&#xff0c;用于遍历数组int len nums.size(); // 数组长度while …

kubectl get nodes报错:The connection to the server localhost:8080

报错描述kubectl get nodes命令无法执行 在K8S-master初始化后&#xff0c;worker-node节点加入K8S集群后 kubeadm join 192.168.31.150:6443 --token 2n0t62.gvuu8x3zui9o8xnc \--discovery-token-ca-cert-hash sha256:d294c082cc7e0d5f620fb10e527a8a7cb4cb6ccd8dc45ffaf2c…

TikTok与心灵成长:娱乐与启发并重

社交媒体已成为我们生活的一部分&#xff0c;其中TikTok以其短视频内容和创新性而闻名。然而&#xff0c;TikTok不仅仅是一个娱乐平台&#xff0c;它还具有潜力成为心灵成长的有力工具。本文将探讨TikTok如何在娱乐与启发之间取得平衡&#xff0c;以促进心灵成长和积极影响。 娱…

软件开发之路——关于架构师的一些书籍

文章目录 &#x1f4cb;前言&#x1f3af;什么是架构师&#x1f525;文末送书《高并发架构实战&#xff1a;从需求分析到系统设计》《中台架构与实现&#xff1a;基于DDD和微服务》《架构师的自我修炼&#xff1a;技术、架构和未来》《分布式系统架构&#xff1a;架构策略与难题…

报错资源不足,k8s使用containerd运行容器修改挂载点根目录换成/home

运行k8s一段时间发现存储不足报错 发现这里用的是根路径的挂载&#xff0c;修改一下

基于STM32的LoRaWAN无线通信网络设计与实现

LoRaWAN (Long Range Wide Area Network) 是一种低功耗的无线通信技术&#xff0c;用于构建广域物联网。本篇文章将介绍基于STM32微控制器的LoRaWAN无线通信网络的设计与实现&#xff0c;并提供相应的代码示例。 概述 LoRaWAN的无线通信技术采用低功耗长距离传输&#xff0c;…

基于单片机的公交车报站系统(论文+源码)

1系统设计 本次课题为基于单片机的公交车报站系统&#xff0c;在此主要是基于Proteus平台展开设计&#xff0c;因此结合Proteus平台的特性&#xff0c;将功能设计如下&#xff1a; &#xff08;1&#xff09;公交车具有上行和下行两种状态&#xff0c;可以通过按键进行手动播…

机器人导航+OPENCV透视变换示例代码

透视变换又称四点变换&#xff0c;所以不能用于5边形这样的图形变换&#xff0c;不是真正的透视变换&#xff0c;但是这个方法可以把机器人看到的图像转换为俯视图&#xff0c;这样就可以建立地图&#xff0c;要不然怎么建立地图呢。 void CrelaxMyFriendDlg::OnBnClickedOk()…

【MySql】12- 实践篇(十)

文章目录 1. 为什么临时表可以重名?1.1 临时表的特性1.2 临时表的应用1.3 为什么临时表可以重名&#xff1f;1.4 临时表和主备复制 2. MySql内部临时表使用场景2.1 union 执行流程2.2 group by 执行流程2.3 group by 优化方法 -- 索引2.4 group by 优化方法 -- 直接排序 3. Me…

【华为HCIP | 华为数通工程师】ISIS 高频题(1)

个人名片&#xff1a; &#x1f43c;作者简介&#xff1a;一名大三在校生&#xff0c;喜欢AI编程&#x1f38b; &#x1f43b;‍❄️个人主页&#x1f947;&#xff1a;落798. &#x1f43c;个人WeChat&#xff1a;hmmwx53 &#x1f54a;️系列专栏&#xff1a;&#x1f5bc;️…

2核2G3M带宽云服务器99元(续费同价),阿里云老用户可买!

在阿里云的双11云服务器活动中&#xff0c;用户对轻量服务器2核2G3M带宽和经济型e实例2核2G配置3M带宽特别关注。除了这两款产品&#xff0c;阿里云还提供了其他性价比很高的云服务器配置&#xff0c;让用户有更多的选择。 经济型e实例2核2G3M配置99元一年是适用于个人和普通企…

gRPC协议详解

gRPC介绍 gRPC是一个高性能、开源和通用的RPC&#xff08;远程过程调用&#xff09;框架&#xff0c;由Google发起并开发&#xff0c;于2015年对外发布。它基于HTTP/2协议和Protocol Buffers设计&#xff0c;支持多种编程语言&#xff08;如C、Java、Python、Go、Ruby、C#、No…

【原创】java+swing+mysql个人日记管理系统设计与实现

摘要&#xff1a; 个人日记管理系统是一个可以记录、管理、存储和检索个人日记的应用程序。这个系统允许用户创建和管理多个日记帐户&#xff0c;每个帐户都可以有多个日记条目。用户可以随时添加、编辑或删除日记条目&#xff0c;并可以将这些条目按照主题或其他标准进行分类…

WPF程序给按钮增加不同状态的图片

首先我们在资源里添加几个图片&#xff0c;Up&#xff0c;Over和Down状态。 然后我们创建一个Style。默认我们的背景设置成Up 然后在Triggers里添加代码&#xff0c;当Property&#xff1a;IsMouseOver为True的时候更换成Over&#xff1b;当Property&#xff1a;IsPressed为Tr…