大模型对数据分布变化的鲁棒性研究综述

news2024/11/28 8:35:14

摘要:

       标准机器学习的一个主要限制是它产生的模型对分布变化不鲁棒,其中训练分布与测试分布不匹配(对于下游任务)。现有的工作表明,调整在广泛的未标记数据上训练的基础模型可以提高适应模型在各种变化中的鲁棒性。这为改进基础模型的训练和适应性以提高鲁棒性开辟了一系列新的有希望的方向。然而,我们并不认为基础大模型能完全解决鲁棒性问题--诸如跨时间外推和虚假相关性等挑战不太可能得到充分解决。

       现实世界的机器学习系统需要对分布变化具有鲁棒性-它们应该在与火车分布不同的测试分布上工作良好。高风险应用,如资源不足国家的贫困地图,自动驾驶汽车和医疗诊断,都需要模型很好地概括训练数据中没有看到的情况,例如,测试来自不同国家、不同驾驶条件或不同医院的样本。先前的工作表明,即使在最先进的模型中,这些类型的分布偏移也会导致性能大幅下降

       在本节中,我们考虑基础模型对分布变化的鲁棒性的作用。基础模型是在从分布预处理器采样的大型且多样化的未标记数据集上训练的,并且可以适应许多下游任务。对于每个下游任务T,基础模型被适配为从分布内(ID)的训练分布中采样的标记的训练数据,然后在分布外(OOD)的测试分布中进行评估。𝑝𝑝例如,一个贫困预测模型可以在来自世界各地的未标记卫星数据上进行预训练,以学习所有国家的有用特征,然后在尼日利亚的标记示例上进行微调,最后在标记示例稀缺的马拉维进行评估。

      我们认为:

1)基础模型是一种特别有前途的鲁棒性方法。现有的工作表明,在未标记数据上进行预训练是一种有效的、通用的方法,可以提高OOD测试分布的准确性,而许多鲁棒性干预措施仅限于窄类型的分布变化。然而,我们还讨论了为什么。

2)基础模型可能并不总是减轻分布变化,例如由于假相关或随时间变化而引起的变化。

3)我们概述了几个研究方向,以利用和改善基础模型的鲁棒性。

      我们注意到,基础模型导致改进外推的方法之一是通过为适应模型提供归纳偏差(通过模型初始化),这是在扩展到下游训练数据之外的不同数据集上学习的。然而,同样的归纳偏差也可以从预训练的数据中编码有害的关联,并在存在分布偏移的情况下导致代表性和分配性的损害。有关此类伤害和缓解方法的进一步讨论,请参见第4.6节:数据和第5.1节:公平性。

1.  优势

       通过学习大量不同的基础模型训练分布样本上的表示,基础模型可以提高下游测试分布样本T OOD上的自适应导数的准确性。OpenAICLIP模型是一种在各种图像和自然语言文档集上训练的基础模型,已被证明对ImageNet上的一些基准分布变化具有鲁棒性:例如,CLIP和标准ResNet 50ImageNet上都获得了76%的准确率,但CLIPImageNet V2上的准确率提高了6%,在ImageNet Sketch上的准确率提高了35%,这两者都与原始ImageNet训练分布相关但不同。相比之下,许多其他鲁棒性干预措施,如对抗性训练、不变风险最小化或使用更大的模型,对有效鲁棒性的影响很小(定义为分布内和分布外性能之间的差距),特别是在没有分布偏移的明确知识的情况下。许多其他工作表明,在大型数据集上进行预训练可以提高对常见图像损坏、标签移位和标签损坏的鲁棒性;对卫星图像任务中的真实世界空间移位的鲁棒性;以及对自然语言理解任务中的跨主题移位的鲁棒性。作为另一个例子,将基础模型训练数据多样化以包括多种语言(如多语言BERT )显着提高了看不见的语言对的性能。

各种分布变化的分布内(ID)和分布外(OOD)输入。这里描述的预测任务是图像的图像分类和文本的事实验证。尽管基础模型学习的表示提高了许多移位的下游鲁棒性(例如,常见的腐败),一些变化,如虚假相关性(其中草是牛的预测)和跨时间的外推(随着时间的推移而变化的事实)仍然可能未被基础模型解决。

2. 持续的挑战

       尽管有迹象表明,基础模型将导致鲁棒性的大幅改善,但我们预计基础模型并不是解决分布变化的灵丹妙药。我们在下面两大类分布变化的背景下讨论这一点。

假相关

       虚假相关性是特征和标签之间的统计相关性,对训练分布具有预测能力,但对测试分布没有预测能力。众所周知的例子包括依赖背景颜色进行对象识别,医疗诊断的手术标记,众包数据中的注释者偏见和人口统计学偏倚。模型学习这些虚假的相关性很大程度上是因为基础模型训练和适应数据表现出这些偏差,并且这个问题不能简单地用更大的模型来解决。基础模型可能会加剧或减轻虚假相关性的影响,但这取决于特定下游任务的性质及其与基础模型训练数据和算法的关系。通过用不同的数据集进行训练,基础模型可以提高对仅在训练数据的子集中发现的虚假相关的鲁棒性:例如,现有的研究发现,预训练的语言模型可以通过快速从反例学习到虚假相关来避免虚假相关。然而,基础模型也可能通过引入基础模型训练数据中存在的偏差来加剧这个问题,如在GPT-3和其他NLP模型中观察到的人口统计学偏差[。此外,单独的大规模训练不需要完全解决识别和不依赖于对下游训练集有预测性但对下游测试集没有预测性的特征的根本问题[Heinze-Deml and Meinshausen 2017]。解决这些挑战将需要我们理解和管理基础模型训练中的归纳偏差,并开发出能够抵抗学习虚假相关性的自适应算法。

外推和时间漂移

最后,基础模型的少量和零射击能力将意味着这些模型将越来越多地被用于远远超出训练分布的范围。虽然大规模的基础模型训练可以帮助某些形式的外推到新的分布,但它们的外推能力可能有限。例如,现有的语言模型在没有重新训练的情况下无法处理世界知识的变化或语言变化CLIP中的零拍摄传输在卫星图像领域受到很大影响ImageNet预训练并没有实质性地提高大型模型在医学图像上的性能。我们认为,不能假设基础模型在给定模态内自动外推(例如,所有图像),而且界定和区分基金会模型新启用的外推形式与仍然无法实现的外推形式将变得越来越重要。虽然现有的分布变化分类法已被普遍提出,但充分理解和定义基础模型有效的分布变化类型是鲁棒性研究的一个主要开放问题。

3. 机会

基础模型作为分布变化的通用鲁棒性干预措施,为鲁棒性研究开辟了新的途径。我们在下面列出了一些机会和开放的问题。

了解基础模型表达

现有的基础模型的鲁棒性研究主要是经验性的,并且对鲁棒性增益背后的机制几乎没有了解。Sun et al. 假设预训练的表示将不同的域(如IDOOD分布)更紧密地联系在一起,这反过来可以提高从标记的ID数据到OOD数据的泛化能力。测量有无预训练的领域表征之间的距离的控制实验可以阐明这种效应。在表征基础模型训练方面有初步的有希望的方向(例如,对比学习作为谱图分解)及其归纳偏差。然而,这些理论是有限的,并且未能解决其他经验上有效的基础模型,例如完全生成语言模型(例如,GPT-3和图像-GPT )。进一步理解这些归纳偏差在分布偏移下如何有用,可能会导致关于基础模型如何提高鲁棒性的更完整的理论。基础模型训练中的数据扩充。虽然在不了解下游任务的情况下训练的基础模型可以避免一些特定于任务的偏差,并且通常可以提高鲁棒性,但由于基础模型的训练方式而产生的某些统计偏差可能会持续存在。作为一个具体的例子,许多当代的自我监督算法在很大程度上依赖于选择一组适当的数据增强,这反过来又赋予了适应阶段不同类型的鲁棒性。例如,表明,通过旋转增强的对比学习训练的视觉基础模型可以提高具有旋转不变性的自适应任务的OOD性能,但可能无法提高OOD泛化需要其他不变性的任务的鲁棒性。进一步研究什么类型的数据增强可以提高广泛的下游任务的鲁棒性-包括从数据中学习的数据增强或设计为在数据模态中普遍适用的数据增强 -将为更好的基础模型训练算法提供信息。基础模型训练中的编码结构。一般来说,探索编码数据中已知结构和不变性的新方法是基础模型训练的重要途径。许多现实世界的任务具有附加的元数据(例如,空间位置坐标、来自我们的贫困预测示例中的辅助卫星的气候信息),这可以为OOD概括提供附加的结构(例如,跨地理区域)。例如,Xie等人。表明,元数据可以用作预训练的目标,以提高下游OOD的准确性。在语言中,对HTML数据中的标签进行建模提供了额外的下游任务相邻监督,允许新形式的提示(例如,填充<title>标题建议的标签),并提高数据效率。虽然目前的数据增强方法编码手工制作的知识,其他途径,如利用元数据可以提供更自动化的方式来确定哪些结构和不变性纳入基础模型训练。基础模型训练数据的专业化与多样性。基础模型训练数据的选择具有下游效应-在更多样化的数据集上进行训练并不总是比更专业的基础模型更好地获得下游性能。在某些领域,如卫星图像和专业文本主题,在专业领域继续进行预训练可显着提高下游性能。这是一个潜在的紧张来源:一方面,我们可能希望在一个大型的,多样化的数据集上训练基础模型,以便在分布变化下具有更强大的性能,而另一方面,我们可能需要专门化基础模型,以提高其在下游任务上的分布内和分布外性能。更好地理解专业化如何影响基础模型的分布内和分布外性能,将使我们能够设计和收集更有效的基础模型训练集。

适应方法。虽然基础模型提供了一个强有力的起点,但自适应方法如何使用预训练信息可能会影响鲁棒性。例如,用于语言模型的轻量级调优方法(例如,适配器/前缀/提示调优),通过优化一小部分参数(例如连续提示),同时保持其他基础模型参数不变,使模型适应新任务,似乎可以给予OOD性能优势Xie et al.在一种特殊情况下解释了这一点,其中将学习模型与冻结基础模型组合可以降低学习模型的复杂性,从而提高IDOOD的泛化能力。在视觉数据集上,Wortsman等人。; Kumar等人发现,冻结基础模型并仅训练头部可以比微调整个模型带来更好的OOD性能。Kumar等人从理论上解释了这一点,表明即使在简单的设置(双层线性网络)中,完全微调也会扭曲预训练的特征。然而,它仍然是很少理解的一般为什么冻结参数似乎提高OOD性能。最后,虽然目前的适应方法可能足以良好的ID推广,方法不明确占分布转移在他们的设计。作为第一步,我们可以研究用于分布转移的方法,如域自适应,域泛化和半监督学习方法,在用于自适应时如何与基础模型交互。在这些方面取得的进展可以导致适应方法,可以更好地利用基础模型的鲁棒性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1300366.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【Java 基础】28 字符编码

文章目录 1.字符集2.编码方式1&#xff09;ASCII2&#xff09;UTF-8 编码3&#xff09;UTF-16 编码4&#xff09;ISO-8859-1 编码 3.使用样例Charset 类String 类 4.注意事项结语 字符编码&#xff08;Character Encoding&#xff09;是一种将字符映射为二进制数据的规则或算法…

如何理解 RPC 远程服务调用?

本文主要讲解 RPC 远程服务调用相关的知识。 RPC 远程服务调用是分布式服务架构的基础&#xff0c;无论微服务设计上层如何发展&#xff0c;讨论服务治理都绕不开远程服务调用&#xff0c;那么如何理解 RPC、有哪些常见的 RPC 框架、实现一款 RPC 框架需要哪些技术呢&#xff…

macos下安装科研绘图软件Origin

科研人必备软件Origin&#xff0c;主要是考虑到很多期刊都要求绘制origin可编辑的图&#xff0c;所以有些时候必须用这个软件&#xff0c;但是这个软件macos并不支持&#xff0c;所以必须考虑其他的方案&#xff0c;我没有安装虚拟机&#xff0c;而是使用crossover 安装crosso…

Vue 静态渲染 v-pre

v-pre 指令&#xff1a;用于阻止 Vue 解析这个标签&#xff0c;直接渲染到页面中。 语法格式&#xff1a; <div v-pre> {{ 数据 }} </div> 基础使用&#xff1a; <template><h3>静态渲染 v-pre</h3><p v-pre>静态渲染&#xff1a;{{ n…

Java中的IO流②——字符集、字符流、缓冲流

主要的编码规范&#xff1a; GBK编码 Windows自带 Unicode编码 为什么会有乱码&#xff1f; 原因一 原因二 编码和解码的代码实现 字符流 FileReader read()细节&#xff1a; 一&#xff1a;默认也是一个字节一个字节的读取&#xff0c;如果遇到中文就会一次读取多个 二&a…

Terminator的layout设置(一个新的一键启动思路)

首先你得有terminator&#xff1a; sudo apt install terminator然后就能使用了&#xff0c;我一般喜欢修改它原本的水平和垂直分割&#xff1a;用ctrlshifta和ctrlshifts 把屏幕先分成多块&#xff1a; 比如是这样的&#xff0c;接下来 右键->点击Preference 弹框中上方标…

pdi-ce-9.4.0.0-343.zip和pentaho-server-ce-9.4.0.0-343.zip区别及简单使用

目录 &#x1f351;一、概述&#x1f34a;1.1、pdi-ce-9.4.0.0-343.zip&#x1f34a;1.2、pentaho-server-ce-9.4.0.0-343.zip &#x1f351;二、简单使用&#x1f34a;2.1、pdi-ce-9.4.0.0-343&#x1f34a;2.2、pentaho-server-ce-9.4.0.0-343&#x1f34a;2.3、联合使用 &am…

MongoDB的连接数据库,创建、删除数据库,创建、删除集合命令

本文主要介绍MongoDB的连接数据库&#xff0c;创建、删除数据库&#xff0c;创建、删除集合命令。 目录 MongoDB连接数据库连接到本地 MongoDB 实例连接到远程 MongoDB 实例 MongoDB创建和删除数据库MongoDB创建和删除集合创建集合删除集合 MongoDB连接数据库 连接 MongoDB 数…

报表生成器Stimulsoft用户手册:预览中具有动态数据排序的报告

Stimulsoft Reports 是一款报告编写器&#xff0c;主要用于在桌面和Web上从头开始创建任何复杂的报告。可以在大多数平台上轻松实现部署&#xff0c;如ASP.NET, WinForms, .NET Core, JavaScript, WPF, Angular, Blazor, PHP, Java等&#xff0c;在你的应用程序中嵌入报告设计器…

[香橙派]Orange pi zero 3命令行配网方法——建立ssh连接——Ubuntu配置WIFI自动连接

一、前言 前面我们给Orange Pi安装了Ubuntu系统&#xff0c;并通过MobaXterm进行了串口连接&#xff0c;但其实并不方便&#xff0c;在日常开发中&#xff0c;我们希望能够使用更方便的ssh连接来进行操作&#xff0c;因此配置网络是必要的。 本章介绍的方法无需网线、HDMI线等&…

我的NPI项目之Android 安全系列 -- Android Strongbox 初识

从Android9(Pie)开始,Google强烈建议支持Strongbox. 具体描述如下: 一直到目前的Android14. 对应的内容也一并贴出来: 说人话就是Android开始通过独立于主SoC的单元进行密钥存储了。 通常&#xff0c;这样的单元就是我们通常称作的Secure Element&#xff08;SE&#xff09;&am…

关于优雅的使用SQL多行转多列的记录(doris)

文章目录 应用需求场景记录过程1. 准备数据2. 给数据根据姓名分组&#xff0c;加上序号.3. 根据name分组成map结构4. 拆分map 应用需求场景 准备的数据是这样的&#xff1a; 需要将每个人的成绩显示在一行上&#xff0c;需要的结果如下&#xff0c;但是我的情况是课程有非常…

【MySQL进阶】索引使用

一、索引使用 1.验证索引效率 tb_sku 这张表中准备了 1000w 的记录。 我用夸克网盘分享了「1000w的模拟数据」链接&#xff1a;https://pan.quark.cn/s/15cf665202b2 这张表中id为主键&#xff0c;有主键索引&#xff0c;而其他字段是没有建立索引的。 我们先来查询其中的…

阿里内部教程Jmeter 性能测试常用图表、服务器资源监控

性能测试常用图表 插件安装 步骤 1&#xff1a;安装插件管理器 在 Jmeter 官网上下载插件管理器 Plugins-manager-1.3.jar将 jar 包放入到 lib\ext 目录下重启 Jmeter&#xff0c;可以在选项下看到 Plugins Manager 选项 步骤 2&#xff1a;安装指定的插件 打开 Plugins Ma…

常见web漏洞的流量分析

常见web漏洞的流量分析 文章目录 常见web漏洞的流量分析工具sql注入的流量分析XSS注入的流量分析文件上传漏洞流量分析文件包含漏洞流量分析文件读取漏洞流量分析ssrf流量分析shiro反序列化流量分析jwt流量分析暴力破解流量分析命令执行流量分析反弹shell 工具 攻击机受害机wi…

【论文笔记】Gemini: A Family of Highly Capable Multimodal Models——细看Gemini

Gemini 【一句话总结&#xff0c;对标GPT4&#xff0c;模型还是transformer的docoder部分&#xff0c;提出三个不同版本的Gemini模型&#xff0c;Ultra的最牛逼&#xff0c;Nano的可以用在手机上。】 谷歌提出了一个新系列多模态模型——Gemini家族模型&#xff0c;包括Ultra…

SSD数据在写入NAND之前为何要随机化?-part2

接part1介绍&#xff1a; 如何达到这个目的&#xff1f;业内常用的是对写入数据的数据进行随机化处理&#xff0c;这部分主要在SSD控制器中通过硬件实现。 上图b/c&#xff1a;在控制器芯片通过硬件方式实现随机化的读写流程&#xff0c;这个也是业内通常做法。随机化处理是在写…

TypeScript 之 console的使用

语言&#xff1a; TypeScript 在线工具&#xff1a; PlayGround console console 对象是一个非常强大的控制台日志显示工具&#xff0c; 可以帮助我们在浏览器中调试代码。 注&#xff1a; console不属于TypeScript的语法&#xff0c;而是由JavaScript封装的内置对象。 简单的…

Ubuntu下安装SDL

源码下载地址&#xff08;SDL version 2.0.14&#xff09;&#xff1a;https://www.libsdl.org/release/SDL2-2.0.14.tar.gz 将源码包拷贝到系统里 使用命令解压 tar -zxvf SDL2-2.0.14.tar.gz 解压得到文件夹 SDL2-2.0.14 进入文件夹 执行命令 ./configure 执行命令 make…

原来JMeter 结果处理常见问题这么简单,可惜没早点看到!

1. 前言 工作中用 jmeter 请求一个接口对谈得上会 jmeter 的人似乎都是可以做出来的&#xff0c;但是实际难点是参数化&#xff0c;结果的断言&#xff0c;结果的汇总等。本文将针对结果过滤有效性的情况展开分析。 示例场景&#xff1a;一个接口需要对入参1000多个数据做测试…