2022稳定学习年度研究进展系列报告丨精华观点总结

news2025/1/12 10:49:22

近年来,在独立分布假设的前提下,机器学习模型的表现越来越好。但在实际应用场景中,数据本身却具有很强的异质性和差异性,这就对模型的泛化能力产生了较高的要求。为了解决分布外泛化问题,稳定学习应运而生。12月28日,智源《稳定学习年度研究进展》系列报告在线上展开,本次报告邀请了崔鹏、禹含、林勇、何玥、刘家硕、张奇、陈瀚雄、王啸、张兴璇9位学者,就稳定学习(Stable Learning)这个话题,给出了精彩的报告。

(整理/牛梦琳)

a609c2c8a53e282e45fcce72ed9d1c52.png

本期是一年一度的《稳定学习年度研究进展》系列报告,由清华大学崔鹏教授主持。崔鹏首先介绍了本次报告的背景并总结了2022年一年来学者们在稳定学习方向整体的思考,由清华和香港科技大学的四位博士生给出了相关方法论的研究进展,来自复旦,meta,北航和清华的四位学者则是聚焦稳定学习在NLP,Graph,RS,CV方向的前沿应用工作,对年度工作进展做出了总结。智源社区将公开部分精华内容整理如下:

关于分布外泛化和稳定学习的一些思考

清华大学教授 崔鹏

6d1ea0111ba4f1f4da5a5dda185cb97d.jpeg

稳定学习针对的是机器学习的基础问题——Out of Distribution(OOD,分布外泛化)问题。在机器学期的基本范式中,存在基本的独立性假设,即Ptest=Ptrain,但在实际应用中,这个假设很难得到保证,此时就会产生OOD问题。OOD问题可以分为Ptest部分已知和Ptest完全未知两种情况,在真实开放的场景应用中,大部分似乎Ptest都是完全未知的。


为了解决这个问题,稳定学习将原本基于假设的Data Fitting 思路,转变为了Finding Invariance (寻找不变性)思路,来寻找不随环境数据变化的最稳定的结构。目前,稳定学习的大致研究路径有两条:一条是找到比不变性更强的结构来保证不变性:根据Peter Bühlmann提出的统计学方式图,很多人认为从统计的角度讲,Causal是最本质的一种结构,如果将Causal的思想融入机器学习的研究,是否可以解决部分机器学习的稳定性问题。

沿着这个思路,学者们从17年开始研究Machine Learning和Causal Inference之间的交叉关系,稳定学习就是在机器学习的框架下,注入一些Causal Inference的底层思想。今年,崔鹏教授和斯坦福大学的教授Susan Athey一起发表了《Stable learning establishes some common ground between causal inference and machine learning》,对稳定学习的提出和思路做了一个总结性的描述。另一条路径是从变化中寻找不变性(Finding invariance from variance),即根据数据中的异质性寻找数据的不变性。

2022年,学者们对稳定学习有了一些新的思考。比如关于稳定学习的定位问题:稳定学习应该针对OOD问题,输入单独的训练分布,应用多种测试分布,并以稳定性表现为优化目标。由此,很多课题组正在试图解决一些开放性问题,

最后,针对稳定学习的一些外延问题,崔鹏分享了两个观点:

一、无论是大模型还是OOD Generalization的学习机制,都是为了更好地解决真实、开放环境下的实际问题所探索出的技术路径,二者并不冲突;在OOD Generalization学习机制基础上引入超大规模参数和训练数据,是解决大模型偏见、进一步提升模型智能水平的可能路径之一。

二、关于决策和预测问题,决策的效果取决于预测的准确性,决策的本质是分布外可泛化的预测模型。

稀疏约束下的稳定学习方法

清华大学计算机系博士生 禹含

0b4f8ed255d49c4b5efeda8f3f4ec3a9.jpeg

本报告主要围绕着如何利用稀疏约束实现一个更好的稳定学习。禹含的目标问题是Covariate-Shift Generalization问题。他首先讲解了相关的稳定学习背景知识,给出了Minimal Stable Variable Set和Weighting function的定义,并将问题转化为寻找Minimal Stable Variable Set,理论上,如果能找到使得Covariates完美互相独立的Weighting function,就可以选出Minimal Stable Variable Set。但在实际应用中,完美独立的情况并不容易达到。为了放松完美独立性的要求,禹含小组引入了稀疏约束(Sparsity constraint)。

随后禹含介绍了他们的算法Sparse Variable Independence。这个算法可以记为SVI,大致分为前端和后端两个模块,前端通过DWR,SRDO算法完成Sample Reweighting的工作,后端通过STG算法,主要负责Sparsity Learning。前端向后端输出Weighting function,后端则将数据属于Minimal Stable Variable Set的概率反馈给前端。通过前后端的迭代,来促使前端做更好的Sample Reweighting。为了说明他们的方法,禹含展示了他们在模拟和现实数据两个方面进行的实验,实验结果显示,无论是在线性还是非线性情况下,SVI的效果都是最好的,并且,样本量对SVI的影响也远远小于对其他算法的影响。他们的现实数据实验是关于房价预测和收入的预测,也都进一步证实了SVI算法的有效性。

一种针对分布偏移鲁棒的

通用样本加权方法

香港科技大学博士生 林勇

f8cdd063b09e068aba578aa965b8bd21.jpeg

林勇介绍的方法可以简称为MAPLE,这种方法比较通用,可以随意替换模型,而加权的方法始终有效。他们讨论的问题主要也是OOD问题,比如区分奶牛和骆驼,传统机器学习方法往往比较依赖背景,而当背景出现混淆时,会出现很多虚假特征(spurious feature),模型就很难进行区分了。

为了解决这个问题,林勇的团队提出了MAPLE方法。他首先抛出了一个有意思的观测结果:应该存在一种样本加权使得模型输出Y不受虚假特征的影响。随后他给出了一个通用的数学证明,说明在理论上,只要给每个样本一个合适的加权,就能使得Y完全独立于虚假特征。为了以较低的代价找到这个加权方法,他们利用了深度学习中Invariant Risk Minimization(IRM)和Distributional Robust Optimization(DRO)的方法。首先他们将数据分成训练集和验证集,然后将优化模型分为两层,内层利用训练集找出比较好的sample reweighting模型并进行优化,外层利用验证集判断内层的模型是否用到了虚假特征。他们的方法在图像数据集(如CMNIST)上得到了较好的验证。

MAPLE方法可以很好地应用于深度学习模型,解决了IRM和DRO在大模型中效果显著变差的问题,而且对prior knowledge的要求也很低,虽然会有额外的计算开销,但总体是一种通用的样本加权方法。

通过随机样本加权实现协变量偏移泛化

清华大学计算机系博士生 何玥

194ffc70153046991c6a5b950345e41a.jpeg

何玥报告的方法希望通过引入随机性来解决模型的泛化性的问题。他首先介绍了问题背景,然后解释了什么事协变量偏移泛化以及他们的研究方法,最后给出了相应的实验结果。由于真实数据的异质性和不确定性要求机器模型具有泛化能力,而传统的机器学习模型对训练分布和测试分布独立同分布的假设具有很强的依赖性,而这个假设并不适用于许多现实应用场景,所以就产生了OOD问题。

为了解决这个问题,何玥的工作聚焦于协变量偏移泛化问题。协变量偏移问题认为,测试分布与训练分布的变化仅体现在协变量偏移上,在这样的假设下,理论上人们就可以利用其中的不变性来实现模型在分布变化时的稳定表现。当然,由于真实案例的复杂性,考虑到模型的计算代价,搭建代价等,模型错估几乎是不能避免的。而模型错估和协变量偏移问题,就有可能导致模型在有限的训练集中学到虚假特征。

何玥的团队给出了不变变量集合的定义,并尝试建立基于不变变量集合的稳定预测模型。他们通过重要性样本加权的方法,定义随机加权分布族,通过实验,他们发现,在一定的假设下,不变变量在分布族中的稳定性要好于变化变量。然后他们引入不变性约束来寻找这些不变变量。而在实际应用中,他们提出了RSW的算法,在每一步迭代时,都随机采样部分加权分布,并进行单步优化。通过这样迭代的方式完成学习。他们的方法计算较简单,复杂度低,比较通用,并在模拟实验和实际应用中,表现出了较好的稳定性。

异质数据下的模型分布稳定性保证

清华大学计算机系博士生 刘家硕

7991072f74c0819e8c5ba3515c43adc4.png

刘家硕的报告也是聚焦于OOD问题,现实中的数据很难有环境标签,在这种情况下,他们希望探索分析模型分布稳定性的理论性框架。他们的问题定位在能否从9af9867a165206a19f8e28e0c633256a.png泛化到未知的ad06f6c5e5628a68e4c0f719e2d978b1.png,以及能多大程度地泛化。经验上,可以通过简单的加权方法,或者学习一些比较好的环境来支撑不变学习,以及分布鲁棒优化方法,但是这些方法都存在难以忽视的问题。所以,本次报告的重点在于,如何仅利用训练数据来刻画泛化能力,以及如何度量这种泛化能力。

为了介绍分布稳定性的定义,刘家硕首先给出了子群体的概念,然后通过找到与80e91207b5518434bc701a63b5b50234.png分布在预测机制方面差异最大的子群体来定义分布稳定性,给出了相应的量化标准,并证明了分布稳定性在一定的特殊条件下与严格的不变性等价。但是当f5e9964cceacac0343369120fe84de5a.png任意可变时,刘家硕认为问题是不可解的,因此要给879c5ba8d5bdb50e75845cc8c62bad38.png一个基于Expansion Function的假设。在设计算法时,他们将分布稳定性的指标加入到了目标函数中,然后估计和优化这个指标。他们的实验结果显示,通过控制他们的指标,可以得到较好的测试准确性,且他们的方法优于DRO的方法。

NLP模型虚假相关性研究

复旦大学计算科学技术学院教授 张奇

6d3e659ea168ce88d7c54445e9c718e3.jpeg

张奇的报告主要从应用的角度进行了讨论。他主要介绍了在NLP领域关于虚假相关性的两篇论文。目前,各类自然语言处理算法快速发展,在很多任务上甚至超越了人类。但是这些算法在实际应用中的效果却不尽如人意。他们也用归因方法对线上的一些模型做了可视化分析,并且发现数据集合中的偏差可能会引起模型学习到虚假的观点。数据集的偏差广泛存在于NLU任务当中,如否定线索、词汇重叠等。

张奇从《WINOGRANDE:An Adversarial Winograd Schema Challenge at Scale》(2020 AAAI best classic paper)这项工作开始关注数据集中的偏差问题,这项工作侧重于背景知识的分类问题,并且通过实验发现,对数据不做任何处理时,模型的识别效果非常好,但对数据进行偏置消除(Debias)处理之后,模型但识别能力就会降低。

目前NLP领域的偏置消除方法通常采用二阶段方法,张奇也希望能够引进例如前面报告中所提到的一些新的方法进行研究。2022年,他们尝试了从特征角度进行偏置消除。首先,他们工作的大致思路是首先去除特征的相关性,然后对特征进行提纯,以保证与任务相关的特征能够保留下来。他们的实验结果显示出了与原始的BERT-base相比较好的提升。他们的第二项工作则采用了另一种方式,首先,假设在选取特征的过程中尽量保留所有的特征;但对特征的分布进行变化,从而消除相关性。在这种变化下,之前的工作可以得到较大的提升。

Causal Factorization Machine 

for Robust Recommendation

Meta研究员 陈瀚雄

b1d7bc0a25eec14756e46ce117ac0e90.jpeg

陈瀚雄的工作主要是为了提升推荐模型Factorization Machine(FMs)的稳定性,使模型在训练集和测试机分布不一致的情况下也能够提供比较有效的推荐结果。一些研究表明,模型利用causal feature进行决策时,决策结果往往比较稳定,这是由于causal feature本身具有一定的稳定性。因此陈瀚雄等人选择了causal feature来帮助模型提高稳定性。并且在应用场景下,他们选取的是个性化的causal feature,以此来满足不同用户对于推荐的需求。

随后,陈瀚雄简单介绍了FMs模型,并给出了选取Causal Feature的数学方法,最后展示了他们的方法最终的Loss函数。

他们的实验使用了RentTheRunWay、Post和MovieLens三种数据集,FM模型则使用了DeepFM、FNFM和AFM几种经典的FMs模型。以N@K和H@K为推荐指标,并使用drop rate衡量模型的稳健性。实验结果表明,在各指标上都是他们的模型表现较好,并且在选择causal feature时引入个性化,也可以提升模型的推荐性能,并且保证模型的稳定性。

图神经网络的分布外泛化初探

北京航空航天大学副教授 王啸

168226a7eb12ca23f25694d4e880eab5.jpeg

王啸的工作继承了稳定学习的思想,将稳定学习的技术与图神经网络进行结合,来解决图数据的分布外泛化问题。真实场景中有很多图的数据,不同数据上又存在很多不同类型的应用。网络数据需要有好的表示,随着深度学习的发展,图神经网络应运而生。图神经网络的基本思想,是在图的拓扑结构上,对节点信息进行传播和聚合。图神经网络也需要假设训练集与测试集同分布,这就导致模型有可能学习到虚假的相关性,于是引出了图上的OOD问题。

王啸的工作主要考虑解决两个问题:

一、如何学习到高层的子图级别的表示;

二,如何区分这些表示与标签的相关性。

他们采取Diffpool的思路,通过类似pooling的形式学习到不同子图级别的高层语义表示。然后进一步证明了在这种学习下,每张图的语义表示是可以对齐的。接下来他们引入了稳定学习Sample Reweighting的思想,对每个图进行加权,并将这个权重添加到训练的损失函数中进行训练,这个权重就可以用来去除不同高层语义之间的相关性。最后使用去除了相关性的高层语义进行预测。

他们分别对生成的数据集和分子数据集进行了实验。将他们的模型与现有的其他模型结合之后,他们发现,在不同的Correlation degree下,模型的性能都会有一定的提升。并且相关性越大,提升空间越大。这就表明现有的模型很可能学习到了虚假相关性。王啸等人也利用分子数据集做了可视化的解释,并且对图的节点级别的分布外泛化问题也进行了一定的探索。

NICO竞赛2022

大规模分布外泛化图像识别

清华大学计算机系博士生 张兴璇

ead3c103b691962a6e0de54adbb31c39.jpeg

张兴璇的报告主要介绍了今年举办的NICO竞赛的情况,包括竞赛的设计以及参赛情况。他们观测到,在计算机视觉领域,很多针对OOD问题的benchmark本身是具有局限性的,人们希望训练好的深度模型在任意的测试集上都能有较好的表现,但由于已有OOD数据集的局限性,或者benchmark在设计时的局限性,现有的benchmark无法真正全面地实现这一目标。所以张兴璇等人提出了一种新的benchmark的方式,希望能够在多个测试集上测试现有的方法,来实现真正的对于OOD问题的解决方案。

竞赛是基于今年新提出的NiCO++数据集。这是一个针对视觉领域OOD问题设计的数据集,他们引入了环境(Contexts)的概念,并要求环境具有物理意义,比如图片的背景、识别物体的形态、颜色等;NICO++还引入了common context和unique context的概念,使得NICO++数据集的适用性更为广泛。他们还从covariate shift和concept shift的角度提出了对OOD数据集的评估方式。经过比较NICO/NICO++和现有的其他OOD数据集,可以发现NICO/NICO++在各方面表现都更有优势。

基于NICO++,张兴璇等人举办了NICO Challenge竞赛。竞赛依附于ECCV2022 workshop,分为Common Context Generalization和Hybrid Context Generalization两个track,提供了大量的训练数据和测试数据,并给出了一份OOD的指导帮助参赛者快速入门。竞赛共有178个队伍参加,并拥有超过4000份结果提交。目前,他们的团队仍在完善NICO++,NICO Challenge2023预计将于2023年3月份举办。

总结

在互动环节,崔鹏针对线上观众对讲解内容中样本重加权以及变量独立问题的提问展开了讲解,并重点解释了稳定学习实现的路径以及与Casual Inference的关系。最后,崔鹏做了活动总结。他认为本次活动中各位优秀的讲者对稳定学习的方法和应用给出了完整且详细的介绍,观众们也给出了非常有启发性的反馈。

更多内容 尽在智源社区

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/145927.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Python计算机视觉:人脸识别

讲明一下:并没有实现人脸识别的算法,只是利用人脸特征文件(文件从官网上下载),从而进行人脸识别,总感觉识别出来的效果还是有问题的,如:图片最好是人脸的正脸。 1. 人脸特征文件下载 直接去github或者gitee(建议gitee)上去搜索opencv即可,如下: 选择第一个直接进入即…

一篇文章带你了解——Linux中 文件权限 和 粘滞位的 概念 / 作用 及 实现方法

粘滞位首言用户权限文件权限文件类型分类文件访问者的分类实际解读文件权限文件权限设置方法为啥要有文件权限为啥要有粘滞位粘滞位的好处如何添加粘滞位首言 要了解粘滞位,首先得了解文件及用户权限 用户权限 Linux下有两种用户:超级用户&#xff08…

共享内存原理与使用

共享内存是System V版本的最后一个进程间通信方式。共享内存,顾名思义就是允许两个不相关的进程访问同一个逻辑内存,共享内存是两个正在运行的进程之间共享和传递数据的一种非常有效的方式。不同进程之间共享的内存通常为同一段物理内存。进程可以将同一…

vite学习详解

简介 前言 之前vite2刚出的时候其实已经自学过一波,但是老实说学起来完全不入脑,一方面本来这方面的基础就很差(指项目配置),另一方面学的时候没有跟着去动手,纯理论的学那完全就是越看越困。最后就是急躁…

java书店带商家商城书店多单商书店系统源码

简介 Java ssm开发的多商家书店商城,用户可以浏览商品,加入购物车,直接下单支付,在我的个人中心里可以管理自己的订单,收货地址,编辑资料等,还可以申请开店,店铺开通后可以发布商品…

C++--list

前言 这篇文章对于理解封装是非常有帮助的,list的底层是双向链表结构,我们在学习数据结构是就已经学过了双向链表,双向链表中每个元素存储在互不相关的独立节点中,在节点中通过指针指向其前一个元素和后一个元素。因为list独特的结…

nsis打包程序自动生成的快捷方式打不开

nsis 打包程序自动生成的快捷方式打不开 一: 问题描述: nsis 打包程序自动生成的快捷方式打不开, 报的是: 打不开数据库 , 但是在目录下双击exe 是能够打开的 一: 问题推导: 我是先右击自动生成的快捷方式 选择打开文件所在位置, 我发现确实是 我想要那个exe 的所在位置然后…

Zynq PL端调用PS端的时钟

ZYNQ PS端最多可以分配4个时钟供给PL端使用,见下图。 本文的目的:在XCZU21DR环境下,PS给PL提供一个100MHz的时钟,PL端根据此时钟产生1S信号,点亮LED。 添加&配置Zynq UltraScale MPSoc IP 双击该IP,在…

【C++】C++入门知识(一)

作者:一个喜欢猫咪的的程序员 专栏:《C》 喜欢的话:世间因为少年的挺身而出,而更加瑰丽。 ——《人民日报》 目录 1.C关键字 2.命名空间 2.1局部变量和全局变量 2.2命名空间的概念及使用 2.3…

本硕985计算机,34岁的字节大头兵,上司很器重我,给我加薪不少,但国企也欢迎我,好犹豫该不该去国企!...

互联网VS国企,该怎么选?这是一位34岁的字节程序员面临的选择:在头条是2-2大头兵,本硕985计算机,国企还是比较欢迎他的。原本的想法是在私企干几年,如果干不成管理就去国企。如今没当成管理,但上…

【蓝桥杯嵌入式】第十三届蓝桥杯嵌入式省赛(第二场)程序设计试题及其题解

原题展示 📄 本试题目的是制作一个商品管理系统,其主要功能为:购买商品、增加商品储量、调节商品价格、查询商品价格,并且能够保存改变后的商品数量与商品价格,总体上看跟第一场的试题差不多,下面就让我们一…

Python Selenium 获取动态网页指定元素的超链接

Python Selenium 获取动态网页指定元素的超链接前言前提条件相关介绍实验环境获取动态网页指定元素的超链接目标网址代码实现前言 本文是个人使用Python Selenium 获取动态网页指定元素的超链接的电子笔记,由于水平有限,难免出现错漏,敬请批评…

详解浮点数在内存中的存储

目录 前言 一、 32 位单精度浮点数在内存中的存储 1.1 - 符号位 sign 1.2 - 偏移后的指数位 biased exponent 1.3 - 尾数位 fraction(mantissa) 二、64 位双精度浮点数在内存中的存储 三、浮点数的比较 前言 计算机内部实际上只能存储和识别二进制…

IPV6相关

目录 一、IPV6地址组成与专业术语 1.基础分类 2.本地链路地址范围区域概念 3.本地环回地址 二、centos配置IPV6地址 1.终端命令配置IPV6地址和网关 2.文件中配置IPV6地址 三、IPV6连通测试 1.全局单播地址进行ping 一、IPV6地址组成与专业术语 1.基础分类 IPv6基础知…

对话开发者:Serverless 落地的困境与破局

作者 | 阿里云开发者社区、InfoQ 从 2012 年提出 Serverless 到今年 2022 年刚好十年。 过去十年,上云是确定性趋势,在这个阶段企业一开始的关注点在于如何实现平滑上云。随着越来越多的企业上云,甚至很多企业系统第一天就是在云上构建&…

7-2 出生年

以上是新浪微博中一奇葩贴:“我出生于1988年,直到25岁才遇到4个数字都不相同的年份。”也就是说,直到2013年才达到“4个数字都不相同”的要求。本题请你根据要求,自动填充“我出生于y年,直到x岁才遇到n个数字都不相同的…

【数据结构与算法——C语言版】5. 排序算法(1)——冒泡排序

前言 上篇文章【数据结构与算法——C语言版】4. 排序算法(1)——选择排序我们介绍了排序算法中的选择排序,其时间复杂度是O(n2),本篇文章我们将介绍另一种同样时间复杂度是O(n2)的排序算法——冒牌排序,这两种算法思路…

面向对象编程看这一篇文章就够了

第一章 面向对象和面向过程 面向对象(OOP[Object Oriented Programming])和面向过程(POP[procedure oriented programming])都是一种软件编程设计思想 1. 面向过程强调功能行为 2. 面向对象是将功能封装进对象,强调具备了功能的对象 3. 面向对象强调运用人类在日常的思维逻辑中…

Java 程序员都该懂的 HashMap

HashMap 一直是非常常用的数据结构,也是面试中十分常问到的集合类型,今天就来说说 HashMap。 但是为什么要专门说明是 Java8 的 HashMap 呢?我们都知道,Java8 有很多大的变化和改动,如函数式编程等,而 Hash…

SpringBoot 请求参数处理详解

目录 请求参数处理 0、请求映射 1、rest使用与原理 1、普通参数与基本注解 1.1、注解: 1.2、Servlet API: 1.3、复杂参数: 1.4、自定义对象参数: 2、POJO封装过程 3、参数处理原理 1、HandlerAdapter 2、执行目标方法…