长尾分布系列论文解析(二)Delving into Deep Imbalanced Regression

news2024/11/18 11:50:22

大纲

  • 引言
    • 回归问题中的长尾分布
      • LDS
      • FDS
      • 实验和结果
      • 总结

引言

 本文是长尾分布系列论文解析的第二篇,前情提要详见长尾分布系列论文解析(一)Decoupling Representation and Classifier for Long-Tailed Recognition,本篇要介绍的是回归任务中的长尾分布问题,相关论文为:

  • Delving into Deep Imbalanced Regression

回归问题中的长尾分布

 回归问题中的长尾分布和分类问题中的长尾分布存在着显著的区别,在回归问题中某一类(区间)的样本数目并不是仅仅只和其本身有关,而是和其邻域范围内的样本数目也有着关系。这是因为回归问题中的不同类别或者说是区间是存在着相似性的概念,相邻类别的样本是可以存在一定程度的信息共享和知识迁移的,即使是本类样本数目偏少,但在领域样本数目多的情况下也能获得不错的预测效果。而在分类问题中,不同类别样本的共享特征则少之又少。因此,可以总结成一句话:回归问题中的长尾分布并不能反应训练过程中模型看到的数据分布,作者也从实验的角度对这一结论进行了验证,分别检验了分类问题和回归问题中的数据分布与误差分布的关系:
在这里插入图片描述

可以看出在分类问题中测试集上的误差和训练数据分布基本出互补的趋势,即样本越多误差越小;而在回归问题中,这一趋势则没有明显体现,不同类样本的误差和训练数据数目的负相关性远不如分类问题中的来的强。
 针对回归(连续标签预测)问题中长尾分布的特性,作者设计了LDS(Label Distribution Smoothing)和FDS(Feature Distribution Smoothing)两种方案来拟合其真实分布,从而可以将经典的长尾分布解决方法迁移到回归问题上。

LDS

 LDS从标签的角度对回归问题中的数据分布进行平滑,具体而言就是用对称的核函数对数据集的原始标签分布进行滤波,从而使得每一类样本的出现概率都不仅仅与其本身有关,还牵涉到了领域样本的出现概率。典型的对称核函数有
高斯核或者拉普拉斯核。LDS使用后的效果如下图所示:
在这里插入图片描述

FDS

 FDS从特征的角度对数据分布进行平滑,背后的基础假设是如果样本在标签的分布上具有连续性,那么在特征空间的分布同样应该具有连续性,也就意味着标签域上临近的样本在特征域上也应该更相近,反之亦然。而实际实验中的结果却并不如预先的一般,如下图:
在这里插入图片描述

可以看到在以某类多数样本的特征矩阵作为锚点和其他类比进行相似性度量时,其临近的多数样本和锚点具有很高的相似性,这证明了猜想是有一定道理的。但远处的少数样本类别同样有着较高的、反常相似性,这是因为其样本数目过少,模型无法从中学到足够的知识,而是暴力的将多数样本的信息迁移到其上,导致学到的特征非常类似。
 为了解决这一问题,作者提出了FDS以在特征域上进行平滑,实现领域的特征共享。具体而言,首先对于给定的类别,首先计算其类内特征的均值和协方差如下:
μ = 1 N b ∑ i = 1 N b z i Σ b = 1 N b − 1 ∑ i = 1 N b ( z i − μ b ) ( z i − μ b ) T \mu=\frac{1}{N_b}\sum_{i=1}^{N_b}z_i\\ {\varSigma_b}=\frac{1}{N_b-1}\sum_{i=1}^{N_b}(z_i-\mu_b)(z_i-\mu_b)^T μ=Nb1i=1NbziΣb=Nb11i=1Nb(ziμb)(ziμb)T
其中 μ b \mu_b μb为第 b b b类样本的容量。而后和LDS一般利用对称核对类别特征向量的均值和方差进行平滑如下:
μ b ~ = ∑ b ′ ∈ B k ( y b , y b ′ ) μ b ′ Σ b ~ = ∑ b ′ ∈ B k ( y b , y b ′ ) Σ b ′ \tilde{\mu_b}=\sum_{b'\in B}k(y_b,y_b')\mu_{b'}\\ \tilde{\varSigma_b}=\sum_{b'\in B}k(y_b,y_b'){\varSigma_b'} μb~=bBk(yb,yb)μbΣb~=bBk(yb,yb)Σb
最后利用平滑之后的均值和方差对类内的每个样本进行whitening和re-coloring操作(这一操作其实是用于域迁移的,将特征从原始的域迁移到平滑域),以聚合周围类别样本的特征信息:
z ~ = Σ ~ b 1 2 Σ b − 1 2 ( z − μ 0 ) + μ ~ b \tilde{z}=\tilde{\varSigma}_b^{\frac{1}{2}}\varSigma_b^{-\frac{1}{2}}(z-\mu_0)+\tilde{\mu}_b z~=Σ~b21Σb21(zμ0)+μ~b
而这一特征空间的平滑过程也用到了动量更新的思路以保证训练的稳定,在当前epoch内对所有的mini-batch都使用前一轮次的平滑后均值、方差进行重校准,每个mini-batch训练完成在类内进行带动量的均值和方差更新,当前epoch计算完成后对累计的均值、方差进行平滑,实际流程如下:
在这里插入图片描述

实验和结果

 FDS和LDS的优越之处在于可以嵌入到现有的长尾分布解决方案当中,以适应回归问题。作者将二者和多种方法如基于损失函数加权的方法,基于数据重采样方法,解耦方法等等相结合,大部分情况下都能有效提高模型的表现。更进一步的,FDS和LDS可以增强模型的zero-shot泛化能力,即使是在训练集中为出现的类别样本,测试时也因获得了邻域信息而可以得到不错的预测。(但实际上这些相对提升都没有特别大,可能这个领域本身就在瓶颈)
 FDS的效果和原理也得到了实验的支撑,将少数类别样本的特征作为锚点时,使用FDS前后和其他类样本的特征相似性发生了显著的变化,更加符合预期。
在这里插入图片描述

总结

 这篇论文的motivation和解决措施都十分的漂亮,实验做的也很充分,非常solid,作者原解析:ICML 2021 (Long Oral) | 深入研究不平衡回归问题,源代码:imbalanced-regression

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/22292.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

弹性力学之边界条件

作者:张伟伟,来源:力学酒吧 弹性力学基本方程包括平衡方程、几何方程和广义胡克定律,其中平衡方程和几何方程都属于微分方程。我们知道,在求解微分方程时,会出现积分常数,只有确定了积分常数&a…

JS —— js中的节流与防抖

文章目录 前言一、节流 1.什么是节流2.做节流可解决什么问题3.如何做节流二、防抖 1.什么是防抖2.做防抖可解决什么问题3.如何做防抖总结前言 最近有同学问到节流与防抖的相关知识点,于是乎,四处查资料,找一找,看一看&#xff0c…

单元测试:会变化的定义

有一种东西, 如果它太小,需要付出的努力就太大;如果它太大,就很难测试。 没错!它是单元。 但是什么才是一个好的单元定义呢?为什么它如此重要? 单元的定义对测试过程有很大的影响,但同时单元的定义也是不…

Transformer总结和梳理

Transformer总结和梳理Positional encodingSelf-attentionMulti--head-attentionAdd&NormAdd操作Norm操作FeedForwardMASKPadding MaskedSelf-Attention Masked首先来看一下Transformer结构的结构:Transformer是由Encoder和Decoder两大部分组成,首先…

mysql安装与配置及四大引擎和数据类型、建表以及约束、增删改查、常用函数、聚合函数以及合并

目录 一.mysql安装与配置 1.mysql简介 2.mysql 安装 安装MySQL(8.0的版本) 安装MySQL(5.7的版本) 删除MySQL(这是5.5版本的卸载方式) 3.命令行登陆及权限修改 一.启动方式 二.停止 三.重启 wind…

LeetCode每日一题——808. 分汤

LeetCode每日一题系列 题目:808. 分汤 难度:普通 文章目录LeetCode每日一题系列题目示例思路题解题目 有 A 和 B 两种类型 的汤。一开始每种类型的汤有 n 毫升。有四种分配操作: 提供 100ml 的 汤A 和 0ml 的 汤B 。 提供 75ml 的 汤A 和…

大衣哥在《火火的情怀》后,和孟文豪张成军推出《新时代的农民》

最近一段时间,因为《火火的情怀》版权问题,农民歌唱家大衣哥,被著名导演兼编剧谷传民起诉。话说大衣哥因为被谷传民起诉,也被推上了舆论的风口浪尖,同时也让《火火的情怀》又一次大火。 在谷传民起诉大衣哥的案件当中&…

注册会计师怎么注册非执业?注会执业与非执业有何区别

注册会计师怎么注册非执业?以下就是关于注册会计师怎么注册非执业等等的介绍,希望对您有所帮助! 一、申请注册为非执业会员 取得注册会计师考试已合格,但尚未在中国境内从事审计业务工作二年以上者,可以自行向取得全科合格证书省级注册会计…

调研主板,树莓派 VS RK3288板子,还是 RK的主板香,但是只支持 anrdoid 7系统,估计也有刷机成 armbian或者

1,目前树莓派好贵啊!Pi4bB 2G卖810 现在价格是:800多啊,疯了 哎真叫贵。 但是有个东西叫做 广告机的板子,是批量生产放到商场,地铁播视频的。 再配上一个屏幕,就可以直接播放广告了。 不同的地…

计算机网络4小时速成:传输层,功能,UDP协议,TCP协议,三次握手,传输数据,四次握手,超时重传,流量控制

计算机网络4小时速成:传输层 2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle&#xff0c…

【云原生】Kubernetes(k8s)Calico 客户端工具 calicoctl

文章目录一、概述二、calicoctl 安装三、calicoctl 简单使用1)认证信息配置2)查看 IP 资源池3)配置 IP 池4)IP 资源池示例演示5)固定 IP 示例演示6)网络策略(NetworkPolicy)四、Kube…

盘点MySQL的八大日志,你知道哪些?

前言 日志对于任何系统应用来说都承载着至关重要的作用,借助日志,我们可以发现系统运行错误的原因,从而解决问题。MySQL也不例外,也会记录各种各样的日志信息。那么你知道MySQL都有哪些日志吗?每种日志的作用是干吗吗…

【Ajax】全面详细了解git的基础操作【万字教学+面试常客】

✍️ 作者简介: 前端新手学习中。 💂 作者主页: 作者主页查看更多前端教学 🎓 专栏分享:css重难点教学 Node.js教学 从头开始学习 ajax学习 文章目录学习目标起步——关于版本的控制  文件的版本  版本控制软件  使用版本控制软件的好…

UDP和TCP两大协议的区别,让你快速高效掌握

UDP和TCP两大协议的区别 谈起UDP与TCP两大协议的异同,有人说我喜欢用TCP不喜欢用UDP,也有人说我喜欢用UDP而不喜欢用TCP,使用TCP的人说,我使用使用的协议比较可靠、不容易粘包、不容易丢包;使用UDP的人说,我使用的协议…

电脑没有声音了怎么恢复?恢复声音的6个方法【图解】

如今,很多电脑用户都会购买上各种不同品牌的音效产品,以便在必要时可以用来作为背景音乐。但在使用电脑过程中,总会遇到一些声音问题。有些朋友可能会因为声音问题而导致电脑无法正常使用。那么,电脑没有声音了怎么恢复&#xff1…

SpringSecurity框架【详细教学】

SpringSecurity 文章目录 文章目录SpringSecurity文章目录1、概述2、Spring Security、[Apache](https://so.csdn.net/so/search?qApache&spm1001.2101.3001.7020) Shiro 选择问题2.1、Shiro2.1.1、shiro的优点2.1.2、shiro的缺点2.2、Spring Security2.2.1、spring-secu…

计控实验(一)—— 数字滤波实验

太原理工大学计算机控制技术实验之数字滤波实验 数字滤波实验实验原理实验内容实验线路图设计参考流程图实验步骤及结果采样周期设计运行结果思考题实验原理 一般现场环境比较恶劣,干扰源比较多,消除和抑制干扰的方法主要有模拟滤波和数字滤波两种。由于…

Mybatis—解析SQL配置

Mybatis源代码中SqlSource描述XML文件或者Java注解配置的SQL信息&#xff0c;SqlNode描述动态SQL配置中的<if>和<where>等标签&#xff0c;LanguageDriver的职责就是负责将Mapper SQL配置进行解析&#xff0c;然后将SQL配置信息转换为SqlSource对象。从而可见Langu…

Nginx补充部分--IO模型

IO模型 服务端IO流程 磁盘I/O 磁盘I/O是进程向内核发起系统调用&#xff0c;请求磁盘上的某个资源比如是html 文件或者图片&#xff0c;然后内核通过相应的驱动程序将目标文件加载到内核的内存空间&#xff0c;加载完成之后把数据从内核内存再复制给进程内存&#xff0c;如果…

postgres-operator 原理解析- 章节 II 减少failover次数

本文讨论一波&#xff0c;kubernetes集群部署的高可用postgresql集群在滚动更新场景下&#xff0c;如何实现减少failover次数&#xff1f; 这个原理我觉得适用于任何主从架构的中间件&#xff0c;是一个通用的设计技巧。 那就是&#xff1a; 在进行滚动升级过程中&#xff0c…