何恺明重提十年之争——模型表现好是源于能力提升还是捕获数据集偏置?

news2025/1/11 7:12:09

想象一下,如果把世界上所有的图片都找来,给它们放到一块巨大的空地上,其中内容相似的图片放得近一些,内容不相似的图片放得远一些(类比向量嵌入)。然后,我随机地向这片空地撒一把豆子,那么这把豆子怎么才能尽量撒得均匀?

在真实世界收集数据集的过程就像是在撒豆子,把被撒到豆子的图片收集起来。简单来说,豆子撒不匀,数据集就有偏置。

论文标题:
A Decade’s Battle on Dataset Bias: Are We There Yet?

文章链接
https://arxiv.org/pdf/2403.08632.pdf

数据集偏置之战,最初在2011年由知名学者Antonio Torralba和Alyosha Efros提出——Alyosha Efros正是Sora两位一作博士小哥(Tim Brooks和William Peebles)的博士导师,而Antonio Torralba也在本科期间指导过Peebles。

如今13年过去,这场旷日持久的战争仍在继续,CV大牛何恺明团队再次深度解析这个问题,模型表现好是源于能力提升还是捕获数据集偏置?

GPT-3.5研究测试:

https://hujiaoai.cn

GPT-4研究测试:

https://higpt4.cn

什么是数据集偏置?

数据集偏置(Dataset Bias)是指在数据收集、选择或处理过程中引入的系统性偏差,导致数据集不能公平、全面地代表整个问题空间或现实世界的各个方面,而是较为集中地代表其中某些方面。这种偏差会影响数据集的代表性,进而影响训练模型的鲁棒性、泛化能力和公平性。

计算机视觉任务中,察觉数据集的偏置对人类来说是十分困难的,下面的15张图片分别来自3个数据集,每个数据集5张,你能发现哪5张图片来自同一数据集吗?

揭晓答案: 1, 4, 7, 10, 13来自同一数据集,名为YFCC 2, 5, 8, 11, 14来自同一数据集,名为CC 3, 6, 9, 12, 15来自同一数据集,名为DataComp

尽管对人类来说十分困难,但神经网络却可以轻易地发现数据集中存在的潜在偏置,分类准确率达到84.7%。即使是自监督分类也能达到惊人的78%

数据集偏置的来源(为什么豆子撒不匀?)

1、选择偏置(Selection Bias):数据收集过程中对特定样本的偏好选择。例如,在进行人脸识别研究时,数据集中的大多数人脸来自特定的种族或性别。

2、采样偏置(Sampling Bias):数据集的采样方法未能准确反映目标。

3、标签偏置(Label Bias):在监督学习中,数据标签可能受到客观或主观因素影响,导致某些类别被过度表示或错误标注。

4、社会文化偏置(Sociocultural Bias):数据集可能反映了特定社会、文化的偏见和刻板印象,这些偏见被模型学习后可能在预测时被放大,引发道德和社会问题。

论文的主要实验

论文通过一系列实验,说明了数据集的偏置问题,仍广泛存在于当今的计算机视觉研究中。

作者选定了六个数据集来进行数据集分类任务,用ConvNeXt-T模型来判断图片来自于哪个数据集,结果如下图所示,左边是选择了哪些数据集,右边是分类的准确率指标,作者共进行了24组实验。

即使换用不同的模型,偏置效果依然显著

表为YFCC,CC,DataComp的分类结果

▲表为YFCC,CC,DataComp的分类结果

但是,进行伪数据集分类实验(把同一个数据集随机分成3类并打上不同的类别标签),准确率就会接近33%,这证明了实验任务的合理性。

CV数据集的偏置,是什么样的?

是低阶特征吗?

分别对原始数据集进行颜色抖动、加噪、模糊和降采样操作,如下图所示

发现对数据集的分类性能影响并不大

表为YFCC,CC,DataComp的分类结果

▲表为YFCC,CC,DataComp的分类结果

所以,低阶特征对数据集分类有点影响,但影响不大,低阶特征只能看作是数据集偏置的很小一部分。

更多的实际上是语义特征

文章进行了线性探测实验(linear probing),用于判断两个任务(任务a和任务b)的相似性。

具体来说,步骤是这样的: 1、任务a作为预训练任务,训练模型A 2、冻结模型A的所有参数,然后在A的顶层添加一个简单的线性分类器,我们称为模型B(冻结了参数的A+线性分类器) 3、在任务b上训练模型B

这样我们把模型A作为特征提取器,看看这个特征提取器对任务b的增益。

论文将数据集分类任务作为任务a,然后把ImageNet图片分类任务作为任务b,评估这些通过数据集分类学习到的特征在图像分类任务上的表现,结果如下

Y,C,D等对应前面6个数据集的首字母

▲Y,C,D等对应前面6个数据集的首字母

结果显示,相比于随机初始化的权重,这些特征可以提升ImageNet分类任务的性能,尽管这种提升并不如直接在ImageNet上预训练的模型那样显著。

这证明了数据集分类任务所提取到的特征明显有益于图像分类任务,而图像分类任务需要的是语义特征。

讨论

CV数据集的偏置很可能以语义特征为主,而低阶特征通过干扰语义特征来影响偏置。

对于人类来说,NLP数据集的偏置更容易被察觉,比如文风,语义等等。相比之下,CV数据集的偏置就难以察觉,所以更值得研究。

判断数据集偏置(如何判断豆子到底撒的匀不匀?)

除了论文提到的数据集分类方法,还有一些其他工作提出的方法。

1、交叉数据集验证:在一个数据集上训练模型,然后在另一个数据集上测试它的性能。

2、分析数据集构成:统计分析数据集中的类别分布、样本多样性(如种族、性别、年龄等属性在人脸数据集中的分布),以及图像的获取和处理方式(例如拍摄角度、光照条件等)。

3、用户研究:让人类参与者尝试识别图像的数据集来源或评估图像的多样性。

4、平等机会:对于给定的正确标签,所有群体(通常是受保护的群体,如不同的种族、性别等)都应该有相同的真阳性率。

5、平均奇异值差异:比较两个数据集或两组模型特征的奇异值,以此来衡量它们在统计属性或信息含量上的差异。

用模型对抗数据集偏置(既然豆子撒不匀,有没有弥补的方法?)

这里我们介绍两篇先前的工作,他们试图通过改变模型的训练方式,来减少已有数据集偏置造成的影响。

对抗性学习:通过引入对抗性示例来增强模型鲁棒性,使其无法区分不同群体或类别的数据,从而减少模型对这些特征的依赖。

领域独立训练:使模型能够在多个不同的领域或数据分布中都表现良好。

所以到底怎么撒豆子?

回到我们文章开头的那个问题,我们如何把豆子撒的均匀呢?这篇论文也没有给出答案,自从2011年提出这个问题,它就一直伴随着整个深度学习革命,在今天这仍然是一个值得研究的方向。

总地来说,过去十年里,尽管在减少数据集偏差方面取得了一定进展,但现代神经网络的能力使得它们能够轻易地识别出数据集中的偏置,这提示我们在建立数据集时应当更加小心。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1548663.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OpenHarmony之媒体组件模块简介

源码 本文基于OpenAtom OpenHarmony(以下简称“OpenHarmony”)3.2 Release源码foundation目录下的player_framework,在OpenHarmony 2.0 Release版本当中,这个模块的名字叫媒体组件模块,为了方便理解我们在本文中仍旧延…

【面试经典 | 150】单词拆分

文章目录 Tag题目来源解题思路方法一:动态规划 写在最后 Tag 【动态规划】【字符串】 题目来源 139. 单词拆分 解题思路 方法一:动态规划 定义状态 定义 dp[i] 表示字符串 s 前 i 个字符组成的字符串(s[0, ..., i-1])是否能被…

0.96寸OLED屏调试 ----(二)

所需设备: 1、USB 转 SPI I2C 适配器;内附链接 2、0.96寸OLED显示模块; 备注:专业版、升级版都适用; 读写控制 SSD1306通过 D/C# 和 R/W# 两位来确定:读/写数据,写命令和读状态四种通信行为。…

AI智能分析网关V4数字农场智能监控方案

随着大数据时代的到来,数据成为国家基础性战略资源,加快数字化转型、以数字化谋求国际竞争新优势已成为全球普遍共识,利用大数据推动经济发展、优化社会治理、改善公共服务成为了世界各国的必然选择。农村为实现产业转型升级和治理创新&#…

安达发|磁性材料智能化转型必经之路之APS高级排产软件

在当今的制造业中,磁性材料的应用非常广泛,它们在电子、电力、通信、汽车等多个行业中扮演着重要角色。随着工业4.0和智能制造的推进,磁性材料行业也面临着智能化转型的挑战。在这一转型过程中,APS(高级计划排程系统&a…

寻找旋转排序数组中的最小值

题目链接 寻找旋转排序数组中的最小值 题目描述 注意点 1 < n < 5000-5000 < nums[i] < 5000nums中的所有整数 互不相同nums原来是一个升序排序的数组&#xff0c;并进行了 1 至 n 次旋转找出并返回数组中的最小元素设计一个时间复杂度为 O(log n) 的算法解决此…

QT 二维坐标系显示坐标点及点与点的连线-通过定时器自动添加随机数据点

QT 二维坐标系显示坐标点及点与点的连线-通过定时器自动添加随机数据点 功能介绍头文件C文件运行过程 功能介绍 上面的代码实现了一个简单的 Qt 应用程序&#xff0c;其功能包括&#xff1a; 创建一个 MainWindow 类&#xff0c;继承自 QMainWindow&#xff0c;作为应用程序的…

YB5156是一款完整的单节锂离子电池采用恒定电流/恒定电压线性充电器

概述: YB5156是一款完整的单节锂离子电池采用恒定电流/恒定电压线性充电器。其底部带有散热片的SOP8封装与较少的外部元件数目使得YB5156成为便携式应用的理想选择。YB5156可以适合USB电源和适配器电源工作。由于采用了内部PMOSFET架构&#xff0c;加上防倒充电路&#xff0c;…

flutter Got socket error trying to find package nested at

flutter Got socket error trying to find package nested at xxx 报错信息&#xff1a;“Got socket error trying to find package nested at” 通常出现在Flutter尝试从pub.dev获取依赖包时&#xff0c;由于网络问题导致无法连接到pub.dev或者无法正确解析包的路径。 例如&…

linux进程间通信IPC方式

前言 Linux环境下&#xff0c;进程地址空间相互独立、彼此隔离&#xff0c;因此进程间的数据不能直接访问。如果要交换数据&#xff0c;必须要通过内核&#xff0c;在内核中开辟一块缓冲区&#xff0c;进程A把数据从用户空间拷贝到内核缓冲区&#xff0c;进程B再把数据从内核缓…

【leetcode】双“指针”

标题&#xff1a;【leetcode】双指针 水墨不写bug 我认为 讲清楚为什么要用双指针 比讲怎么用双指针更重要&#xff01; &#xff08;一&#xff09;快乐数 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」 定义为&#xff1a; 对于一个正整数&#xff0c;每一次将该数…

centos7.9安装mysql

1. 概述 官网&#xff1a;https://www.mysql.com/ MySQL是一个关系型数据库管理系统&#xff0c;由瑞典 MySQL AB 公司开发&#xff0c;MySQL是最流行的关系型数据库管理系统之一&#xff0c;在 WEB 应用方面&#xff0c;MySQL是最好的RDBMS (Relational Database Management S…

Linux下线程池详解与实现:提升多任务处理效率的关键

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;マイノリティ脈絡—ずっと真夜中でいいのに。 0:24━━━━━━️&#x1f49f;──────── 4:02 &#x1f504; ◀…

【教程】谈一谈 IPA 上传到 App Store Connect 的几种方法

引言 在应用开发过程中&#xff0c;将应用程序上传到 App Store Connect 是一个关键的环节。本文将探讨几种常见的 IPA 文件上传方法&#xff0c;包括 Xcode、Application Loader、altool、Appuploader以及Transporter。通过本文的介绍和指导&#xff0c;读者将能够了解不同的…

基于springboot+vue+Mysql的超市进销存系统

开发语言&#xff1a;Java框架&#xff1a;springbootJDK版本&#xff1a;JDK1.8服务器&#xff1a;tomcat7数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09;数据库工具&#xff1a;Navicat11开发软件&#xff1a;eclipse/myeclipse/ideaMaven包&#xff1a;…

SpringCloud学习笔记二:服务间调用

微服务中&#xff0c;很多服务系统都在独立的进程中运行&#xff0c;通过各个服务系统之间的协作来实现一个大项目的所有业务功能。服务系统间 使用多种跨进程的方式进行通信协作&#xff0c;而RESTful风格的网络请求是最为常见的交互方式之一。 spring cloud提供的方式&#…

基于springboot实现在线拍卖系统项目【项目源码+论文说明】

基于springboot实现在线拍卖系统演示 摘要 随着社会的发展&#xff0c;社会的各行各业都在利用信息化时代的优势。计算机的优势和普及使得各种信息系统的开发成为必需。 在线拍卖系统&#xff0c;主要的模块包括管理员&#xff1b;首页、个人中心、用户管理、商品类型管理、拍…

jsp指令和动作

1.page指令&#xff1a;描述页面信息 pageENcoding:软件编码 contentType&#xff1a;浏览器编码 2.include指令&#xff1a;将多个网页合成一个网页&#xff0c;静态包含网页 问题&#xff1a;1.在网页源代码中&#xff0c;会形成错误的多遍代码&#xff0c;将主页面代码和…

MySQL中如何进行多表查询

目录 一、子查询 1.什么是子查询 2.注意事项 二、联结查询 1.什么是联结 2.内部联结&#xff08;等值联结&#xff09; ①WHERE语句 ②ON语句 3.自联结 4.自然联结 5.外部联结 三、组合查询 1.什么是组合查询 2.UNION规则 *本节涉及概念来源于图灵程序设计丛书&a…

成功推出全新生成式AI的四大原则

生成式AI有望从根本上打开一扇新世界机遇的大门&#xff0c;以满足各行各业的客户需求。从提供个性化回复的对话式聊天机器人&#xff0c;到各种应用的代码&#xff0c;再到营销传播的目标内容&#xff0c;生成式AI正在彻底改变企业的运作方式。为竞相提供卓越的客户体验&#…