FairTune:优化参数高效微调以实现医学图像分析的公平性

news2024/11/19 1:37:52

paper:https://arxiv.org/abs/2310.05055
code: https://github.com/Raman1121/FairTune

摘要和介绍

人工智能在医疗健康应用中的应用正在迅速增长。然而,人工智能模型一再被证明对不同的人口统计学亚群体表现出不必要的偏见——AI模型在由性别、种族、年龄和社会经济地位等方面处于弱势群体中提供了明显更差的表现。该论文认为深度学习模型在训练集中已经在本质上是公平的,在训练阶段不同群体是公平的(表现出相同的性能),但是因为模型在不同群体的泛化能力不同,导致在测试集和现实中存在不公平(表现出不同的性能),如下图所示。
image.png
本文的方法植根于容量控制(capacity control)的概念,包括在学习过程中引入一种正则化方法,以最小化看不见的数据的偏差。为了实现这个方法,本文选择了预训练/微调框架。首先在image数据集上进行预训练,然后在小规模医疗图像数据集上微调,在微调阶段,随着更新次数的增加,就出现了上图的情况。因此,主要的挑战在于限制模型更新的程度。本文证明了使用参数高效的微调技术,其中包括对网络参数子集的选择性更新,可以导致更公平的泛化。然而,这种方法有一个关键问题:“应该更新哪些参数以实现公平最大化?”为了解决这个问题,本文引入了名为FairTune的框架,旨在搜索最优参数更新mask。本文寻找的mask是,当应用于约束微调过程时,会对验证数据产生高度的公平性。本文的实验结果表明,在各种医学图像基准中,FairTune在公平性方面优于经验风险最小化(ERM)。
本文主要贡献如下: (1)本文直接证实了Zietlow等人(2022年)的猜想,即在泛化过程中会出现偏见(如上图所示)。(2)与现有的公平干预方法相比,本文引入了一种新的公平学习方法,规范学习,以优化测试阶段的公平性(cf:现有的针对训练集公平性的方法)。(3)本文在不同的基准测试中进行的实证发现一致表明,FairTune比ERM可靠地提高了性能。

相关工作

相关工作介绍了三个部分的内容(1)医学模型的公平性是一个复杂的问题。(2)目前公平性干预的方法主要集中于训练集。(3)所有现有的PEFT方法都存在一个核心挑战,即,它们依赖于启发式方法将参数划分为冻结/更新分区。目前的方法并没有提供一个有原则的或有经验的方法来建立最优分区。这变得特别重要,因为理想的PEFT假设,即冻结/更新分区,可能依赖于数据集。例如,与较小的数据集相比,更大的数据集可以容纳更广泛的参数更新,而不会出现过拟合。

方法

公平性度量

给定一个图像x,我们以一种独立于任何敏感属性s(年龄、性别、种族等)的方式来预测其诊断标签y。这样,训练的模型是公平的,不会使任何不利的特定的人口亚组。大多数实验中,本文优化最弱势群体表现的指标。在这种情况下,给出了数据集D上的模型θ的损失函数 L ( D , θ ) \mathcal{L} (\mathcal{D},\theta ) L(D,θ)。假设它可以被数据集D的不同子组s计算为 L ( D s , θ ) \mathcal{L} (\mathcal{D}_s,\theta ) L(Ds,θ)。那么,公平学习的度量标准是 L f a i r = max ⁡ s ∈ S L ( D s , θ ) \mathcal{L}^{fair} = \max_{s \in S} \mathcal{L} (\mathcal{D}_s,\theta ) Lfair=maxsSL(Ds,θ)。还是用其他指标比如公平性差距 max ⁡ s ∈ S L ( D s , θ ) − min ⁡ s ∈ S L ( D s , θ ) \max_{s \in S} \mathcal{L} (\mathcal{D}_s,\theta ) - \min_{s \in S} \mathcal{L} (\mathcal{D}_s,\theta ) maxsSL(Ds,θ)minsSL(Ds,θ)

PARAMETER-EFFICIENT FINE-TUNING

PEFT中,只需要微调参数的一部分 ϕ ⊂ θ \phi \subset \theta ϕθ。PEFT策略可以解释为指定一个稀疏二进制掩码 ω \omega ω,它决定应该更新 θ \theta θ的哪些部分。给定预训练模型的参数 θ 0 \theta_0 θ0和将应用于其值的变化 △ ϕ \bigtriangleup_ \phi ϕ,微调过程可以描述为:
△ ϕ ∗ = arg ⁡ min ⁡ △ ϕ L b a s e ( D t r a i n ; θ 0 + ω ⊙ △ ϕ ) \bigtriangleup_ \phi^* = \arg \min_{\bigtriangleup_ \phi} \mathcal{L}^{base} (\mathcal{D}^{train};\theta _0+\omega \odot \bigtriangleup_ \phi) ϕ=argminϕLbase(Dtrain;θ0+ωϕ)
其中 L b a s e \mathcal{L}^{base} Lbase为损失函数。
不同的PEFT方法本质上对应于二进制掩模 ω \omega ω的稀疏性结构上的不同结构。
然而,有两个关键的突出挑战: (1)最优的PEFT策略(二进制掩码ω)是依赖于数据集的。例如,更稀疏的掩模ω可能适合较小的目标任务,而更密集的掩模可能适合与训练前任务更不同的任务,因此需要更强的适应。(2)最优的PEFT策略可能取决于最终的泛化目标。例如,与传统的总体泛化相比,稀疏掩模ω可能更适合公平泛化。本文提出了一个解决方案,通过引入一个算法来优化掩模ω关于一个公平的泛化目标。

OPTIMISING PEFT FOR FAIRNESS

从一个预先训练的模型 θ 0 \theta_0 θ0开始,和一个数据集 D D D,它分为训练、验证和测试集 D t r a i n , D v a l , D t e s t D_{train},D_{val},D_{test} DtrainDvalDtest。每个数据集 D = ( X , Y , S ) D =(X,Y,S) D=XYS包含一组图像 X X X、标签 Y Y Y和敏感属性元数据 S S S。还为PEFT掩码 ω ∈ Ω ω∈Ω ωΩ定义了一个搜索空间。目标是在进行PEFT学习时找到能导致最佳的公平泛化能力。
**Bi-level Optimization (双层优化,BLO):**本文将问题陈述形式化为一个由一个内环和一个外环组成的双层优化问题。在内环中,使用传统的损失函数 L b a s e L^{base} Lbase和PEFT掩模 ω ω ω对医疗数据集(Dtrain)上的预先训练好的模型进行微调。在外环中,搜索PEFT掩模 ω ω ω,它导致内环在验证集(Dval)上产生最公平的结果,由 L f a i r L^{fair} Lfair测量。可以通过以下公式进行表示:
ω ∗ = arg ⁡ min ⁡ ω L f a i r ( D ; △ ϕ ∗ ) △ ϕ ∗ = arg ⁡ min ⁡ △ ϕ L b a s e ( D t r a i n ; θ 0 + ω ⊙ △ ϕ ) \omega ^* = \arg \min_\omega \mathcal{L} ^{fair}(\mathcal{D} ;\bigtriangleup _\phi ^*) \\ \bigtriangleup _\phi ^*= \arg \min_{\bigtriangleup \phi }\mathcal{L}^{base} (\mathcal{D^{train};\theta _0+\omega \odot \bigtriangleup _\phi } ) ω=argminωLfair(D;ϕ)ϕ=argminϕLbase(Dtrain;θ0+ωϕ)
过程可以用下图表示。在实验中,本文采用了一种混合方法,采用无梯度树结构的Parzen估计器(TPE)并采用连续减半(SH)策略来优化外环的 ω ∗ ω^∗ ω,在外环使用梯度下降算法微调 △ ϕ ∗ \bigtriangleup _\phi^* ϕ
image.png
除了选择性更新掩模ω外,学习率α还提供了一个关于更新量的粗略提示。例如,适当地降低学习速率可以防止图1中所示的最异常的过拟合,算法过程如下所示。
image.png

实验结果

如下图所示
image.png

Limitations

下游公平性性能的提高是以计算为代价的,因为它需要我们尝试二进制掩码的各种配置,每个配置对应于一个模型再训练。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1492107.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

《 前端挑战与未来:如何看待“前端已死”》

在技术领域,时常会有一些激进的言论引发热议,比如近年来不少人声称“前端已死”。这样的言论引发了广泛的讨论和反思。本文将从几个方向探讨这个话题:为什么会出现“前端已死”的言论、如何看待这种说法、前端技术的未来发展趋势以及前端人如何应对这场职位突围战。 为什么会…

超级副业SOP,各行各业,太全了!

最近收集到一份资料,包含了几乎各行各业的SOP,实在是太全了,这里准备分享给大家 这里可能有一些朋友还不知道,SOP是个什么东西呢 百度说法:所谓SOP,是 Standard Operating Procedure三个单词中首字母的大写…

Spring Cloud 面试题及答案整理,最新面试题

Spring Cloud中断路器的原理及其作用是什么? Spring Cloud断路器的原理和作用基于以下几个关键点: 1、故障隔离机制: 在微服务架构中,断路器作为一种故障隔离机制,当某个服务实例出现问题时,断路器会“断…

浏览器发出一个请求到收到响应步骤详解

前言 在网络通信中,浏览器向Web服务器发送HTTP请求消息的过程是一个复杂而精密的环节,涉及到URL解析、DNS解析、数据拆分、路由表规则和MAC头部添加等一系列步骤。本文将深入探讨这一过程的每个环节,帮助读者更全面地了解浏览器与Web服务器之…

Python实现MACD工具判断信号:股票技术分析的工具系列(1)

Python实现MACD工具判断信号:股票技术分析的工具系列(1) 介绍代码rolling函数介绍核心代码计算指数移动平均值计算MACD指标 完整代码 介绍 先看看官方介绍: MACD (平滑异同平均线) 指标说明 DIF线:收盘价短…

上传文件,页面loading显示文件上传进度

做项目时,弹窗上传文件时,上传动作无法停止,需要加一个蒙层,阻止上传文件过程中的用户操作,并显示文件上传进度,效果如图。 页面上传文件函数 /** 上传文件函数*/ uploadFile(){let config {onUploadProgr…

全网公开!!苍穹外卖或吉瑞外卖等外卖购物项目如何拓展?简历如何写?已经经过不同公司多轮面试。项目中会问到哪些问题?以及问题如何解决?

文章末尾联系作者,免费获取外卖项目的拓展和讲解资料,祝你面试成功 !!! 文章问题的解答,以及作者的规划进步历程,尽在作者的知识库。 想要加入并查阅作者的知识库可以联系作者 不要白嫖&#…

微信报修小程序源码

源码获取方式: 1、搜一搜 万能工具箱合集 然后点击资料库,即可获取资源 一、先看Demo(已更新至4.0.0) 想看界面图片的,辛苦你爬一下楼,点击下方查看资源,进入官方demo 二、功能介绍 1、当前版…

关于跨境电商知识产权的英语翻译

随着全球化的发展,跨境电商逐渐成为国际贸易的重要组成部分。在这个领域中,知识产权的保护显得尤为重要。那么,对于跨境电商知识产权英语翻译,怎样做比较好,北京哪个翻译公司比较权威? 业内人士指出&#x…

网络工程师笔记8

华为VRP系统 设备管理方式 web管理方式 命令行管理方式 修改命令:undo 基础配置命令

线上问题——学习记录幂等判断失效问题分析

一、业务流程 上图是对save和saveScore两个接口的流程抽象,save是上传答题数据,saveScore则是上传答题分数,为保证幂等和防止并发调用,这两个接口都加了分布式锁(还是两层哦)。第一层使用的是不同的锁&…

Nginx使用—基础知识

Nginx简介 Nginx优点 高性能、高并发 支持很高的并发,在处理大量并发的情况下,比其他web服务器要高效 轻量且高扩展 功能模块少(源代码仅保留http与核心模块代码,其余不够核心代码会作为插件来安装) 代码模块化(易读&#xff0…

【开源】SpringBoot框架开发固始鹅块销售系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 鹅块类型模块2.3 固始鹅块模块2.4 鹅块订单模块2.5 评论管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 鹅块类型表3.2.2 鹅块表3.2.3 鹅块订单表3.2.4 鹅块评论表 四、系统展示五、核心代码5.…

计算文件大小时容易忽略的问题

计算文件大小时容易忽略的问题 1、概述2、问题背景3、解决方案4、结论 1、概述 大家好,我是欧阳方超,可以关注我的公众号“欧阳方超”,后续内容将在公众号首发。 在处理文件大小时,经常需要将其转换为KB并进行适当处理。然而&…

cuda python torch 虚拟环境配置

以下是Pytorch和CUDA对应的版本 以下是Pytorch和Python对应的版本 检查cuda与Python版本是否匹配 import torch print(torch.__version__) print(torch.cuda.is_available()) print(torch.empty(3,4,devicecuda))cuda 删除cuda conda uninstall cudatoolkit --forceconda u…

稀碎从零算法笔记Day5-LeetCode:轮转数组

题型:数组、数学、双指针 前言:LC说你得用三种方法做出来(悲) 链接:189. 轮转数组 - 力扣(LeetCode) 来源:LeetCode 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 …

操作系统概念概述

软件设计师11--操作系统 考点1:操作系统的作用操作系统概述例题: 考点2:特殊的操作系统例题: 考点1:操作系统的作用 操作系统概述 管理系统的硬件、软件、数据资源控制程序运行人机之间的接口应用软件与硬件之间的接口…

289页初中级前端题助你拿下Offer,web前端开发面试技巧

HTML面试题部分 1.H5的新特性有哪些 2.Label的作用是什么?是怎么用的? 3.HTML5的form如何关闭自动完成功能 4.dom如何实现浏览器内多个标签页之间的通信? 5.实现不使用 border 画出1px高的线,在不同浏览器的标准模式与怪异模式下都 能保持一…

详解C#之WinForm版利用RichTextBox 制作文本编辑器【附源码】

在Windows应用程序开发中,刚刚介绍了WPF版的利用RichTextBox实现文本编辑器,今天继续推出WinForm版的利用RichTextBox实现文本编辑器。本文利用一个简单的小例子,简述如何在WinForm开发中,利用RichTextBox开发文本编辑器&#xff…

数据传输的同步技术包含哪些?如何高效安全传输数据?

在数字化时代,数据传输的同步技术对于确保信息的一致性和通信质量至关重要。本文将探讨数据传输同步技术的种类、如何实现高效安全的数据传输,以及企业在数据迁移中常用的几种方式。最后,我们将重点介绍镭速大数据迁移工具的优势。 数据传输同…