推动公平学习与身份归一化的视网膜神经疾病数据集

news2024/11/16 11:26:27

人工智能咨询培训老师叶梓 转载标明出处

在机器学习领域,公平性(也称为公正性或平等性)是一个日益受到关注的话题,它对于社会的福祉至关重要。然而,目前缺乏专门用于公平学习且包含成像数据的公共医学数据集,这限制了该领域的进展。为了解决这一问题,哈佛医学院眼科AI实验室的研究团队提出了哈佛青光眼公平性(Harvard Glaucoma Fairness,简称Harvard-GF)数据集,这是一个包含3300名受试者的视网膜神经疾病数据集,涵盖了2D和3D成像数据,并针对青光病检测进行了种族群体的平衡。

公平性数据集

数据集涵盖了2010年至2021年间来自大型学术眼科医院的3300名受试者,包括了光学相干断层扫描(OCT)图像、患者人口统计学特征以及基于视野测试的青光眼诊断。数据质量进行了严格控制,例如,排除了信号强度低于6的OCT扫描图像(信号强度10表示最佳成像质量)。

Harvard-GF数据集包含3300个样本,其中1748个样本为青光眼患者。数据被分为训练集(2100个样本)、验证集(300个样本)和测试集(900个样本)。每个受试者选择了最后一次就诊的数据,并随机选择了一只眼睛。

图3展示了样本在青光眼类别、种族、性别、民族和年龄等不同因素下的分布情况。数据显示,亚洲人、黑人和白人分别占样本的33.3%,女性占54.9%。此外,91.7%的样本为非西班牙裔,平均年龄为59.13岁,中位数为61.41岁。

研究团队提出了公平身份归一化(Fair Identity Normalization, FIN)方法,以增强具有相同身份样本的区分性特征。这种方法考虑了个体身份的统计特性,以期产生更公平的预测结果。

图5展示了所提出的公平身份归一化方法的框架,该方法通过考虑个体身份的统计特性来增强样本的区分性特征。方法将模型视为两个组件:生成区分性特征的骨干网络和将特征映射到逻辑值的最终线性模块。FIN方法通过考虑身份a,输入特征z和身份a,产生估计统计量,并进行归一化处理。

  1. 骨干网络(Backbone Network):这部分负责从输入数据中提取区分性特征 z。骨干网络是深度学习模型中用于特征提取的基础架构,它可以是卷积神经网络(CNN)或其他类型的神经网络,具体取决于数据的类型和任务的需求。

  2. 最终线性模块(Final Linear Module):这个组件的作用是将从骨干网络得到的特征 z 映射到逻辑值z′,这些逻辑值通常用于后续的分类或回归任务。

在这两个组件之间,引入了公平身份归一化(FIN)方法:

  • 公平身份归一化(FIN):该方法的核心在于考虑每个样本的身份信息 a,并将这些身份信息与特征 z 结合起来,进行归一化处理。归一化处理的目的是调整特征,使得不同身份群体的特征分布更加均衡,从而减少模型在预测时的偏见。

  • 归一化处理:通过计算每个身份群体的统计量(如均值和标准差),将特征z 进行调整。具体来说,特征 z 会被减去对应身份群体的均值,并除以标准差,以实现归一化。这一步骤的数学表达式为 ,其中 分别是对应身份群体的均值和标准差。

  • 可学习的统计量:在FIN方法中,均值 和标准差 是可学习的参数,这意味着它们可以通过训练过程进行优化,以更好地适应数据和任务的需求。

研究团队还引入了一种公平性缩放机制,考虑了身份依赖的公平性对性能指标(如准确性和AUC)的影响。这种机制通过衡量整体与身份群体之间的性能差异,提出了一种新的公平性缩放度量方法。

为了解决传统公平性度量(如DDP和DEOdds)无法捕捉公平性与效率之间权衡的问题,研究团队提出了一种新的度量方法。这种方法不仅考虑了公平性,还考虑了效率,以确保模型在所有身份群体中不仅公平而且准确有效。

通过这些创新的方法和度量,哈佛医学院眼科AI实验室的研究团队为医学影像分析中的公平学习提供了有力的支持和工具,推动了该领域的发展。

想要掌握如何将大模型的力量发挥到极致吗?叶老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。9月22日晚,实战专家1小时讲解让您轻松上手,学习如何使用 Llama Factory 微调模型。

加下方微信或评论留言,即可参加线上直播分享,叶老师亲自指导,互动沟通,全面掌握Llama Factory。关注享粉丝福利,限时免费录播讲解。

LLaMA Factory 支持多种预训练模型和微调算法。它提供灵活的运算精度和优化算法选择,以及丰富的实验监控工具。开源特性和社区支持使其易于使用,适合各类用户快速提升模型性能。

实验

研究使用了2100个视网膜神经纤维层厚度图(RNFLT maps)或OCT B扫描图像进行训练,另外900个用于评估。样本不仅包含青光眼/非青光眼的标签,还包括种族(亚洲、黑人、白人)和性别(男性、女性)这两种社会身份信息。验证集包含100个亚洲样本、100个黑人样本和100个白人样本,而测试集则用于最终评估模型性能。

研究采用了EfficientNet-B1作为处理RNFLT地图的基线模型,而3D ResNet-18用于处理3D OCT B扫描图像。除了没有归一化的基线模型(No Norm),还在最终线性层之前插入了批量归一化(Batch Normalization, BN)、可学习的批量归一化(Learnable Batch Normalization, L-BN)以及提出的公平身份归一化(Fair Identity Normalization, FIN,其中动量m设置为0.3)进行综合比较。

研究使用了准确率(Accuracy)、接收者操作特征曲线下面积(AUC)、群体间差异(DPD)和等机会差异(DEOdds)等多种评估指标来全面理解效率和公平性之间的平衡。DPD衡量由敏感属性定义的群体之间选择率的最大差异,而DEOdds则关注不同群体间假阳性率(FPR)和真阳性率(TPR)的相似性。

模型使用AdamW优化器进行训练,并在NVIDIA RTX A6000图形卡上进行。对于RNFLT地图的实验,使用了5e-5的学习率和(0, 0.1)的beta值。对于OCT B扫描图像,使用了1e-5的学习率和相同的beta值。对比学习基线训练遵循SimCLR和FSCL的方法,应用数据增强技术。

表II展示了在考虑种族身份的RNFLT地图测试集上的实验结果。结果显示,黑人组的AUC一致低于白人组,而白人组的AUC通常低于亚洲组。这表明在黑人群体中,使用深度学习进行自动化青光眼检测尤其具有挑战性。与基线模型(No Norm)相比,提出的FIN在黑人组的青光眼检测性能提高了2.69%(p值=0.002)。此外,FIN在ESAcc、Acc、ESAUC和AUC等指标上优于其他方法。

表III和表IV分别展示了在考虑性别身份和种族身份的RNFLT地图和OCT B扫描图像测试集上的实验结果。这些结果进一步证实了FIN在提高模型公平性和效率方面的有效性。

消融研究探讨了动量m在公平身份归一化(FIN)中的作用,m的值从0到1变化。图6展示了动量m与AUC/ESAUC以及DPD/DEOdds之间的关系。结果表明,对于种族身份,m=0.3时在AUC和ESAUC上表现最佳;对于性别身份,m=0.2时表现最佳。

为了检验提出的FIN对学习过程的影响,研究可视化了基线模型、带有BN的基线模型、带有L-BN的基线模型和带有FIN的基线模型生成的预测结果中的真正例(TPs)、假正例(FPs)、真负例(TNs)和假负例(FNs)。图7显示,提出的FIN将TPs和TNs分别向右和左移动,这是因为FIN根据其身份特定的特征增强了特征。

高度近视被认为是导致原发性开角型青光眼风险增加的重要因素。图8展示了使用球面等效(SE)属性进行特征归一化的FIN与基线No Norm的性能比较。结果表明,通过SE属性进行特征归一化可以提高整体AUC和ESAUC,这与已知的近视与青光眼之间的关联一致。

通过这些详细的实验和分析,研究团队展示了他们提出的FIN方法在提高医学影像分析中模型的公平性和效率方面的潜力。

论文链接:2306.09264 (arxiv.org)

数据集和代码可通过以下链接公开获取:Harvard-GF 数据集

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2143996.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vs2022配置opencv==4.9.0(C++)

1、下载opencv-windows [opencv4.9.0下载地址](Releases - OpenCV) 下载4.9.0版本: 双击下载好的opencv-4.9.0-windows.exe,选择安装路径: 2、配置opencv环境 (1)添加系统环境变量 此电脑–>右键“属性”–…

小红书治愈插画副业,猛猛涨粉上万+,每天只用5分钟

在这个数字化时代,AI技术正以前所未有的速度改变着我们的生活和工作。特别是在内容创作领域,AI的运用已经催生了一种全新的创作模式。一幅幅温馨可爱的治愈插画如同清流,不仅契合当下年轻人生活的状态,更成为许多人表达生活态度、…

「iOS」push与present

iOS学习 前言push与poppresent与dismiss使用dismiss弹出多级PresentedViewController 与 PresentingViewController区别 总结 前言 在此前就学习过视图的push与present。与之对应的退出方法为pop与dismiss。这里进行一次总结。 push与pop pushViewController 是通过导航控制器…

黑神话:悟空 后话

《黑神话:悟空》在游戏界掀起了波澜。对许多人来说,包括我自己,这款游戏是我们一直期待的——一款纯粹、沉浸且专注于高质量游戏体验的作品。它不追求现代趋势,没有微交易或在线服务模式,也没有为了未来扩展包而设计的…

PumpkinFestival靶机详解

靶机下载地址 https://www.vulnhub.com/entry/mission-pumpkin-v10-pumpkinfestival,329/ 靶机配置 主机发现 arp-scan -l 端口扫描 nmap -sS -Pn -A -p- -n 192.168.229.163 访问网页 http://192.168.229.163/ 这些可能是用户名和账号留存 F12查看页面源码,发…

瑞芯微RK3588开发板Linux系统添加自启动命令的方法,深圳触觉智能Arm嵌入式鸿蒙硬件方案商

本文适用于触觉智能所有Linux系统的开发板、主板添加自启动命令的方法,本次使用了触觉智能的EVB3588开发板演示,搭载了瑞芯微RK3588旗舰芯片。 该开发板为核心板加底板设计,为工业场景设计研发的模块化产品,10年以上稳定供货,帮助…

2024年9月18日历史上的今天大事件早读

1043年9月18日 范仲淹实行改革 1393年9月18日 “活财神”沈万三逝世 1783年9月18日 瑞士著名数学家欧拉逝世 1851年9月18日 《纽约时报》创刊 1903年9月18日 清末爱国将领冯子材逝世 1917年9月18日 护法战争爆发 1931年9月18日 “九一八”事变爆发 1936年9月18日 阎锡山…

SOMEIP_ETS_115: SD_Entry_references_more_options_than_exist

测试目的: 验证DUT能够拒绝一个订阅请求,该请求中的选项引用超出了实际存在的选项数量,并以SubscribeEventgroupNAck作为响应。 描述 本测试用例旨在确保DUT遵循SOME/IP协议,当接收到一个引用了比实际存在的更多选项的Subscrib…

SPI中的CPOL和CPHA

SPI中的CPOL和CPHA学习SPI必须掌握的知识,因为它涉及到“数据位采集”。重点掌握空闲时SCK的电平是怎么定义的。采集时,是怎么规定发生在哪个时钟边沿。CPOL用来决定SPI总线在空闲时,SPI_SCK引脚输出的电平;CPHA用来决定“数据位采集点”发生在第几边沿。…

【Python】从基础到进阶(八):文件操作与上下文管理

🔥 个人主页:空白诗 文章目录 一、引言二、Python文件操作基础1. 打开文件2. 读取文件3. 写入文件4. 文件指针定位 三、上下文管理1. 使用with管理文件2. 自定义上下文管理器 四、文件操作的最佳实践五、案例:日志文件管理1. 需求分析2. 实现…

低代码技术:简化应用开发的未来

近年来,低代码技术作为一种新兴的应用开发方法,受到了广泛关注。低代码平台通过图形化的界面和预设的模块,使得用户能够以较少的代码编写工作创建应用程序。这一技术的发展,标志着软件开发过程中的一个重要变革。 低代码技术的基…

【Linux系统编程】第二十弹---进程优先级 命令行参数 环境变量

✨个人主页: 熬夜学编程的小林 💗系列专栏: 【C语言详解】 【数据结构详解】【C详解】【Linux系统编程】 目录 1、进程优先级 2.1、什么是优先级 2.2、优先级的描述 2.3、优先级与权限的关系 2.4、为什么要有优先级 2.5、Linux优先级的…

【产品更新】中汇保函及汇匠源保证金保函平台

中汇保函 新增 1.新增小程序查询验证功能,手机输入即可查验。 2.新增小程序客户案例案例,合作单位及案例展示页面。 3.履约保函、预付款保函、质量保函、工程款支付保函订单提交及订单状态查验。 4.PC产品官网已经上线,可随时访问了解产品介…

【Java】synchronized 基础线程安全

欢迎浏览高耳机的博客 希望我们彼此都有更好的收获 感谢三连支持! 在多线程编程中,线程安全是一个至关重要的概念。Java 提供了多种机制来处理线程安全问题,其中 synchronized 关键字是最常用和最基础的一种。本文将介绍线程安全问题的原因&a…

智创未来,景联文科技提供全方位数据采集服务

随着科技的日新月异,人工智能技术正在改变我们的生活与工作方式,数据成为推动人工智能(AI)技术发展的基石。 高质量的数据对于训练机器学习模型、提升算法性能以及实现智能应用的广泛部署至关重要。 景联文科技凭借卓越的技术实力…

Android14请求动态申请存储权限

Android14请求动态申请存储权限 Android14和Android15存储权限有增加多了选择部分,还是全部。一个小小的存储权限真的被它玩出了花来。本来Android13就将存储权限进行了3个细分,是图片,音频还是视频文件。 步骤一:AndroidManife…

六种主流ETL工具的比较与Kettle的实践练习指南--MySQL、hive、hdfs等之间的数据迁移

在数据集成和数据仓库建设中,ETL(Extract, Transform, Load)工具扮演着至关重要的角色。本文将对六种主流ETL工具进行比较,并深入探讨Kettle的实践应用。 一、六种主流ETL工具比较 1. DataPipeline 设计及架构:专为…

Python异常处理:自定义异常②

文章目录 1. 什么是自定义异常?2. 为什么需要自定义异常?3. 如何定义自定义异常?3.1 基本自定义异常3.2 带详细信息的自定义异常3.3 自定义异常的继承层次 4. 使用自定义异常4.1 抛出自定义异常4.2 捕获自定义异常 5. 自定义异常的应用场景5.…

【C++】透析string类

个人主页:CSDN_小八哥向前冲~ 所属专栏:C入门 目录 string类介绍 auto和范围for auto关键字 范围for string类常用接口说明 string类常见构造 string类容量操作 string类的访问及遍历操作 string类修改操作 string的结构说明 vs下的结构 G下的…

LibJPEG库使用_通过LibJPEG将RGB数据保存为JPG图片存储到磁盘

一、前言 LibJPEG库是一个广泛使用的开源C库,用于处理JPEG图像的压缩和解压缩。该库由独立JPEG小组(Independent JPEG Group, IJG)开发,提供了功能强大的API,用于创建和读取JPEG文件。LibJPEG库支持JPEG的所有常见功能…