文献阅读CONCH模型--相关知识点罗列

news2024/10/10 22:23:57

文章链接:A visual-language foundation model for computational pathology | Nature MedicineThe accelerated adoption of digital pathology and advances in deep learning have enabled the development of robust models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due to label scarcity in the medical domain, and a model’s usage is limited by the specific task and disease for which it is trained. Additionally, most models in histopathology leverage only image data, a stark contrast to how humans teach each other and reason about histopathologic entities. We introduce CONtrastive learning from Captions for Histopathology (CONCH), a visual-language foundation model developed using diverse sources of histopathology images, biomedical text and, notably, over 1.17 million image–caption pairs through task-agnostic pretraining. Evaluated on a suite of 14 diverse benchmarks, CONCH can be transferred to a wide range of downstream tasks involving histopathology images and/or text, achieving state-of-the-art performance on histology image classification, segmentation, captioning, and text-to-image and image-to-text retrieval. CONCH represents a substantial leap over concurrent visual-language pretrained systems for histopathology, with the potential to directly facilitate a wide array of machine learning-based workflows requiring minimal or no further supervised fine-tuning. Developed using diverse sources of histopathology images, biomedical text and over 1.17 million image–caption pairs, evaluated on a suite of 14 diverse benchmarks, a visual-language foundation model achieves state-of-the-art performance on a wide array of clinically relevant pathology tasks.icon-default.png?t=O83Ahttps://doi.org/10.1038/s41591-024-02856-4

code: http://github.com/mahmoodlab/CONCH

model parameters:http://huggingface.co/MahmoodLab/conch

一: 文章要解决的问题

1. 由于医学领域的标签稀缺,模型训练通常很困难,并且模型的使用受到训练的特定任务和疾病的限制。

2.组织病理学中的大多数模型仅利用图像数据,这与人类如何相互教授和推理组织病理学实体形成鲜明对比。

因此,这篇文章提出的方法就是多模态方法。

二:文章提出的方法

提出CONCH视觉语言基础模型。是基于对比学习的,通过任务不可知的预训练,使用不同来源的组织病理学图像、生物医学文本。数据超过117万对图像描述对。

图像描述对image–caption pairs :其中captions,指的是与组织病理学图像相关的文本描述说明。

1. 模型框架:

基于一个先进的视觉-语言基础预训练框架CoCa (Contrastive Captioners),使用了三个核心组件。

  • 图像编码器:将输入的图像转化token。
  • 文本编码器:将文本(如描述或标题)转化为token。
  • 多模态融合解码器:通过融合图像和文本的表示token,完成具体的任务(例如生成描述或完成其他多模态任务)

2. 训练这个模型的方法包括两个主要目标

  • 对比对齐目标(contrastive alignment objective):让模型能够在图像和文本表示之间建立对应关系,在表示空间中对齐图像和文本,使得相关的图像和文本在表示空间中靠得更近。
  • 标题生成目标(captioning objective):让模型学会生成与图像对应的描述。

对比对齐目标:核心是对比损失Contrastive Loss--InfoNCE Loss,核心思想是通过比较样本对来学习数据的表示。它的目标是使正样本对在特征空间中靠近,负样本对远离。

当计算对比损失时,每个图像(或文本)不仅会与其对应的正样本对进行相似度计算,也会与批次中的所有其他样本(即负样本)进行相似度比较。这种方式确保了模型不仅学习到如何正确匹配图像和文本,还学会了区分不相关的样本。

对比对齐训练:在训练过程中,模型会处理大量的图像-文本对,利用对比损失来优化模型的参数。具体步骤如下:

  • 对每一对图像和文本,模型分别计算它们的表示。
  • 然后使用对比损失来衡量图像和文本之间的相似度,并将其作为优化目标。
  • 正确的图像-文本对在表示空间中逐渐靠近,不相关的对被推开。

应用场景:

  • 图像-文本检索:给定一个文本,找到最匹配的图像;或者给定一个图像,找到最匹配的文本。
  • 多模态学习:学习图像和文本之间的相关性,帮助模型理解和生成更准确的描述或进行图像分析。
  • 有监督的分类任务:在共享的表示空间中进行分类任务,可以使用传统的分类器(如支持向量机SVM)或神经网络进行分类。

Tips:

在共享的表示空间中进行有监督的分类任务,通常需要对图像和文本的 token 进行融合。以下是一些常见的融合方法:

  1. 简单连接(Concatenation): 将图像和文本的嵌入直接进行拼接,然后输入到分类层中。这样可以保留图像和文本的独立特征,但可能会增加参数数量。

  2. 加权平均(Weighted Sum or Mean Pooling): 对图像和文本的嵌入加权求和,得到一个融合后的嵌入表示。权重可以是固定的,也可以是通过模型学习的。

  3. 多模态注意力机制(Multimodal Attention): 利用注意力机制,根据文本信息对图像进行加权,或者根据图像信息对文本进行加权,从而实现信息交互,提升表示的有效性。

  4. 交互注意力机制(Cross Attention): 图像和文本之间的互相关注机制,能够帮助学习到它们之间更复杂的相关性。在多模态 Transformer 模型中非常常见。

  5. 多模态融合网络(Multimodal Fusion Network): 使用专门设计的多模态网络来对不同模态的信息进行融合,比如联合使用卷积神经网络(CNN)处理图像,和 Transformer 处理文本,然后通过特定的融合层(如双线性池化或门控机制)进行融合。

  6. 共训练(Co-Training)机制: 对图像和文本分别进行编码后,在共享的表示空间中对两个模态同时进行监督学习,这可以通过共享部分权重或者损失函数来实现融合。

标题生成目标(训练阶段):在训练阶段,CoCa 模型通常采用 教师强制(Teacher Forcing) 的策略。在生成每个词时,模型使用真实的前序词,而不是依赖它自己生成的词。这确保模型能够在每一步生成正确的下一个词。模型的目标是最大化生成正确词的概率。具体地,损失函数(通常是交叉熵损失)会计算模型在每一步生成的词与真实词的差距。

在每一个时间步t上,最大化预测出正确词y_{t}的概率 (Loss前有负号,转化为最小化)。通过不断优化模型参数,模型会在整个训练集上提高生成正确标题的能力。

标题生成目标(训练阶段):验证阶段模型不再使用教师强制策略,而是采用 自回归(Autoregressive)生成。在每一步生成词时,模型依赖的是自己前一步生成的词。在验证阶段,模型生成的标题会与真实标题进行比较,使用如 BLEU、ROUGE 或 CIDEr 等评估指标来衡量生成标题的质量。这些评估标准基于生成的文本与目标文本之间的重合程度。

三:数据集:

子图a:自动数据清理管道。人工清理教育资源(EDU)和部分PubMed中央开放存取数据集(PMC OA),并使用它们来训练对象检测器来检测组织病理学图像、语言模型来分割涉及多个图像的标题,以及匹配模型来将检测到的图像与其相应的标题进行匹配。

教育资源(EDU):这是一个数据集,来源于高等教育机构,包括多个不同的本科学位专业,例如农学、设计、教育、护理、新闻、管理、社会服务和技术1

PubMed Central开放获取数据集(PMC OA):这是一个包含数百万篇期刊文章和预印本的数据集,这些文章和预印本根据许可条款可供重用。并非PMC中的所有文章都适用于文本挖掘或其他重用,其中许多受到版权保护。PMC OA数据集中的文章根据创作共用或类似许可证进行发布,这些许可证允许比传统版权作品更自由地重新分发和重用

清洗过程产生了 179 万对图像文本对的数据集,然后过滤掉非人类的图像文本对, 创建了 117 万对 CONCH( 仅人类 ) 预训练数据集。
子图b: 按主题估计预训练数据集的分布。预训练数据涵盖了病理学主题的不同范围。右下角子插图,是 PMC-Path EDU 之间标题长度分布的比较

数据总体类别包括:胃肠道,骨骼、关节和软组织肿瘤,肺,皮肤,肝脏和胆,血液病理学,中枢神经系统,女性生殖道,乳房,肾,周围神经和骨骼肌,头颈部,男性生殖道,心脏,血管,内分泌,胰腺,下尿路,眼睛。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2203324.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【可答疑】基于51单片机的智能家居系统(含仿真、代码、报告、演示视频等)

✨哈喽大家好,这里是每天一杯冰美式oh,985电子本硕,大厂嵌入式在职0.3年,业余时间做做单片机小项目,有需要也可以提供就业指导(免费)~ 🐱‍🐉这是51单片机毕业设计100篇…

ceph基础

ceph基础搭建 存储基础 传统的存储类型: DAS设备: SAS,SATA,SCSI,IDW,USB 无论是那种接口,都是存储设备驱动下的磁盘设备,而磁盘设备其实就是一种存储是直接接入到主板总线上去的。直连存储。 NAS设备: NFS CIFS FTP 几乎所有的…

商标恶意维权形式及应对策略

在商业领域,商标恶意维权的现象时有出现,给正常的市场秩序和企业经营带来了不良影响。以下将介绍其常见形式及应对方法。 一、商标恶意维权的形式1、囤积商标后恶意诉讼。一些人或企业大量注册与知名品牌相似或具有一定通用性的商标,并非用于…

留学生毕业论文设计问卷questionnaire的基本步骤

在上一期内容中,小编介绍了留学毕业论文的定量研究和相关的问卷设计。然而在一些研究中,定量研究和问卷数据并不能满足我们的研究需求。这种情况下,我们可以采取其他的数据收集方式,例如observation,case study和inter…

软件设计之SSM(11)

软件设计之SSM(11) 路线图推荐: 【Java学习路线-极速版】【Java架构师技术图谱】 尚硅谷新版SSM框架全套视频教程,Spring6SpringBoot3最新SSM企业级开发 资料可以去尚硅谷官网免费领取 学习内容: Springboot 配置文件整合SpringMVC整合Dr…

【学术会议征稿】第十届能源资源与环境工程研究进展国际学术会议(ICAESEE 2024)

第十届能源资源与环境工程研究进展国际学术会议(ICAESEE 2024) 2024 10th International Conference on Advances in Energy Resources and Environment 第十届能源资源与环境工程研究进展国际学术会议(ICAESEE 2024)定于2024年…

拓扑排序与入度为0的结点算法解析及实现

拓扑排序与入度为0的结点算法解析及实现 算法思想时间复杂度分析伪代码C语言实现环路检测结论拓扑排序是一种用于有向无环图(DAG, Directed Acyclic Graph)的重要操作,它可以对图中的结点进行排序,使得对于每一条有向边 (u, v),顶点 u 在排序中都出现在顶点 v 之前。本文介…

Qt和c++面试集合

目录 Qt面试 什么是信号(Signal)和槽(Slot)? 什么是Meta-Object系统? 什么是Qt的MVC模式? 1. QT中connect函数的第五个参数是什么?有什么作用? 3. 在QT中&#xff…

ROS2官方文档(2024-10-10最新版)

ROS 2 Documentation — ROS 2 Documentation: Jazzy documentation (armfun.cn) ROS 2 文档 — ROS 2 文档:Humble 文档 (armfun.cn) 翻译中文方法:使用windows11自带Edge浏览器打开,右上角点击翻译为中文

pytest框架之fixture测试夹具详解

前言 大家下午好呀,今天呢来和大家唠唠pytest中的fixtures夹具的详解,废话就不多说了咱们直接进入主题哈。 一、fixture的优势 ​ pytest框架的fixture测试夹具就相当于unittest框架的setup、teardown,但相对之下它的功能更加强大和灵活。 …

DBMS-3.3 SQL(3)——DML的INSERT、UPDATE、DELETE空值的处理DCL

本文章的素材与知识来自李国良老师和王珊老师。 DML——INSERT、UPDATE、DELETE 一. INSERT 1.语法 (1)INTO子句 (2)VALUES子句 (3)示例 2.插入子查询 若插入的是子查询则不需要VALUES子句 二. UPDATE …

大数据法律监督模型平台实现常态化法律监督

大数据法律监督模型平台充分挖掘大数据价值,利用大数据关联、碰撞、比对,从海量数据中自动筛查出法律监督线索,推送给检察官,有利于提升法律监督质效。 大数据法律监督模型平台建设目标 1、提升监察机关主动监督、精准…

基于DCGM+Prometheus+Grafana的GPU监控方案

目录 前言一、指标导出器1、DCGM:获取远程节点的信息 2、 DCGM-Exporter收集多节点信息更改收集指标 二、 Prometheus - From metrics to insight修改配置文件查看收集结果 三、Grafana仪表板展示导入数据源创建仪表板更多仪表板 前言 基于DCGM(NVIDIA …

[SAP ABAP] LIKE TABLE OF

LIKE TABLE OF语句是用来参照结构体(工作区)对象定义内表数据类型的语句 在SAP ABAP中有标准表&#xff0c;排序表和哈希表三种内表数据类型 *定义标准表 DATA: <ty_tab_standard_name> LIKE [STANDARD] TABLE OF <dtype> [WITH NON-UNIQUE KEY <k1 k2 ... kn…

Python自动给课本文字标注拼音

环境&#xff1a; Ubuntu20.04&#xff0c;ubuntu20.04自带python版本 3.8.10&#xff0c;pip的版本是 20.0.2 pip install pypinyin # 安装失败&#xff0c;检查更新pip确保pip是最新版本&#xff1a; pip install --upgrade pip 检查是否安装成功 pip show pypinyin pinyin…

【电路笔记】-求和运算放大器

求和运算放大器 文章目录 求和运算放大器1、概述2、反相求和放大器3、同相求和放大器4、减法放大器5、应用5.1 音频混合器5.2 数模转换器 (DAC)6、总结1、概述 在我们之前有关运算放大器的大部分文章中,仅将一个输入应用于反相或非反相运算放大器的输入。在本文中,将讨论一种…

Python从入门到高手6.1节-字符串的定义与编码

目录 6.1.1 理解字符串 6.1.2 字符串的类型名 6.1.3 字符的数字编码 5.1.4 常用的字符编码 6.1.5 字符串的默认编码 6.1.6 字符串的编码与解码 6.1.7 转义字符详解 6.1.8 对字符串进行迭代 6.1.9 大神薯条老师 6.1.1 理解字符串 在Python中使用英文引号括住的都是字符…

CAS存在的问题及在Java中的解决方式

CAS 介绍 CAS 可以保证对共享变量操作的原子性 CAS全称Compare And Swap&#xff0c;比较与交换&#xff0c;是乐观锁的主要实现方式。CAS在不使用锁的情况下实现多线程之间的变量同步。ReentrantLock内部的AQS和原子类内部都使用了CAS。 CAS算法涉及到三个操作数&#xff1a;需…

ICDE 2024最新论文分享|BEEP:容量约束下能够对抗异常干扰的航运动态定价系统

论文简介 本推文详细介绍了上海交通大学高晓沨教授和陈贵海教授团队发表在顶级学术会议ICDE 2024上发表的最新论文《Corruption Robust Dynamic Pricing in Liner Shipping under Capacity Constraint》&#xff0c;该论文的学生作者为胡永祎、李雪嫣、魏熙锴&#xff0c;合作…

Mac电脑word文档误删,4个方法快速恢复

对于使用Mac的用户来说&#xff0c;丢失重要的Word文档可能会为学习或工作带来严重的影响。不过&#xff0c;幸运的是&#xff0c;关于mac word 文档恢复方法还是有很多的&#xff0c;通常帮助Mac用户轻松找回丢失的word文档。接下来&#xff0c;小编将介绍一些在Mac上恢复丢失…