LaDM3IL:多实例学习用于免疫库分类

news2025/1/15 23:40:39

一个人的免疫组库由某一时间点的大量适应性免疫受体组成,代表了该个体的适应性免疫状态。免疫组库分类和相关受体识别有可能为新型疫苗的开发做出贡献。大量的实例对免疫组库分类提出了挑战,这可以表述为大规模多实例学习 (MMIL,Massive Multiple Instance Learning) 问题。传统的 MIL 方法(无论是在bag级还是instance级)在处理大量实例时都面临着巨大的计算负担或监督模糊的问题。为了解决这些问题,作者提出了一种基于标签消歧的多模态大规模多实例学习方法 (LaDM³IL) 用于免疫组库分类。LaDM³IL 采用实例级 MIL 范式来处理高计算成​​本的问题,并使用专门设计的标签消歧模块进行标签校正,减轻误导性监督的影响。为了更全面地表示每个受体,LaDM³IL 利用多模态融合模块来整合每个免疫受体的基因片段-gene segments和氨基酸 (AA,amino acid) 序列的信息。在巨细胞病毒 (CMV,Cytomegalovirus) 和Cancer数据集上进行的大量实验证明了所提出的 LaDM³IL 在免疫组分类和相关受体识别任务方面均具有出色的性能。

来自:A Label Disambiguation-Based Multimodal Massive Multiple Instance Learning Approach for Immune Repertoire Classification
工程:https://github.com/Josie-xufan/LaDM3IL

目录

  • 背景概述
    • 相关工作:标签消歧
  • 方法
    • 问题定义
    • 模型架构-特征提取
    • 标签消歧
    • 聚合
  • 数据集

背景概述

适应性免疫受体库 (AIRR,adaptive immune receptor repertoires) 由 T 细胞受体 (TCR,T-cell receptors) 和 B 细胞受体 (BCR,B-cell receptors) 组成,负责识别致病病原体(如细菌、病毒以及癌细胞)并记录过去和正在进行的免疫反应信息。图 1 显示了典型的适应性免疫过程,其中以 TCR 为例。TCR 位于 T 细胞表面,首先识别主要组织相容性复合体(肽-MHC 复合物,peptide-MHC complexes)上呈递的病原体抗原肽(antigen peptides),然后适应性免疫系统保存和扩增这些免疫受体(immune receptors)以激活免疫反应并保护人体免受疾病侵害。BCR 的病原体识别机制与 TCR 相似,主要区别在于 BCR 直接结合抗原表面,无需 MHC 呈递。
fig1

  • 图1:适应性免疫受体库和免疫过程的说明。a) 适应性免疫受体库 (AIRR) 包括个体的 T 细胞受体 (TCR) 和 B 细胞受体 (BCR),它们是适应性免疫反应中不可或缺的分子。b) 免疫过程:适应性免疫受体 (AIR,adaptive immune receptor) 位于 T 细胞和 B 细胞的表面,其功能是识别抗原肽(antigenic peptides),对于 TCR,该抗原肽由主要组织相容性复合体 (MHC,major histocompatibility complex) 呈递,对于 BCR,该抗原肽直接与抗原(antigen)本身结合。
  • antigen presenting cell:抗原呈递细胞

作为个体TCR和BCR的集合,AIRR记录了过去和正在进行的适应性免疫反应,其状态反映了免疫状态和个体对传染病、自身免疫性疾病和肿瘤相关病原体的反应。因此,AIRRs中的编码信息对于感染、疾病和癌症诊断具有高度的信息性和价值。这可以被概念化为一个免疫库分类问题。我们希望开发一种准确有效的方法来解决免疫系统分类和相关受体识别问题,因为它能加速疫苗的开发。

最近,基于高通量测序的免疫测序技术的进步促进了AIRRs的分析,其提供了一个组库中TCRs和BCRs的计数和受体序列的数据。这一进展为数据驱动方法铺平了道路。然而,由于以下因素,这仍然是一个具有挑战性的问题:

  • 高度多样性-High diversity:适应性免疫受体(AIRs)具有高度多样性,使适应性免疫系统能够识别大量抗原。据估计,自然界中至少有 1 0 16 10^{16} 1016种不同的AIRs。
  • 大容量-Large capacity:每个人都有大量不同的免疫受体( 1 0 7 − 1 0 8 10^{7}-10^{8} 107108)。
  • 低见证率-Low witness rate(WR):个体对特定疾病的免疫状态通常由基因库中极少数特定受体的存在决定。

在实践中,免疫组库分类可以被形式化为大规模多实例学习(MMIL)问题,其中AIR repertoires被视为bags,并且组库中的单个AIR被视为instance。AIRs的生物学功能由其氨基酸(AA)序列和相应的基因片段(V、D和J基因片段)决定。感兴趣的免疫状态(例如感染、疾病和癌症)是我们旨在预测的免疫库分类问题中的库级标签(repertoire-level label)。考虑到个体的特定免疫状态通常仅与库中一小部分特定受体相关,库中AIRs的准确实例水平标签是不可用的。这种弱监督的学习场景是多实例学习(MIL)的特点,在这种场景中,只有bag级标签是可用的。

现有的MIL算法可分为两种主要类型,即bag级和instance级MIL。在bag级MIL中,实例被编码为低维嵌入,然后将其聚合为bag级表示。聚合模块可以采用各种架构,包括固定的或参数化的pooling模块、注意力机制、RNN或Transformer方法,以及图神经网络。这种处理需要大量的计算资源,特别是在处理大规模数据集时,这阻碍了bag级MIL在免疫库分类(大容量)中的实践。相反,实例级MIL专注于实例级学习,并通过聚合每个实例的预测来生成bag级预测。这种方法提供了较低计算资源需求的优点。然而,实例级MIL面临着标签监督不准确的挑战,这源于广泛采用的将bag级标签分配给其中的每个instance的策略。鉴于低WR和高度多样性,这种标签分配策略在免疫库分类的背景下是有害的。

LaDM3IL是一种基于标签消歧的多模态大规模多实例学习方法,用于免疫库分类和相关受体识别。LaDM3IL利用instance级MIL框架来控制计算负载并应对高容量挑战。同时,为了应对高多样性挑战,LaDM3IL利用具有基于gating的注意力的多模态融合模块和张量融合来整合来自每个immune receptor的基因片段和氨基酸(AA)序列信息,从而生成每个受体的判别表示。其中,名为SC-AIR-BERT的预训练模型用于生成AA序列的嵌入。此外,LaDM3 IL结合了一个标签消歧模块(label disambiguation module),专门设计用于减轻错误监督的影响,以应对低WR的挑战。最后,在巨细胞病毒(CMV)和癌症数据集上对LaDM3 IL进行了广泛评估。

相关工作:标签消歧

标签消歧是部分标签学习(PLL,partial label learning)中的一个关键挑战,其目的是从候选标签集中找到正确的标签。与监督学习任务相比,PLL中的标签往往是模糊的,并且在模型学习过程中需要去噪以确保准确的分类。Pico是一种PLL方法(ICLR2021),以在统一的框架中处理表示学习和标签消歧问题,他们使用对比学习生成输入的embedding,然后,他们基于生成的embedding设计了一种基于prototype的标签消歧策略。在训练过程中,将基于prototype中最接近的类同时更新用于分类的pseudo target,以消除标签的歧义。

方法

问题定义

一个AIRR包含大量AIRs。给定 N N N个AIRRs { I R 1 , . . . , I R N } \left\{IR_{1},..., IR_{N} \right\} {IR1,...,IRN},每个AIRR包含 M M M个AIRs { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}。注意, M M M在不同的组库中差异很大。同时,将 N N N个组库的标签定义为 { Y 1 , . . . , Y N } \left\{Y_{1},...,Y_{N}\right\} {Y1,...,YN},类别总数为 C C C。此外,AIRs与表示为 { f r e i 1 , . . . , f r e i M } \left\{fre_{i}^{1},...,fre_{i}^{M}\right\} {frei1,...,freiM}的频率值配对,指示对某些抗原(certain antigens)的免疫反应强度。模型试图建立一个函数 Y i = F ( I R i ) Y_{i}=F(IR_{i}) Yi=F(IRi),与传统instance级MIL方法类似,最初将bag标签 Y i Y_{i} Yi分配给 { I R i 1 , . . . , I R i M } \left\{IR_{i}^{1},..., IR_{i}^{M} \right\} {IRi1,...,IRiM}作为pseudo标签。随着训练更新这些标签。

模型架构-特征提取

图2说明了LaDM3IL的框架。为了获得每个AIR的全面表示,作者基于多模态融合模块,将AA序列和V(D)J基因片段的信息与基于门控的注意力机制相结合,然后进行张量融合。具体而言,基因编码器利用可训练embedding层将token化的V(D)J基因名称转换为数字表示,表示为 h g h_{g} hg h g h_{g} hg是将V基因片段和J基因片段的单独embedding连接起来的结果,每个片段的尺寸分别为16和8。

值得注意的是,D基因信息被排除在外,因为它在很大一部分AIRs中不存在。同时,使用预训练的序列编码器SC-AIR-BERT来生成AIRs的AA序列的表示,称为嵌入维度为512的 h s h_s hs。SCAIR-BERT是一个类似BERT的模型,包括6个标准Transformer层,每层包含4个注意力头。然后,通过基于门控的注意力机制,计算出两种模态的输出,记为 o g o_{g} og o s o_{s} os。张量融合模块对 o g o_{g} og o s o_{s} os进行整合: h = R e L U ( W f u s i o n ⋅ ( o g ⊕ o s ) + b f u s i o n ) h=ReLU(W_{fusion}\cdot(o_{g}\oplus o_{s})+b_{fusion}) h=ReLU(Wfusion(ogos)+bfusion)其中, ⊕ \oplus 表示Kronecker Production。
fig2

  • 图2:模型架构

标签消歧

以实例级MIL为基础框架来解决免疫库分类问题,该问题聚合了所有实例级预测以及bag级预测。为了解决监督不准确的问题,作者设计了一个标签消歧模块。该模块的关键设计是表示为 E p r o t o t y p e E_{prototype} Eprototype的原型,该原型保留了每个类别的典型嵌入以及调整每个受体标签的机制。具体步骤如下。

首先,在获得如特征提取器中所述的受体的表示后,将通过以下方式计算每个受体的预测: p i j = s o f t m a x ( F C r e c e p t o r ( h i j ) ) p_{i}^{j}=softmax(FC_{receptor}(h_{i}^{j})) pij=softmax(FCreceptor(hij))其中, F C r e c e p t o r FC_{receptor} FCreceptor是一个可学习分类器, p i j p_{i}^{j} pij是基于多模态特征embedding h i j h_{i}^{j} hij(来自第 i i i个免疫库的第 j j j个免疫受体)的预测概率。

然后,从每一类 c ∈ { 1 , . . . , C } c\in\left\{1,...,C\right\} c{1,...,C}中选出在epoch e e e时, p i k p_{i}^{k} pik超过阈值 θ \theta θ K K K个免疫受体,记为 k e c − r e c e p t o r kec-receptor kecreceptor。然后,原型将使用基于动量的方法更新,在epoch e + 1 e+1 e+1 处原型中 c c c类的嵌入通过在epoch e e e 处符合 c c c的所选 K K K受体的嵌入来更新。每个免疫受体的标签 Y i j Y_{i}^{j} Yij基于epoch e e e的原型和免疫受体之间的相似性进行调整。

聚合

为了生成免疫库的预测 p i p_{i} pi,作者将相应的免疫受体 p i j p_{i}^{j} pij的预测与相应频率 f r e i j fre_{i}^{j} freij组合如下: p i = ∑ j = 1 M ( p i j ⋅ f r e i j ) p_{i}=\sum_{j=1}^{M}(p_{i}^{j}\cdot fre_{i}^{j}) pi=j=1M(pijfreij)

数据集

CMV数据集由785个组库构成,每个组库平均有243,960个受体。作者排除了信息缺失的组库,684个组库被纳入实验,具有完整的CMV状态(阳性:312,阴性:372)和序列丰度。

癌症数据集包括训练集中的30,000个肿瘤相关受体和40,000个对照受体,以及测试集中10,000个肿瘤相关受体和19,851个对照受体。在CMV数据集上,作者评估方法在免疫库分类和相关受体鉴定方面的性能。在癌症数据集上,更多地关注癌症相关受体识别的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1813017.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

AI实时免费在线图片工具4:WordArt艺术字生成;IC-Light打光模型;screenshot to code图像直接生成网页

1、艺术字生成WordArt https://modelscope.cn/studios/WordArt/WordArt/summary?reftop.aibase.com 2、打光模型IC-Light https://huggingface.co/spaces/lllyasviel/IC-Light Screenshot to Code图像直接生成网页 https://huggingface.co/spaces/HuggingFaceM4/screen…

Ubuntu,Linux服务器安装Mellanox MCX653105A IB网卡HCA卡驱动

驱动下载地址 https://network.nvidia.com/products/infiniband-drivers/linux/mlnx_ofed/ 选择对应操作系统 进入目录运行 安装成功显示 如果中途报错,需要核对下载的版本,并且把原来安装的卸载

钡铼BL102优化生产流程PLC-MQTT网关快速转换

在智能制造和工业4.0的推动下,优化生产流程、提升自动化水平已成为现代制造业的核心诉求。作为这一进程的关键环节,将传统的PLC控制系统与先进的物联网技术相结合,实现数据的高效采集与远程管理变得尤为重要。钡铼BL102作为一款专为优化生产流…

Jsch上传本地目录文件到服务器

文章目录 1.Jsch简介1.1 什么是Jsch1.2 Jsch使用步骤和简单示例 2.技术关键点3.Jsch实战3.1 maven依赖3.2 功能实现3.3 效果3.4 封装工具类 4.总结 摘要: 在一些框架开发工作中,需要为项目使用说明文档,来指导用户如何正确使用框架。比如通过markdown编写…

易舟云:让中小企业财务管理变得触手可及

在现代企业运营中,财务管理的精准和高效至关重要。对于中小企业来说,一款专业且易于使用的财务软件更是必不可少的工具。今天,我们就来详细了解一款深受中小企业喜爱的财务软件——易舟云。 财务管理的云端革命 随着云技术的发展,…

EVA-CLIP:在规模上改进CLIP的训练技术

摘要 对比性语言-图像预训练,简称CLIP,因其在各种场景中的潜力而备受关注。在本文中,我们提出了EVA-CLIP,一系列模型,这些模型显著提高了CLIP训练的效率和有效性。我们的方法结合了新的表示学习、优化和增强技术&…

Phaser-圆形路径

使用 Phaser 创建一个简单的路径动画 Phaser 是一个强大的 HTML5 游戏框架,适合用于开发 2D 游戏。在本文中,我们将展示如何使用 Phaser 创建一个简单的动画示例,其中一个红色的圆沿着椭圆路径移动。该示例将帮助你理解如何在 Phaser 中使用…

Linux用户,用户组,所有者权限分配,sftp用户权限分配

注意以下命令执行需要在root用户下执行 tenant命令切换至root命令 sudo -do root 删除用户信息 1.不删除用户主目录 userdel user_name 2.删除用户主目录 userdel -r user_name usermod命令修改用户账户权限 更改用户名 sudo usermod -l newusername oldusername 更…

Redis】Redis主从复制(二)————主从结构/流程

目录 回顾slaveof 命令断开主从复制关系切换主从复制关系只读网络延迟问题应对措施补充 主从结构一主一从结构问题改进 一主多从结构树形主从主从切换结构 主从复制流程简单来记关于数据同步两个参数replicationidoffset. psync 运行流程全量复制和部分复制全量复制流程&#x…

在镜像中添加Git提交号

文章目录 前言环境介绍思路内核cpuinfo中添加Git提交号修改setup.c获取Git提交号和生成GIT_COMMIT_INFO宏继续修改内核setup.c验证 内核设备树中添加Git提交号修改设备树验证 U-Boot版本号添加Git提交号U-Boot配置修改setlocalversion脚本验证 前言 在镜像中加入Git提交号&…

mysql和redis的双写一致性问题

一,使用方案 在使用redis作为缓存的场景下,我们一般使用流程如下 二,更新数据场景 我们此时修改个某条数据,如何保证mysql数据库和redis缓存中的数据一致呢? 按照常规思路有四种办法,1.先更新mysql数据&a…

计划任务!!!

目录 一、补充 1.1关闭防火墙 1.2安装php 二、计划任务 2.1at一次性计划任务 2.2周期性计划任务(crontab) 上篇我们学了rpm安装、yum安装还有编译安装。今天我们先补充一下上篇的东西再学习计划任务 一、补充 1.1关闭防火墙 systemctl stop fir…

亚马逊竞品分析之如何查找竞品

初选之后,要对产品进行竞品分析,查找竞品的方法: 1.Best Seller榜单查找 进入到该类目的BS榜单去找跟你选中的产品的竞品 看完BS榜单会找出一部分竞品 这个找相似也可以点击,是插件的一个以图搜图的功能,不过有的时候不太好使,某些同款产品可能搜不到。 Edge浏览器搭…

原生js写table表格固定表头

给表头添加以下属性 table表格写法参考 jquery写表格 手动合并单元格-CSDN博客 jquery写表格&#xff08;带滚动条&#xff09;_row.append($(<td>)-CSDN博客

面试题:什么是线程的上下文切换?

线程的上下文切换是指在操作系统中&#xff0c;CPU从执行一个线程的任务切换到执行另一个线程任务的过程。在现代操作系统中&#xff0c;为了实现多任务处理和充分利用CPU资源&#xff0c;会同时管理多个线程的执行。由于CPU在任意时刻只能执行一个线程&#xff0c;因此需要在这…

LeetCode 算法:螺旋矩阵c++

原题链接&#x1f517;&#xff1a;螺旋矩阵 难度&#xff1a;中等⭐️⭐️ 题目 给你一个 m 行 n 列的矩阵 matrix &#xff0c;请按照 顺时针螺旋顺序 &#xff0c;返回矩阵中的所有元素。 示例 1&#xff1a; 输入&#xff1a;matrix [[1,2,3],[4,5,6],[7,8,9]] 输出&…

西南交通大学【操作系统实验2】

实验目的 本实验要求学生了解什么是信号&#xff0c;掌握软中断的基本原理&#xff1b;掌握中断信号的使用、进程的创建以及系统计时器的使用。通过对本实验的学习&#xff0c;学生能够学会进程的创建方法&#xff0c;更能加深对Linux中的信号机制的认识&#xff0c;并会使用软…

【Qt 学习笔记】Qt窗口 | 标准对话框 | 消息对话框QMessageBox

博客主页&#xff1a;Duck Bro 博客主页系列专栏&#xff1a;Qt 专栏关注博主&#xff0c;后期持续更新系列文章如果有错误感谢请大家批评指出&#xff0c;及时修改感谢大家点赞&#x1f44d;收藏⭐评论✍ Qt窗口 | 标准对话框 | 消息对话框QMessageBox 文章编号&#xff1a;Q…

基于长短期记忆网络 LSTM 的下一个单词预测

前言 系列专栏:【深度学习&#xff1a;算法项目实战】✨︎ 涉及医疗健康、财经金融、商业零售、食品饮料、运动健身、交通运输、环境科学、社交媒体以及文本和图像处理等诸多领域&#xff0c;讨论了各种复杂的深度神经网络思想&#xff0c;如卷积神经网络、循环神经网络、生成对…

Parallels Desktop 19虚拟机助你一机多用

Parallels Desktop 19 mac虚拟机是一款功能强大且易于使用的虚拟化软件&#xff0c;它允许用户在Mac电脑上同时运行Windows、Linux和其他多种操作系统&#xff0c;为用户提供了极大的灵活性和兼容性。 Parallels Desktop 19获取 这款虚拟机软件具有直观易用的界面&#xff0c;…