单细胞多模态数据能够测量细胞的各种特征,从而深入了解细胞和分子机制。然而,多模态数据的生成仍然昂贵且具有挑战性,同时缺失模态也经常发生。最近,机器学习方法已经被开发用于数据补全,但通常需要完全匹配的多模态数据才能学习共同的潜在特征,可能缺乏模态特异性。为了解决这些问题,作者开发了一个机器学习模型,名为JAMIE。JAMIE接受单细胞多模态数据,这些数据可以在模态之间部分匹配样本。变分自编码器学习每个模态的潜在特征。然后,跨模态匹配样本的特征被聚合以识别联合的跨模态潜在特征,然后进行重构。为了进行跨模态补全,可以使用一个模态的潜在特征和另一个模态的解码器。
来自:Joint variational autoencoders for multimodal imputation and embedding
目录
- 背景
- 方法
背景
以细胞为基础理解分子机制可以更深入地洞察细胞功能、发育和疾病进展,但目前仍然难以实现这个目标。为此,最近出现了单细胞多模态数据集,通过使用新的测序技术测量单个细胞的各种特征,并确定细胞功能(例如,细胞类型)。因此,整合单细胞多模态数据集可以发现跨模态关系,显著帮助我们理解贡献于细胞类型和疾病的生物学机制。目前研究人员已经开发了许多方法来整合多模态数据集,以改进对细胞类型的预测(参见图1a)。虽然这些方法主要关注预测,但其基本思想可以扩展到预测分布在不同模态中的数据,即下面所称的跨模态插值(参见图1b)。跨模态插值随着深度学习的发展,已经得到了越来越多的探索。此外,自编码器允许灵活定义潜在空间的形式。现有方法主要专注于常见的多组学数据,如scRNA-seq + scATAC-seq,并且不考虑来自其他单细胞模态(例如电生理)的高度非线性特征。此外,它们要求完全一致的多模态数据(匹配的细胞),这限制了对缺失模态数据的处理能力(比如UnitedNet)。
- 图1:多模态数据整合与插补的困难。
- a:使用多模态数据来有效地预测缺失的表型(例如,来自多模态单细胞数据的细胞类型)是困难的,因为不同模态具有异质特征。识别跨模态的相似潜在空间可以进行跨模态比较,机器学习可用于发现相似的跨模态潜在空间,并实现比较和表型预测。
- b:某些模态成本过高,但其能对生物学机制提供重要的见解。例如,用于细胞型表观基因组学的scATAC-seq数据是昂贵的,单细胞分辨率的ephys数据很难产生。通过使用机器学习从一种模态推导另一种模态可以缓解这些限制。
方法
JAMIE采用联合自编码器模型进行数据整合和插补(图2a)。对于输入,JAMIE接受两个模态的数据矩阵 X 和 Y。可选地,当两个模态的样本部分对应时(例如,来自相同单个细胞),可以提供额外的对应关系矩阵 F。JAMIE中的编码器将 X 和 Y 转换为潜在空间中的特征,并利用可用的对应信息进行聚合。JAMIE中的解码器预测原始模态的重构 X 和 Y。在训练完JAMIE模型后,可以依次使用其用于模态 X 的编码器和用于模态 Y 的解码器进行从一种模态到另一种模态的插补(图2b)。此外,JAMIE模型的潜在空间可以用于表型预测(细胞分类)。使用Shapley加法解释值(Shapley additive explanation values)等重要性评估方法,可以对用于插补的多模态特征进行排序(图2c)。
- 图2:JAMIE使用了一种新的潜在空间聚合技术来为每个模态生成相似的潜在空间。
- a:数据矩阵 X X X和 Y Y Y被输入编码器 f E X ( ⋅ ) f^{X}_{E}(\cdot) fEX(⋅)和 f E Y ( ⋅ ) f^{Y}_{E}(\cdot) fEY(⋅),其输出 μ i X , σ i X \mu_{i}^{X},\sigma_{i}^{X} μiX,σiX(对应模态 X X X的样本 i i i)和 μ j Y , σ j Y \mu_{j}^{Y},\sigma_{j}^{Y} μjY,σjY(对应模态 Y Y Y的样本 j j j)。然后, L i X ∼ N ( μ i X , σ i X ) L_{i}^{X}\sim N(\mu_{i}^{X},\sigma_{i}^{X}) LiX∼N(μiX,σiX)和 L j Y ∼ N ( μ j Y , σ j Y ) L_{j}^{Y}\sim N(\mu_{j}^{Y},\sigma_{j}^{Y}) LjY∼N(μjY,σjY)为从隐空间中采样得到的隐表示。使用 F F F可以优化隐表示,得到 M X M^{X} MX和 M Y M^{Y} MY。最后,解码得到 X ~ = f D X ( M X ) \widetilde{X}=f^{X}_{D}(M^X) X =fDX(MX)和 Y ~ = f D Y ( M Y ) \widetilde{Y}=f^{Y}_{D}(M^Y) Y =fDY(MY)。隐表示 L X L^{X} LX和 L Y L^{Y} LY可以拼接在一起用于混合的细胞分类。
- b:通过不同模态的编码器和解码器的耦合,训练后的模型可以重复用于跨模态的预测。
- c:插补函数为 f ( x ) = f D Y ( L x ) = y f(x)=f^{Y}_{D}(L^{x})=y f(x)=fDY(Lx)=y, x ∈ R d X x\in R^{d_{X}} x∈RdX, y ∈ R d Y y\in R^{d_{Y}} y∈RdY,使用Shapley加性解释值进行评估,该值通过选择性地用背景掩盖输入特征向量来估计每个输入特征的贡献。符号 a 1 , a 2 a_1, a_2 a1,a2表示模态 X X X的特征,而符号 b 1 , b 2 b_1, b_2 b1,b2表示模态 Y Y Y的特征,期望值用 E E E表示。
关于 F ∈ R n X × n Y F\in R^{n_{X}\times n_{Y}} F∈RnX×nY得到 M X M^{X} MX和 M Y M^{Y} MY,可以执行聚合计算来组合已知对齐点的隐含表示: M X = ( L X + δ L Y F T ) ( d i a g ( 1 + δ F 1 n Y ) ) − 1 M^{X}=(L^{X}+\delta L^{Y}F^{T})(diag(1+\delta F 1_{n_{Y}}))^{-1} MX=(LX+δLYFT)(diag(1+δF1nY))−1 M Y = ( L Y + δ − 1 L X F ) ( d i a g ( 1 + δ − 1 F T 1 n X ) ) − 1 M^{Y}=(L^{Y}+\delta^{-1} L^{X}F)(diag(1+\delta^{-1} F^{T} 1_{n_{X}}))^{-1} MY=(LY+δ−1LXF)(diag(1+δ−1FT1nX))−1其中, 1 n X ∈ R n X 1_{n_{X}}\in R^{n_{X}} 1nX∈RnX和 1 n Y ∈ R n Y 1_{n_{Y}}\in R^{n_{Y}} 1nY∈RnY为全1向量。 δ \delta δ表示聚合函数中模态 X X X和模态 Y Y Y之间的相对权重,我们在训练过程中学习 δ \delta δ。当 δ < 1 δ < 1 δ<1时,表示 X X X在聚合过程中的权重大于 Y Y Y,而 δ > 1 δ > 1 δ>1则表示相反。在蓝色向量的表述中, M X M^X MX, M Y M^Y MY的构造如图2a所示。图2a显示了 F i k = 1 F_{ik} = 1 Fik=1的情况,第 i i i行和第 k k k列的所有其他条目为0,这导致只需要简单地平均 X X X的细胞 i i i和 Y Y Y的细胞 k k k的潜在特征向量。