文献阅读：通过双线性建模来破译神经元类型连接的遗传密码

文献介绍

文献题目 Deciphering the genetic code of neuronal type connectivity through bilinear modeling
研究团队 Mu Qiao（美国加州理工学院）
发表时间 2024-06-10
发表期刊 eLife
影响因子 7.7
DOI 10.7554/eLife.91532.3

摘要

了解不同神经元类型如何连接和交流对于解释大脑功能和行为至关重要。然而，破译决定神经元类型之间形成的特定联系的遗传基础仍然是一个艰巨的挑战。为了解决这个问题，作者提出了一种新颖的双线性建模方法，该方法利用类似于推荐系统的架构。该模型将从单细胞转录组学获得的突触前和突触后神经元类型的基因表达转化为协方差矩阵。目标是构建这个协方差矩阵，该矩阵密切反映从连接组数据导出的连接矩阵，反映这些神经元类型之间已知的解剖连接。当在秀丽隐杆线虫数据集上进行测试时，作者的模型在基于基因表达重建电突触连接方面取得了与之前提出的空间连接组模型（SCM）相当的性能，甚至稍好一些。通过比较分析，作者的模型不仅捕获了 SCM 识别的所有遗传相互作用，还推断出其他遗传相互作用。将双线性模型应用于小鼠视网膜神经元数据集，成功地概括了双极细胞和视网膜神经节细胞之间已识别的连接模式，并为塑造连接的遗传相互作用提供了可解释的见解。具体来说，它确定了与不同连接模式相关的独特遗传特征，包括对细胞间粘附和突触形成重要的基因，突出了它们在协调这些神经元之间的特定突触连接中的作用。作者的工作建立了一种创新的计算策略来解码神经元类型连接的遗传编程。它不仅为突触连接的单细胞转录组分析树立了新的基准，而且为神经环路组装的机制研究和环路布线的遗传操作铺平了道路。

背景

1. 突触特异性

构成我们神经系统基础的复杂神经网络是不同类型神经元之间特定突触连接的产物。这种特异性不仅仅是巧合，而是一个精心策划的过程，支撑着整个网络的功能。每个神经元可以与其他神经元形成数千个连接或突触，这些连接的特异性决定了神经元的功能，进而决定了整个网络的功能。

突触特异性包括化学突触和电突触，化学突触依赖于突触前和突触后神经元之间神经递质介导的通信，而电突触则通过间隙连接发生离子或小分子的直接传输。化学突触特异性的一个典型例子是在视网膜中观察到的，其中不同类型的 BCs 与各种类型的 RGCs 形成特定的突触连接。这些连接创建了并行路径，将视觉信号从光感受器转换为 RGCs，随后将信息传输到大脑。同时，在线虫神经元之间观察到由脊椎动物的连接蛋白和无脊椎动物的内连接蛋白组成的特定间隙连接连接。它们在感觉处理和行为输出的神经环路中广泛发挥作用。

指导这些特定连接形成的遗传原理，特别是在复杂的大脑结构中，仍然难以捉摸。大脑拥有数十亿个神经元和数万亿个突触，其复杂性给识别指导这些连接形成的特定基因和遗传机制带来了重大挑战。尽管遗传和神经生物学研究取得了进展，例如了解某些识别分子和粘附分子在突触特异性中的作用，但神经元类型之间连接的遗传基础仍然很大程度上未知。

新兴工具和技术为解开这些谜团提供了前所未有的机会。其中，转录组和连接组尤其有前景。转录组是由基因组产生的完整 RNA 转录本，可以为不同类型神经元和神经元发育不同阶段活跃的基因提供有价值的见解。这可以帮助识别可能在指导神经元连接中发挥作用的候选基因。另一方面，连接组提供了神经元之间连接的详细图谱。通过结合转录组和连接组的信息，可以将特定基因与特定连接联系起来，从而揭示突触连接的遗传基础。

2. 先前的方法

先前的研究报告了几种解开神经元连接的遗传基础的方法。例如，Kaufman 等人显示了线虫神经元的基因表达与其连接性之间的相关性，Varadan 等人开发了一种熵最小化方法来理解线虫突触连接的分子逻辑。然而，这些模型并没有完全考虑突触形成的空间限制。

作为回应，随后的研究提出了将基因表达与神经元连接相结合的方法，同时考虑到神经元之间的物理接触。具体来说，Kovács 等人的 SCM 通过规则矩阵将神经元的基因表达与其连接性关联起来。该模型旨在最大限度地减少基于基因表达的预测连接性与观察到的连接性之间的差异。通过将分析限制在物理接触的神经元对上，SCM 将原始问题转化为基因表达矩阵的克罗内克内积与捕获神经元连接性的边列表之间的回归。

此外，Taylor 等人引入了网络差异基因表达分析（nDGE），这是一种统计方法，它通过检查神经元对之间基因对的共表达，通过 t 检验比较突触与非突触神经元组来扩展传统的差异基因表达分析。它通过生成“pseudoconnectomes”来整合神经元之间的物理接触以进行零分布估计。与 SCM 等多变量方法不同，nDGE 作为质量单变量方法运行，专注于单基因对对突触形成的贡献，而不考虑多个共表达基因之间的复杂相互作用。这使得 nDGE 的研究结果本质上是保守的，确保了对 1 型错误的严格控制，但可能低估了突触连接的多方面性质。

虽然 SCM 和 nDGE 模型专注于单个神经元的连接性，并使用线虫数据集进行了测试，但尚未探索它们对神经元细胞类型的泛化。当我们从无脊椎动物神经系统转向脊椎动物的神经结构（例如小鼠或猕猴的神经结构）时，我们需要能够揭示神经元类型连接的遗传基础的方法。

3. 协同过滤

作者的策略从使用双线性模型的协同过滤概念中汲取灵感，双线性模型是推荐系统的基础技术。这些系统根据用户与项目的交互数据来预测用户对项目（例如电影或产品）的偏好。

双线性模型通过低维潜在特征捕获用户和项目之间的交互。从数学上讲，对于用户和项目，作者分别将它们的原始特征表示为和。然后将这些特征投影到维度为的共享潜在空间中，通过变换 (where ) 和 (where )。用户对该项目的预测评分可表述为：

在协同过滤的背景下，目标是优化变换矩阵和来将调整预测评分与 ground-truth 对齐。这表示为以下优化问题：

或者用矩阵形式：

这里，目标是最小化残差矩阵的 Frobenius 范数

在本研究中，作者通过推荐系统的镜头来解释神经元连接，将突触前神经元视为“用户”，将突触后神经元视为“项目”，将它们之间形成的突触视为“评分”。作者选择的双线性模型从突触前和突触后神经元各自的基因表达中提取潜在特征。双线性模型的一个关键优势是它能够为突触前和突触后神经元的基因表达分配不同的权重，使模型不仅能够捕获同质的，而且还能捕获对于理解神经元连接性至关重要的复杂、异质的相互作用。先前的研究强调了这种异质相互作用，注意到表达不同钙粘蛋白的突触前和突触后神经元之间连接的形成，表明异质粘附过程。

研究结果

1. 神经元类型连接的双线性模型

作者在以下两种情况下讨论神经元类型连接的双线性模型：第一种情况是同时已知每个细胞的基因表达和连接性，第二种情况是神经元类型的连接性和基因表达来自不同来源。这两种情况的双线性模型如 Figure 1 所示。

(a) 在同时获得单个细胞的基因表达谱和连接性数据的理想情况下，通过两个变换矩阵和建立连接性和基因表达谱之间的关系。
(b) 在基因表达谱来自不同来源的实际情况下，例如单细胞转录组和连接组数据，建议单个细胞的连接性及其潜在基因表达特征可以通过其相应细胞类型的平均值来近似，并通过变换矩阵和建立它们的关系。

1.1 同时了解每个细胞的基因表达和连接性

我们从一个理想的场景开始，其中同时已知单个细胞的基因表达谱和连接性。在这个设置中，我们有一个突触前神经元类型和突触后神经元类型，分别由和索引。每种类型都包含一定数量的神经元，对于突触前记为对于突触后记为。突触前类型的第个细胞的基因表达向量被指定为，其中。同时，突触后类型的第个细胞的基因表达向量被指定为，其中。将突触前神经元和突触后神经元之间的连接度量描述为。

借鉴协同过滤的原理，作者制定了以下优化目标：

在这里，和表示我们想要学习的变换矩阵。该公式也可以用矩阵形式表示为：

在此等式中，表示一个权重矩阵，其中每个元素。由于本文的研究重点是突触前和突触后神经元类型的遗传密码，而不是单个神经元，因此该权重矩阵确保模型不会不成比例地偏爱神经元数量较多的神经元类型而不是稀有类型。请注意，通过将每个细胞视为一种类型并设置，该公式可以推广到单个细胞水平分析，从而允许在单细胞分辨率下探索连接的遗传基础。

在基因表达的高维背景下，双线性模型可能面临机器学习中称为多重共线性的常见问题，即一个或多个预测变量高度相关的情况。为了缓解这个问题，我们可以对基因表达向量进行主成分分析（PCA），将它们转换成新的坐标系，并删除特征值可以忽略不计的成分，以减少冗余信息。或者，我们可以应用正则化技术，例如 L2 正则化（Ridge）或 L1 正则化（Lasso）来有效管理多重共线性。这些正则化方法的工作原理是对模型中线性系数的大小施加惩罚，从而缩小系数并稳定其估计。

结合 L2 正则化，作者使用正则化超参数和最小化以下损失函数：

为了优化这个函数，作者提出了一种替代的梯度下降算法。该算法交替更新变换矩阵和，采用梯度下降优化方法。

该算法首先初始化变换矩阵和使用从标准正态分布中抽取的随机值。该算法的核心是一个迭代循环，它交替更新和。在每次迭代期间，算法首先计算预测的连接度量使用和的当前估计。随后，计算损失函数相对于变换矩阵的梯度，并通过沿负梯度方向移动来更新矩阵。重复这个迭代过程，直到变换矩阵和收敛到稳定解。完成后，该算法会生成优化的变换矩阵。

这种基于梯度下降的算法为基因表达谱和连接性度量之间的双线性映射问题提供了计算有效的解决方案。因此，它在细胞类型的基因表达谱及其连接性之间产生关联。

Algorithm 1. “同时了解每个细胞的基因表达和连接性”的替代梯度下降（AGD）

1.2 神经元类型的连接性和基因表达来自不同的来源

在真实场景中，基因表达谱和连接信息通常来自不同的来源，例如单细胞测序和连接组数据。连接这些数据集需要根据神经元的基因表达谱和形态特征将神经元分类为细胞类型。随后根据已建立的生物学知识对来自不同来源的这些细胞类型进行比对（例如，已知特定基因标记在某些形态学定义的细胞类型中表达）。

这种情况下的主要挑战是，虽然我们可以对齐细胞类型（由方程 4 中的索引和表示），但我们无法关联单个细胞（由方程 4 中的索引和表示）。为了解决这个问题，作者采用了一个简化的假设，即单个细胞的连接性和潜在基因表达特征可以通过其相应细胞类型的平均值来近似。这一前提取决于这样一个概念：单个细胞的连接度量和潜在基因表达特征足够接近其相应细胞类型的平均值。

因此，方程 4 中的优化目标变为：

在此方程中，表示突触前细胞类型和突触后细胞类型之间的平均连接度量。同时，和分别代表细胞类型和的平均基因表达。

优化变换矩阵和时，作者对这些矩阵施加约束，以确保每种神经元类型内潜在基因表达特征的方差最小化。具体来说，作者定义为足够小的值并对施加以下约束:

其中：

对施加以下约束:

其中：

这些条件确保单个细胞的潜在基因表达特征足够接近其各自细胞类型内的平均值。考虑到这些约束，作者将优化问题表述如下：

在这个方程中，表示突触前细胞类型的平均基因表达，其中每个元素表示在细胞类型内的平均基因表达特征。同样地，表示突触后细胞类型的平均基因表达，其中每个元素表示在细胞类型内的平均基因表达特征。

在实际应用中，作者近似和与他们的对角线估计和。然后作者将初始优化问题转化为：

其中中的元素定义为，中的元素定义为。该公式的优化在计算上往往更容易处理。

在这里，作者不是在单个细胞水平上进行对齐，而是关注神经元类型的对齐。作者通过变换矩阵和将基因表达映射到潜在空间来实现这一点，优化过程旨在最小化这两个信息源之间的差异，同时保持单个神经元类型内基因表达特征的一致性。

为了解决公式 13 中概述的优化问题，作者构建了以下损失函数：

其中和是通过网格搜索确定最佳值的超参数。

为了优化这个损失函数，作者采用类似于上述的替代梯度下降算法，通过迭代更新变换矩阵和。

Algorithm 2. “神经元类型的连接性和基因表达来自不同来源”的替代梯度下降（AGD）

2. 使用线虫神经元数据的双线性模型和 SCM 的比较分析

2.1 从内联蛋白表达重建线虫间隙连接的连接性

利用线虫神经元数据集，作者首先尝试仅基于内联蛋白基因的表达谱来重建间隙连接的连接网络。使用双线性模型生成的和，作者处理内联蛋白表达数据以预测神经元对之间的间隙连接的连接性为（Figure 2a）。然后将该方法与 Kovács 等人提出的 SCM 进行比较，SCM 使用规则矩阵将基因表达与形式观察到的连接性关联起来（Figure 2b）。

(a) 双线性模型预测的连接性矩阵。
(b) 根据 Kovács 等人的 SCM 建模的连接性矩阵。
(c) 观察到的间隙连接的连接性矩阵，作为 ground truth。从红色到灰色的色谱表示从强连接到弱连接或无连接的光谱。
(d) 来自双线性模型和 SCM 的 ROC 曲线。虚线表示随机机会。

根据观察到的线虫神经元间隙连接的连接矩阵评估了两种模型的有效性（Figure 2c）。考虑到 ground truth 矩阵的二进制性质（其中 1 表示连接，0 表示不存在）以及两个模型重建的连接矩阵的连续性质，作者进行了受试者工作特征（ROC）分析。这涉及改变阈值以对连续预测进行二值化，在该阈值下针对每个可能的截止值绘制真阳性率与假阳性率。此过程产生 ROC 曲线，它是各种阈值下灵敏度和特异性之间权衡的图形表示（Figure 2d）。

随后，作者计算了 ROC 曲线下面积（AUC），提供了总结模型在所有阈值上的整体预测性能的奇异值。ROC-AUC 指标的信息量特别大，因为它汇总了模型在所有可能阈值上的有效性，得分为 1 表示完美预测，得分为 0.5 表示性能不比随机机会好。从计算来看，双线性模型的 ROC-AUC 得分为 0.6435，略高于 SCM 的 0.6428。虽然两个分数相当接近，但双线性模型的轻微边表明其在将基因表达映射到连接性方面的细微差别效率。然而，值得注意的是，这两个分数虽然都高于 0.5，但与理想分数 1 相差很大。这一观察结果表明，仅依赖内联蛋白表达数据可能不足以完全捕获线虫中详细的间隙连接的连接性。

2.2 SCM 规则矩阵与双线性变换矩阵的比较

鉴于仅基于内联蛋白表达数据完全捕获秀丽隐杆线虫间隙连接连接的挑战，作者的重点不是分析秀丽隐杆线虫神经元之间的连接模式，而是探索和比较双线性模型和 SCM 推断的遗传规则，这也是 Kovács 等人提出的关键讨论。正如 “线虫神经元数据集” 和讨论部分提及的，双线性变换矩阵的乘积，，可以解释为 SCM 中使用的规则矩阵的低维重构。这个观点引导作者对两个矩阵进行细致的比较分析。

从 SCM 求解的规则矩阵建立了比较基线（Figure 3b）。为此，作者比较了双线性变换矩阵的乘积（Figure 3a）。两个矩阵的可视化表明它们之间具有高度相似性，皮尔逊相关系数 0.90 (p < 0.001) 定量地支持了这一点，强调了很强的一致性。

(a) 规则矩阵由双线性模型推导出来。
(b) 规则矩阵来自 SCM。黑框突出显示具有重大差异的条目。

为了辨别每个模型独特的特定遗传相互作用，作者将 DS 度量应用于相应的矩阵条目（Figure 3 - figure supplement 1a；有关详细信息，请参阅“Methods and supplementary materials”）。该指标的范围从 0（无差异）到 1（最大差异），阈值设置为 0.5，以突出显示具有重大差异的条目。此外，为了考虑将不太重要的系数推向零的正则化效应，作者过滤掉了两个值都小于 0.1 的条目对（Figure 3 - figure supplement 1b and c）。其余对在两个矩阵中的黑框中突出显示（Figure 3）。

比较突出显示的条目对的值，作者发现双线性模型不仅捕获了 SCM 识别的所有遗传相互作用，还推断出其他相互作用：某些内联蛋白（inx-11、inx-8、inx-5 和 inx-2）与连接神经元内的共表达模式有关，而另一组（inx-11、inx-9、inx-3、inx-5、inx-7）与回避模式相关，表明在神经元对形成间隙连接。这些发现为未来的实验提供了额外的候选对象。

3. 双线性模型在小鼠视网膜神经元数据中的应用

3.1 双线性模型根据基因表达谱重建神经元类型特异性连接图

在作者将双线性模型应用于小鼠视网膜神经元数据时，在完成最终训练过程后，优化的双线性模型产生了变换矩阵，和。作者使用这些矩阵来投射标准化的单细胞转录组数据，和，进入共享的潜在特征空间。因此，作者分别获得了 BC 和 RGC 类型的投射表示，和。通过这些潜在的表示，能够重建细胞类型特定的连接矩阵：（Figure 4a）。

(a) 重建的连接矩阵，源自共享的潜在特征空间投影。
(b) 从连接组数据获得的连接矩阵。颜色强度的差异代表连接的强度，深红色表示强连接，深蓝色表示弱连接或无连接。

为了评估模型，作者将重建的连接矩阵与从连接组数据导出的连接矩阵进行了比较（Figure 4b）。作者计算了两个矩阵条目之间的皮尔逊相关系数来评估它们的一致性。由此产生的相关性为 0.83 (p < 0.001)，证明转化的基因表达特征与连接组数据之间存在强大的关联。这一结果证明了作者的模型能够捕获这两种不同类型的生物信息之间的关系。

为了深入了解模型的重建准确性，作者采用 DS 指标来识别重建矩阵和实际连接矩阵之间存在重大偏差的条目（Figure 4 - figure supplement 3a）。这项检查具体量化了目标矩阵（正项）中模型重建中未捕获的连接范围（负项；Figure 4 - figure supplement 3b and c）。值得注意的是，分析表明只有一小部分，特别是 115 个连接中的 9 个，没有在重建矩阵中表示。

3.2 双线性模型概括了公认的连接模式

作者的交叉验证程序表明，潜在维度的最佳数量是两个（Figure 4 - figure supplement 1）。这一发现表明，这两个维度捕获了 BC 和 RGC 类型之间的基本连接模式。这促使作者进一步研究这些模式是什么以及它们之间有何不同。

作者首先仅使用第一个潜在维度重建连接性。第一个维度似乎强调在 IPL 中心区域层以及在边缘区域层的 BCs 和 RGCs 之间的连接模式（Figure 5a, d and g）。然后，作者仅使用第二个潜在维度重建连接性。值得注意的是，焦点转向了 BCs 和 RGCs 之间的连接，它们分别在 IPL 的外部和内部区域层内（Figure 5b, e and i）。

(a,b) 分别仅使用潜在维度 1 或 2 重建连接性。颜色强度的差异代表连接的强度。
(c) BC 类型绘制在潜在特征空间中，每个点代表一个特定的 BC 类型。虚线表示潜在维度 1 和 2 的零值。
(d,e) IPL 中 BC 类型的分层谱，根据其沿第一 (d) 或第二 (e) 潜在维度的位置进行颜色编码。红色表示正半部分的 BC 类型，蓝色表示负半部分的 BC 类型。
(f) RGC 类型绘制在潜在特征空间中，每个点代表特定的 RGC 类型。
(g,h) IPL 中 RGC 类型的分层谱，根据它们沿第一 (g) 或第二 (h) 潜在维度的位置进行颜色编码。(d) 和 (g) 中的虚线标记了 ON 和 OFF SAC 的位置。在它们之间分层的 BCs 和 RGCs 往往表现出更短暂的响应，而在它们之外分层的 BCs 和 RGCs 则表现出更持续的响应。(e) 和 (h) 中的虚线表示外部和内部 IPL 的边界。外层视网膜中的 BCs 和 RGCs 之间的突触介导 OFF 反应，而内层视网膜中的 BCs 和 RGCs 之间的突触介导 ON 反应。

为了证实这些观察结果，作者进一步可视化了二维潜在特征空间内的 BC 和 RGC 类型（Figure 5c and f）。根据 BC 和 RGC 类型是否属于潜在维度的正半部分或负半部分，对它们进行分组，按组在 IPL 中对它们的分层谱进行颜色编码。落在潜在维度 1 的正半部分内的 BCs 和 RGCs 往往在 IPL 的中心区域内分层，由 ON 和 OFF 星爆无长突细胞（SAC；Figure 5d and g）形成的边界划定。相反，那些落在该维度负半部分内的往往会分层在 IPL 的边缘区域。至于第二个潜在维度，位于正半区的 BCs 和 RGCs 主要分层在 IPL 的内部区域（Figure 5e and i），而位于负半区的主要分层在 IPL 的外部区域。

有趣的是，这些不同的连接模式与视网膜神经元的两个广泛认可的特性相一致：反映神经元响应视觉刺激的时间动态（瞬时响应与持续响应）的动力学属性，以及反映神经元是否响应的极性（ON 与 OFF 响应）刺激的开始或停止。这种相关性意味着双线性模型已经成功地从基因表达数据中捕获了视网膜环路的关键方面。

3.3 双线性模型揭示了与不同连接模式相关的基因特征的可解释见解

作者的双线性模型的固有线性提供了一个显着的优势：它可以通过检查模型中的相关权重来直接解释基因表达。这些权重表示每个基因在确定 BC 和 RGC 类型之间的连接模式方面的重要性。作者确定了在两个潜在维度上对 BCs 和 RGCs 具有最大正权重或负权重的前 50 个基因。绘制了它们在各自细胞类型中的权重以及表达谱（Figure 6）。

(a,b) 潜在维度 1 的前 50 个基因的权重向量，以及它们在 BC 类型 (a) 和 RGC 类型 (b) 中的表达模式。权重值在颜色条中显示，符号用颜色表示（红色：正，蓝色：负），大小用饱和度表示。表达模式由每个点的大小（表示表达基因的细胞的百分比）和颜色饱和度（代表基因表达水平）来表示。BC 和 RGC 类型按其沿潜在维度 1 的位置排序，如 Figure 5c and f 所示，虚线将正类别与负类别分开。
(c,d) 潜在维度 2 的前 50 个基因的权重向量及其在 BC 类型 (c) 和 RGC 类型 (d) 中的表达模式，以与 (a) 和 (b) 中相同的方式描绘。BC 和 RGC 类型按其在潜在维度 2 上的位置排序。

作者的分析揭示了与两个潜在维度揭示的连接模式相关的独特基因特征。在第一个潜在维度中，像 CDH11 和 EPHA3 这样的基因参与细胞粘附和轴突引导，对于在 IPL 中心区域形成突触的 BCs 具有很高的权重。相反，对于边缘区域的 BCs 突触，作者观察到细胞粘附分子 PCDH9 和轴突引导信号 UNC5D 的权重较高（Figure 6a）。这种模式在 RGCs 中得到了体现，但涉及一组略有不同的分子。例如，在 IPL 中心区域形成突触的 RGCs 中，细胞粘附分子 PCDH7 具有高权重，而对于边缘区域突触的 RGCs，细胞粘附分子 PCDH11X 和 CDH12 与高权重相关（Figure 6b）。

第二个潜在维度揭示了类似的模式，尽管具有不同的基因特征。对于在 IPL 外部区域层的 BCs，通过 SLIT2、NLGN1、EPHA3 和 PLXNA4 以及粘附分子 DSCAM 等指导信号分配高权重。对于内部区域的 BCs，粘附分子 CNTN5 与高权重相关（Figure 6c）。在 RGCs 中，作者注意到 PLXNA2、SLITRK6 和 PLXNA4 等引导分子以及粘附模块 CDH8 和 LRRC4C 与 IPL 外部区域形成突触的细胞的高权重相关。相比之下，粘附分子 SDK2 是 RGCs 在 IPL 内部区域层和形成突触的主要基因之一（Figure 6d）。其中一些基因或基因家族，例如 Plexins (PLXNA2、PLXNA4)、Contactin5 (CNTN5)、Sidekick2 (SDK2) 和 Cadherins (CDH8,11,12)，已知在建立特定突触连接中发挥关键作用。其他蛋白，特别是 δ-原钙粘蛋白 (PCDH7,9,11x)，成为可能介导特定突触连接的新候选者。

为了阐明这些已识别基因集的生物学意义，作者通过 g:Profiler（一个用于 GO 富集分析的公共 Web 服务）进一步对 top 基因进行了 GO 富集分析。这个工具使我们能够深入研究与这些基因相关的分子功能、细胞途径和生物过程。有趣的是，当根据调整后的 p 值列出每个潜在维度的前 10 个重要 GO 术语时，发现了两个共同主题：神经元发育和突触组织（Supplementary file 4）。Supplementary file 4 还强调了与每个 GO 术语相关的 top 基因的数量，揭示了这些基因中大约 47% 涉及神经发育和突触组织。这些发现强调了这些基因在形成和塑造 BC 和 RGC 类型之间的特定联系方面的潜在作用。

3.4 双线性模型预测转录定义的 RGC 类型的连接性伙伴

推荐系统在准确预测新用户偏好方面的成功启发作者利用双线性模型来预测 RGC 类型的连接性伙伴，其与 BC 类型的互连仍然未知。有一些 RGC 类型是根据单细胞转录组数据定义的，它们与通过连接组学研究确定的类型缺乏明确的对应关系。这种差异使得这些转录定义的 RGC 类型的连接模式未知，这为作者的模型提供了预测其 BC 伙伴的机会。

为了实现这一目标，作者首先将这些 RGC 类型投影到与用于训练模型的潜在空间相同的潜在空间中（Figure 7a）。然后，作者利用该投影构建这些 RGC 类型和 BC 类型之间的连接矩阵（Figure 7b），从而促进对其连接伙伴的有根据的估计。对于每种转录定义的 RGC 类型，作者将前三种 BC 类型确定为潜在伙伴，由连接矩阵中存在的最高值确定。这三种 BC 类型可以深入了解每种 RGC 类型的潜在突触输入。详细预测见 Supplementary file 5。

(a) 将转录定义的具有未知连接性的 RGC 类型投影到与具有已知连接性的 RGC 类型相同的潜在空间中。
(b) 这些 RGC 类型和 BC 类型之间的预测连接矩阵。转录定义的 RGC 类型根据 Tran et al., 2019 命名。

尽管由于连接组数据中缺乏匹配类型，这些 RGC 类型的真实连接性仍然未知，Goetz et al., 2022 通过 Patch-seq 尝试将一些转录组类型与功能定义的 RGC 类型进行匹配。这些功能描述可能暗示这些 RGC 类型的 BC 伙伴。例如，表现出 OFF 持续反应的 RGC 可能与 BC 类型 bc1-2 突触相关，已知其介导 OFF 持续通路。相反，显示 ON 持续反应的 RGC 可能接收来自 BC 类型 bc6-9 的突触输入，这些 BC 类型负责监督 ON 持续通路。作者在 Supplementary file 5 中总结了这些功能描述，引用了 Goetz et al., 2022 的 Figure 5A，并强调了作者的预测是否与这些功能注释一致。在做出的十个预测中，有八个与这些功能描述一致，为作者模型的预测能力提供了支持。

讨论

1. 研究总结

这项研究展示了双线性建模方法在神经元类型连接的基因表达分析领域的新颖应用，从推荐系统中汲取灵感，推荐系统是一个专注于捕获用户和项目之间复杂的交互并预测用户偏好的机器学习领域。这个类比在本文的研究中充当了一个有用的框架，其中推荐系统中用户和项目的角色分别由突触前和突触后神经元反映。同样，用户-项目偏好矩阵对应于神经环路中的突触连接矩阵。推荐系统基于用户偏好和项目属性可以由潜在因素表示的假设；同样，本文的模型假设各种神经元类型之间的突触连接是由源自基因表达谱的共享潜在特征空间决定的。

本文的双线性模型的适用性和有效性使用两个不同的数据集进行了验证。将其应用于秀丽隐杆线虫神经元数据集，其中包括单个神经元水平的间隙连接的连接性和内联蛋白表达的数据，我们展示了通过将每种神经元类型视为单个细胞（“同时了解每个细胞的基因表达和连接性”），该模型可以推广到单细胞水平连接，并将空间约束（例如神经元之间的物理接触）纳入权重矩阵（“秀丽隐杆线虫神经元的间隙连接的连接性和内联蛋白表达数据”）。在更复杂的场景中，转录组和连接组数据来自不同的来源并在神经元类型水平上对齐，证明了该模型解码神经元类型之间连接的遗传基础的能力（“神经元类型的连接和基因表达是来自不同来源”），使用小鼠视网膜神经元数据集（“小鼠视网膜神经元的单细胞转录组和连接组数据”）。这强调了该模型在提供对协调各种神经系统突触连接的遗传机制的见解方面的潜力。

2. 线虫数据集分析及与 SCM 比较的见解

使用线虫神经元数据集，作者对双线性模型和 SCM 进行了比较分析，SCM 通过规则矩阵将神经元内联蛋白表达与间隙连接的连接性相关联。SCM 结合了空间约束，例如神经元之间的物理接触，并将连接组表示为边列表，用于针对基因表达矩阵的克罗内克乘积进行回归。作者的模型与 SCM 密切相关，因为它可以被视为将规则矩阵分解为两个低维变换矩阵的乘积。这种分解不仅在重建间隙连接连接矩阵方面产生了与 SCM 相当的性能，甚至稍好一些，而且还揭示了用于实验探索的潜在新内联蛋白相互作用（Figure 2; Figure 3）。

除此之外，作者的双线性模型的一个关键优势在于其计算效率，当扩展到更大的数据集时，这是一个重要的属性，其中基因的数量和神经元或神经元类型的数量升级到数千个数量级，例如小鼠或猕猴皮层。在这种情况下，考虑到 SCM 依赖于克罗内克乘积的维数和随后的矩阵求逆，其计算复杂度相当大。相比之下，作者的双线性模型的计算需求（主要由梯度下降中的矩阵乘法驱动）更加易于管理，即使在数据集大小增加时也能提供可扩展性和可行性。此外，SCM 中计算克罗内克乘积的要求显着提高了内存使用量，这在数据规模很大但内存资源有限时至关重要。这些优势确保作者的双线性模型在应用于其他生物体和大脑区域时成为可扩展的解决方案。

在评估双线性模型和 SCM 重建线虫间隙连接连接的性能时，所得的 ROC-AUC 分数适中（大约 0.64，远低于理想的 1.0），强调了仅使用内联蛋白表达来预测电突触特异性的挑战。这表明，除了内联蛋白相互作用之外，其他分子机制在形成特定的电突触连接中发挥着至关重要的作用。事实上，在化学突触领域，人们越来越认识到突触特异性受到细胞间粘附和识别分子等因素的显着影响，而不仅仅是突触前或突触后机制。最近的研究支持了这一观点。例如，对线虫运动环路的研究揭示了发育程序如何微调 cAMP 信号传导以指导神经元特异性电突触组装。此外，观察到的电突触和化学突触的紧密共存暗示了其特异性背后的潜在共享机制。

3. 从应用到小鼠视网膜神经元数据集的见解

应用于小鼠视网膜神经元数据集，作者的双线性模型成功地从基因表达谱重建了神经元类型特异性连接图，并概括了视网膜环路的两个核心连接模式，代表在 IPL 的中央或边缘部分形成的突触，以及形成的突触在外部或内部区域（Figure 4; Figure 5）。这些模式与视网膜神经元的公认特性非常一致：动力学属性（瞬时响应与持续响应）和极性（ON 与 OFF 响应）。值得注意的是，这些模式并未预先定义或明确编码到模型中；相反，它们自然地从模型中出现，进一步证明了该模型捕获视网膜环路关键方面的能力。

双线性模型还揭示了对与连接模式相关的基因特征的独特见解。变换矩阵中的权重向量提供了评估单个基因的相对重要性的方法。这种直接的可解释性是线性模型的一个显着优势，可以更直观地理解基因到连接的转换过程。作者的分析发现了与不同连接模式相关的不同基因特征（Figure 6）。在这些基因中，一些基因先前已涉及介导特定的突触连接，从而验证了作者的方法。例如，Plexins A4 和 A2（PLXNA4、PLXNA2）预计对于外部 IPL 中 RGC 的突触至关重要，但已被证明对于在小鼠视网膜中形成 IPL 的特定层是必需的，并与引导分子 Semaphorin 相互作用6A（SEM6A）。作者的模型预测 Contactin5 (CNTN5) 对于 BC 在内部 IPL 中形成突触至关重要，已被证明对于 ON BC 和 ON-OFF 方向选择性神经节细胞的 ON 层之间的突触至关重要。Sidekick2 (SDK2) 预计对内部 IPL 中的 RGC 突触至关重要，已被证明可以引导检测差异运动的视网膜回路的形成。同样，钙粘蛋白 (CDH8,11,12) 的组合与视网膜环路内的突触特异性有关，因其多种连接模式而被强调。特别是，作者的模型预测 Cadherin8 (CDH8) 对于外部 IPL 中 RGC 的突触连接至关重要，它已被证明受转录因子 Tbr1 的引导，用于 J-RGC 的层状图案形成，这是一种 OFF 方向选择性 RGCs。除了这些经过验证的基因特征之外，作者的分析还确定了可能介导特定突触连接的有前途的候选基因。特别是，δ-原钙粘蛋白（PCDH7,9,11x）作为潜在的新候选者出现。虽然它们在突触连接中的作用尚未完全了解，但小鼠和人类中 δ-原钙粘蛋白的突变与各种神经表型有关，包括轴突生长和引导损伤以及突触可塑性和稳定性的变化。需要未来的实验研究来验证这些发现，并进一步揭示这些基因在小鼠视网膜神经环路形成和功能中的作用。

双线性模型的实用性超出了基因特征的识别范围，成为生成假设的有效工具，特别是在预测转录定义的神经元类型的连接性方面，这些神经元类型的突触伙伴仍然未知（Figure 7）。根据来自特定神经区域的数据进行训练，双线性模型可以促进对该区域内新表征的转录类型的突触伙伴的预期，从而生成关于它们在神经环路中的功能作用的假设。此外，该模型为推断基因操作引起的神经线路改变开辟了途径。例如，通过改变某些神经元类型的遗传特征来创建新的转录定义类型，我们可以使用该模型来预测其突触伙伴的变化，从而为随后的神经网络重新配置提供见解。这可以进一步扩展到假设心理障碍（例如自闭症）下大脑的重新布线，其中显着的连接组变化表明突触伙伴选择的变化。随着最近自闭症神经元基因表达数据的可用性，作者的模型有望预测此类遗传图谱对神经环路的影响，指导理解和治疗这种心理障碍的研究。

虽然作者的双线性模型为视网膜环路的连接模式和相关基因特征提供了有价值的见解，并且许多发现与现有文献一致，但重要的是要承认这项研究的某些局限性。首先，模型的连接矩阵是根据电磁重建的分层谱推导出来的。尽管先前的研究表明分层是小鼠视网膜内连接性的一个有意义的指标，但由于某些 BC 类型优先与同一层中分层的特定 RGC 类型连接，该指标可能无法捕获突触连接的全部复杂性。纳入额外的实验数据（例如电生理测量）可以提高连接指标的准确性和可靠性。其次，尽管该模型在重建连接矩阵方面取得了总体成功，但仍遗漏了几个连接，特别是在特定的 BC-RGC 对之间，例如 RGC 类型 51、5ti 和 BC 类型 3a、3b 和 4 之间的连接（Figure 4 - figure supplement 3）。这凸显了采用更复杂的方法（例如深度学习模型）来捕捉突触连接的微妙之处的潜力。最后，作者的模型识别出的 top 基因列表富含直接介导突触形成和维持的基因，例如粘附分子（Figure 6; Supplementary file 4），但忽略了已知影响突触特异性的转录因子，如 Tbr1。这些影响各种神经元功能的因素可能无法被线性模型捕获，该模型本质上有利于与目标变量密切相关的预测变量。

未来方向

1. 候选基因的实验验证

双线性模型能够预测候选基因表达变化导致的突触连接可能发生的变化。新兴的基因组编辑技术，特别是 CRISPR/Cas9，提供了一种通过实验验证这些预测的精确有效的方法。通过利用 CRISPR/Cas9，可以进行有针对性的基因操作，例如基因沉默或修饰，以评估其对突触连接的影响。在小鼠视网膜中，可以分别通过电穿孔或腺相关病毒（AAV）载体将 CRISPR/Cas9 组件递送到 BC 或 RGC 中，从而实现靶向基因干预。

δ-原钙粘蛋白 (PCDH7,9,11x) 作为小鼠视网膜突触特异性的潜在介质的发现为实验探索提供了令人兴奋的机会。作者建议设计针对这些 δ-原钙粘蛋白 (PCDH7,9,11x) 的 CRISPR/Cas9 系统，类似于最近的一项研究中详细介绍的系统。使用 AAV 载体递送至小鼠视网膜，作者期望敲低 RGC 中的 δ-原钙粘蛋白表达。由于 PCDH7 被确定为 IPL 中央区域内突触形成的关键因素，作者研究的重点将是 RGC 类型，如 W3B RGC，已知它们在这些中央层中分层。PCDH7 下调对 W3B RGC 连接性的影响可以通过多种方法进行检查：免疫组织化学技术或使用转基因标记可以揭示表明连接性改变的形态变化；电生理学评估，例如在光遗传学刺激突触前伙伴的同时对突触后神经元进行有针对性的记录，为突触改变提供了功能性探测。同样，由于 PCDH9 和 PCDH11x 与 IPL 边缘区域内的突触连接有关，用于检查的候选 RGC 可能包括 ON 和 OFF 持续 α RGC，以其外周分层而闻名。

由于 CRISPR/Cas9 等基因组编辑工具的灵活性和广泛适用性，这种实验范式不仅限于小鼠视网膜，而是扩展到广泛的神经元环路。诱导靶向基因敲除或修饰的能力将使研究人员能够验证作者的双线性模型的预测并探索突触形成和维持的潜在遗传机制。这一努力为破译遗传学和神经环路布线之间复杂的相互作用开辟了新途径，进一步加深了我们对驱动突触特异性的分子机制的理解。

2. 在其他神经系统中的应用

作者的双线性模型虽然使用线虫和小鼠视网膜数据集进行说明，但在阐明跨物种和大脑区域的神经元连接的遗传基础方面具有巨大的潜力，这取决于全面的基因表达谱和突触连接数据的可用性。例如，成年果蝇大脑的综合单细胞转录组图谱的出现，以及最近其完整连接组的建立，为扩展作者的模型以破译果蝇的复杂神经回路提供了肥沃的土壤。

在小鼠大脑的背景下，单细胞测序工作的深度和广度揭示了跨皮质区域和海马体的丰富的转录组细胞类型。这些努力与精心绘制神经元连接图的连接组学研究相结合，为整合转录组学和连接组学数据奠定了基础。这种整合，尤其是跨不同大脑区域的整合，为揭示不同区域的神经元类型共享的神经元连接机制以及特定区域特有的神经元连接机制提供了一个令人兴奋的途径。作者的双线性模型的可扩展性，类似于协同过滤在电子商务领域的有效性，支持其跨区域应用的前景。这种方法使我们的模型处于探索基因表达模式如何促进跨大脑区域神经元环路多样性的努力的前沿，使我们更接近对整个大脑神经元连接的遗传蓝图的整体理解。

然而，作者认识到这样的挑战，即这种一致的连接组学和转录组学数据可能并不总是容易获得。为了解决这个问题，未来的研究工作还将探索作者的模型对其他可用数据集的适应，例如将单细胞转录组分析与长程神经元投射映射相结合的数据集。此外，作者的模型适合与基于跨突触示踪剂的测序方法集成，从而扩展了其在详细连接组信息有限的研究中的实用性。追求这些途径对于扩大模型的实用性并确保其在更广泛的大脑连接研究中的相关性至关重要，使其成为探索神经环路复杂性的宝贵工具。

3. 模型的进步

为了增强模型的保真度和适用性，作者提出了几项改进。首先，作者建议整合辅助数据类型，包括电生理数据、神经元追踪数据以及一系列组学数据（例如蛋白质组学和表观遗传学数据），以增强和丰富模型的训练基础。这些数据模式提供了对神经元功能和连接性的补充见解，提供了有价值的背景信息，可以为模型的预测提供信息和完善。

其次，作者设想扩展双线性模型以纳入非线性相互作用，捕获基因表达和突触连接之间复杂的动态。实现这一目标的一个潜在途径是通过核方法或神经网络的集成，特别是采用现代推荐系统中著名的“双塔模型”框架（Figure 8）。在该模型中，每个“塔”都是一个深度神经网络，承担输入特征的非线性变换。事实证明，这种架构可以有效捕获复杂的用户-项目交互，并且可以显着增强模型破译遗传学和神经连接之间微妙关系的能力。