思路可借鉴和学习
On the Generalization of Multi-modal Contrastive Learning CoRR, ICML(2023)
摘要:多模态对比学习(MMCL)最近引起了广泛关注,因为它在视觉任务上的表现优于其他方法,这些方法通过嵌入多模态数据(如视觉 - 语言对)来实现。然而,关于 MMCL 如何从多模态对中提取有用的视觉表示以及如何超越自监督对比学习(SSCL)等先前方法的原理理解仍然不足。在本文中,我们通过将 MMCL 与非对称矩阵分解之间的内在联系进行对比,为视觉下游任务建立了 MMCL 的首个推广保证。基于这个框架,我们进一步通过表明 MMCL 隐含地执行了由文本对诱导的(伪)正对 SSCL,从而将 MMCL 与 SSCL 统一起来。从这个统一的视角出发,我们通过展示文本对可以诱导更多语义一致和多样的正对,来刻画 MMCL 的优势。根据我们的分析,这有利于下游泛化。受这一发现的启发,我们提出了一种 CLIP 引导的重采样方法,通过利用多模态信息,显著提高了 SSCL 在 ImageNet 上的下游性能。代码可在此处找到:https://github.com/PKU-ML/CLIP-Help-SimCLR。
BagFormer: Better Cross-Modal Retrieval via bag-wise interaction
摘要:在跨模态检索领域,单编码器模型通常比双编码器模型表现更好,但它们受到高延迟和低吞吐量的困扰。在本文中,我们提出了一种名为 BagFormer 的双编码器模型,它利用跨模态交互机制来提高召回率,同时不牺牲延迟和吞吐量。BagFormer 通过使用包级交互来实现这一点,这允许将文本转换为更合适的粒度,并将实体知识融入模型中。
Incorporating Biological Knowledge with Factor Graph Neural Network for Interpretable Deep Learning
在许多生物医学应用中,模型解释性和可解释性至关重要。为解决这个挑战,我们将概率图模型与深度学习相结合,开发了可解释且可预测的因素图神经网络模型。我们将生物知识(如基因本体论)直接编码为因素图,并将其嵌入模型架构中,使模型具有透明度和解释性。此外,我们设计了一种注意力机制,可以捕捉生物实体(如基因和基因本体论术语)之间的多尺度层次相互作用。通过参数共享机制,展开的因素图神经网络模型可以采用随机深度训练,并具有良好的泛化能力。我们将模型应用于两个癌症基因组数据集,以预测目标临床变量,并取得了比其他传统机器学习和深度学习模型更好的结果。我们的模型还可以用于基因集富集分析和选择对目标临床变量重要的基因本体论术语。
Factor Graph Neural Networks(因子GNN)
网络在图结构上操作,因此它们通常只考虑成对依赖关系。 为了捕捉更高阶的依赖关系,我们将图神经网络推广到因子图神经网络(FGNN)。 我们表明,FGNN 能够表示最大似然概率图模型的近似推理算法——最大积,因此,当最大积表现良好时,FGNN 也能表现良好。下面的图很有意思,感觉也比较创新。
BeMap: Balanced Message Passing for Fair Graph Neural Network
图神经网络可能对某些人口群体存在偏见,这需要考虑算法公平性。尽管在确保图神经网络算法公平性方面付出了越来越多的努力,但它们通常在训练过程中并不明确考虑 GNN 中的消息传递引起的偏差。在本文中,我们首先研究了消息传递中的偏差放大问题。我们通过实证和理论证明了当不同人口群体的 1-跳邻居不均衡时,消息传递可能放大偏差。在这样分析的指导下,我们提出了一种名为 BeMap 的公平消息传递方法,它利用一种平衡感知的抽样策略来平衡不同人口群体中每个节点的 1-跳邻居数量。在节点分类方面的广泛实验证明了我们的 BeMap 方法在减轻偏差的同时保持分类准确性的有效性。
Capturing Semantics for Imputation with Pre-trained Language Models ICDE 2021
提出了 IPM,它利用预训练语言模型捕捉填充的语义,把文本插补建模为分类任务,充分利用预训练语言模型捕捉语义的能力。
Interesting 兴趣阅读:
- CSPRD: A Financial Policy Retrieval Dataset for Chinese Stock Market
从大规模语料库中检索与给定问题相关的段落。现有的数据集主要通过事实查询对模型进行基准测试,这些查询通常涉及通用常识,而金融和经济等特定领域由于缺乏大规模高质量的数据集以及专家注释而尚未得到探索。在本文中,我们引入了中文股市政策检索数据集(CSPRD),提出了一种新的任务——策略检索,该数据集提供了 700 多个由经验丰富的专家标注的招股说明书段落,这些段落来自于我们收集的 10000 多个条目的中文政策语料库的相关文章。在词汇、嵌入和微调的双编码器模型上的实验证明了所提出的 CSPRD 的有效性,同时也表明了仍有许多改进的潜力。 - Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach (NIPS 2021)
我们针对开放世界特征扩展问题,其中输入数据的特征空间经过扩展,需要在未进行进一步重新训练的情况下处理测试数据中的新特征。该问题对于处理来自不同领域逐步收集的特征具有重要意义。为此,我们提出了一种新的图表示和学习的 learning paradigm。我们的框架包含两个模块:1) 一个骨干网络(例如,前馈神经网络)作为下层模型,将特征作为输入并输出预测标签;2) 一个图神经网络作为上层模型,通过在由观察到的数据构建的特征数据图上进行消息传递,学习扩展新特征的嵌入。基于我们的框架,我们设计了两种训练策略,一种是无监督的方法和一种归纳学习的方法,以赋予模型扩展能力并减轻特征级别的过拟合。我们还对具有新特征的测试数据的泛化误差进行了理论分析,剖析了训练特征和算法对泛化性能的影响。我们在多个分类数据集和大规模广告点击预测数据集上的实验证明了我们的模型可以为未见过的特征产生有效的嵌入,并且显著优于采用 KNN 和局部聚合的基线方法。 (感觉确实很有实际应用价值,解决了一个很实际的问题) - Predicting Biomedical Interactions with Probabilistic Model Selection for Graph Neural Networks
生物系统是由异质分子实体及其相互作用组成的复杂网络,这些相互作用共同决定了系统的各种生物特性。然而,目前的生物网络是嘈杂的、稀疏的和 不完整的,限制了我们对生物系统进行全面了解和理解生物现象的能力。实验鉴定这些相互作用既耗时又昂贵。随着高通量数据生成技术的进步和计算能力的显著提高,已经开发出各种计算方法来预测嘈杂网络中的新型相互作用。最近,深度学习方法如图神经网络在图结构数据建模方面显示出有效性,并在生物医学相互作用预测中取得了良好的性能。然而,基于图神经网络的方法需要人类专业知识和实验来设计模型的适当复杂性,并对模型的性能产生重大影响。此外,深度图神经网络容易过拟合,并且在对预测错误的预测上倾向于高度自信且校准不佳。为解决这些挑战,我们提出使用贝叶斯模型选择进行图卷积网络,以同时推断数据所证明的最可能的图卷积层数(深度)并进行 dropout 正则化。 在四个相互作用数据集上的实验证明,我们提出的方法可以实现精确且校准的预测。 (很有趣的想法,感觉思考的角度比较新) - Incorporating Biological Knowledge with Factor Graph Neural Network for Interpretable Deep Learning
在许多生物医学应用中,模型解释性和可解释性至关重要。为解决这个挑战,我们将概率图模型与深度学习相结合,开发了可解释且可预测的因素图神经网络模型。我们将生物知识(如基因本体论)直接编码为因素图,并将其嵌入模型架构中,使模型具有透明度和解释性。此外,我们设计了一种注意力机制,可以捕捉生物实体(如基因和基因本体论术语)之间的多尺度层次相互作用。通过参数共享机制,展开的因素图神经网络模型可以采用随机深度训练,并具有良好的泛化能力。我们将模型应用于两个癌症基因组数据集,以预测目标临床变量,并取得了比其他传统机器学习和深度学习模型更好的结果。我们的模型还可以用于基因集富集分析和选择对目标临床变量重要的基因本体论术语。