此处整理了深度学习-机器视觉,最新的发展方向-多模态学习,中的11篇经典论文,整理了相关解读博客和对应的Github代码,看完此系列论文和博客,相信你能快速切入这个方向。每篇论文、博客或代码都有相关标签,一目了然,整理到这里了
webhub123 机器视觉 多模态学习11篇经典论文
在网站中的效果如下,全部放在对应的AI目录中,便于管理。这样就不需要在每个网站一个个点击收藏,然后再也找不到了
CLIP Learning Transferable Visual Models From Natural Language Supervision 图片和文本之间的对比学习
ViLT ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision 第一个摆脱了目标检测的视觉文本模型
ViLD OPEN-VOCABULARY OBJECT DETECTION VIA VISION AND LANGUAGE KNOWLEDGE DISTILLATION CLIP蒸馏帮助开集目标检测a
GLIP Grounded Language-Image Pre-training 联合目标检测和文本定位
CLIP4Clip CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip 拿CLIP直接做视频文本retrievala
ActionCLIP ActionCLIP: A New Paradigm for Video Action Recognition 用多模态对比学习有监督的做视频动作分类
PointCLIP PointCLIP: Point Cloud Understanding by CLIP 3D变2D,巧妙利用CLIP做点云
LSeg LANGUAGE-DRIVEN SEMANTIC SEGMENTATION 有监督的开集分割
GroupViT GroupViT: Semantic Segmentation Emerges from Text Supervision 只用图像文本对也能无监督做分割
CLIPassoCLIP CLIPasso: Semantically-Aware Object Sketching 跨界生成简笔画
DepthCLIP Can Language Understand Depth? 用文本跨界估计深度
论文和简介整理自 GitHub - mli/paper-reading: 深度学习经典、新论文逐段精读 其他博客和代码为手工整理,读者可以根据自己喜好,在网站上复制到自己的收藏中,然后手动替换即可。