CV计算机视觉每日开源代码Paper with code速览-2023.12.1

news2024/11/27 20:58:55

点击@CV计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】TransNeXt: Robust Foveal Visual Perception for Vision Transformers

  • 论文地址:https://arxiv.org//pdf/2311.17132

  • 开源代码(即将开源):https://github.com/DaiShiResearch/TransNeXt

2.【目标检测】Language-conditioned Detection Transformer

  • 论文地址:https://arxiv.org//pdf/2311.17902

  • 开源代码:https://github.com/janghyuncho/DECOLA

3.【目标检测】DyRA: Dynamic Resolution Adjustment for Scale-robust Object Detection

  • 论文地址:https://arxiv.org//pdf/2311.17098

  • 开源代码:https://github.com/DaEunFullGrace/DyRA

4.【Open-Vocabulary Object Detection】The devil is in the fine-grained details: Evaluating open-vocabulary object detectors for fine-grained understanding

  • 论文地址:https://arxiv.org//pdf/2311.17518

  • 开源代码:https://github.com/lorebianchi98/FG-OVD

5.【图像分割】(NeurIPS2023)Focus on Query: Adversarial Mining Transformer for Few-Shot Segmentation

  • 论文地址:https://arxiv.org//pdf/2311.17626

  • 开源代码:https://github.com/Wyxdm/AMNet

6.【语义分割】A Simple Recipe for Language-guided Domain Generalized Segmentation

  • 论文地址:https://arxiv.org//pdf/2311.17922

  • 工程主页:🍴 Freeze, Augment and Mix

  • 开源代码(即将开源):https://github.com/astra-vision/FAMix

7.【视频分割】Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation

  • 论文地址:https://arxiv.org//pdf/2311.17893

  • 开源代码(即将开源):https://github.com/shvdiwnkozbw/SSL-UVOS

8.【医学图像处理】Continual Self-supervised Learning: Towards Universal Multi-modal Medical Data Representation Learning

  • 论文地址:https://arxiv.org//pdf/2311.17597

  • 开源代码(即将开源):https://github.com/yeerwen/MedCoSS

9.【医学图像分类】(WACV2024)PHG-Net: Persistent Homology Guided Medical Image Classification

  • 论文地址:https://arxiv.org//pdf/2311.17243

  • 开源代码:https://github.com/yaoppeng/TopoClassification

10.【医学图像分割】Alternate Diverse Teaching for Semi-supervised Medical Image Segmentation

  • 论文地址:https://arxiv.org//pdf/2311.17325

  • 开源代码(即将开源):https://github.com/zhenzhao/AD-MT

11.【医学图像分割】U-Net v2: Rethinking the Skip Connections of U-Net for Medical Image Segmentation

  • 论文地址:https://arxiv.org//pdf/2311.17791

  • 开源代码:https://github.com/yaoppeng/U-Net_v2

12.【动作识别】AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video Action Understanding

  • 论文地址:https://arxiv.org//pdf/2311.17118

  • 工程主页:AdaFocus: Towards End-to-end Weakly Supervised Learning for Long-Video Action Understanding

  • 代码即将开源

13.【多模态】CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting

  • 论文地址:https://arxiv.org//pdf/2311.17907

  • 工程主页:CG3D: Compositional Generation for Text-to-3D via Gaussian Splatting

  • 代码即将开源

14.【多模态】VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

  • 论文地址:https://arxiv.org//pdf/2311.17647

  • 工程主页:VIM: Probing Multimodal Large Language Models for Visual Embedded Instruction Following

  • 开源代码(即将开源):https://github.com/VIM-Bench/VIM_TOOL

15.【多模态】ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model

  • 论文地址:https://arxiv.org//pdf/2311.17618

  • 工程主页:ShapeGPT

  • 开源代码(即将开源):https://github.com/OpenShapeLab/ShapeGPT

16.【多模态】MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

  • 论文地址:https://arxiv.org//pdf/2311.17435

  • 工程主页:MM-Narrator: Narrating Long-form Videos with Multimodal In-Context Learning

  • 代码即将开源

17.【多模态】VITATECS: A Diagnostic Dataset for Temporal Concept Understanding of Video-Language Models

  • 论文地址:https://arxiv.org//pdf/2311.17404

  • 开源代码:https://github.com/lscpku/VITATECS

18.【多模态】UniIR: Training and Benchmarking Universal Multimodal Information Retrievers

  • 论文地址:https://arxiv.org//pdf/2311.17136

  • 工程主页:UniIR

  • 开源代码:https://github.com/TIGER-AI-Lab/UniIR

19.【多模态】SEED-Bench-2: Benchmarking Multimodal Large Language Models

  • 论文地址:https://arxiv.org//pdf/2311.17092

  • 开源代码:https://github.com/AILab-CVC/SEED-Bench

20.【多模态】Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models

  • 论文地址:https://arxiv.org//pdf/2311.17091

  • 开源代码(即将开源):https://github.com/zhiheLu/Ensemble_VLM

21.【多模态】Look Before You Leap: Unveiling the Power of GPT-4V in Robotic Vision-Language Planning

  • 论文地址:https://arxiv.org//pdf/2311.17842

  • 工程主页:ViLa

  • 代码即将开源

22.【多模态】Efficient Stitchable Task Adaptation

  • 论文地址:https://arxiv.org//pdf/2311.17352

  • 开源代码(即将开源):https://github.com/ziplab/Stitched_LLaMA

23.【数字人】SyncTalk: The Devil is in the Synchronization for Talking Head Synthesis

  • 论文地址:https://arxiv.org//pdf/2311.17590

  • 工程主页:SyncTalk

  • 开源代码(即将开源):https://github.com/ziqiaopeng/SyncTalk

24.【自动驾驶】Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

  • 论文地址:https://arxiv.org//pdf/2311.17918

  • 工程主页:Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

  • 开源代码:https://github.com/BraveGroup/Drive-WM

25.【自动驾驶:Occupancy Prediction】Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications

  • 论文地址:https://arxiv.org//pdf/2311.17663

  • 开源代码:https://github.com/haomo-ai/Cam4DOcc

26.【Diffusion】Do text-free diffusion models learn discriminative visual representations?

  • 论文地址:https://arxiv.org//pdf/2311.17921

  • 工程主页:Diffusion for Recognition

  • 开源代码:https://github.com/soumik-kanad/diffssl

27.【Diffusion】SPiC-E : Structural Priors in 3D Diffusion Models using Cross Entity Attention

  • 论文地址:https://arxiv.org//pdf/2311.17834

  • 工程主页:SPiC·E: Structural Priors in 3D Diffusion Models using Cross-Entity Attention

  • 开源代码(即将开源):https://github.com/TAU-VAILab/spic-e

28.【Diffusion】Smooth Video Synthesis with Noise Constraints on Diffusion Models for One-shot Video Tuning

  • 论文地址:https://arxiv.org//pdf/2311.17536

  • 开源代码:https://github.com/SPengLiang/SmoothVideo

29.【网络剪枝】Towards Higher Ranks via Adversarial Weight Pruning

  • 论文地址:https://arxiv.org//pdf/2311.17493

  • 开源代码(即将开源):https://github.com/huawei-noah/Efficient-Computing/tree/master/Pruning/RPG

30.【姿态估计】Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation

  • 论文地址:https://arxiv.org//pdf/2311.17891

  • 工程主页:Pose Anything: A Graph-Based Approach for Category-Agnostic Pose Estimation

  • 开源代码(即将开源):https://github.com/orhir/PoseAnything

31.【NeRF】TSDF-Sampling: Efficient Sampling for Neural Surface Field using Truncated Signed Distance Field

  • 论文地址:https://arxiv.org//pdf/2311.17878

  • 工程主页:TSDF-Sampling: Efficient Sampling for Neural Surface Field using Truncated Signed Distance Field

  • 代码即将开源

32.【NeRF】FisherRF: Active View Selection and Uncertainty Quantification for Radiance Fields using Fisher Information

  • 论文地址:https://arxiv.org//pdf/2311.17874

  • 工程主页:FisherRF: Active View Selection and Uncertainty Quantification for Radiance Fields using Fisher Information

  • 开源代码(即将开源):https://github.com/JiangWenPL/FisherRF

33.【图像合成】When StyleGAN Meets Stable Diffusion: a Adapter for Personalized Image Generation

  • 论文地址:https://arxiv.org//pdf/2311.17461

  • 开源代码(即将开源):https://github.com/csxmli2016/w-plus-adapter

34.【视频生成】Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation

  • 论文地址:https://arxiv.org//pdf/2311.17117

  • 工程主页:Animate Anyone

  • 开源代码(即将开源):https://github.com/HumanAIGC/AnimateAnyone

35.【人体重建】Gaussian Shell Maps for Efficient 3D Human Generation

  • 论文地址:https://arxiv.org//pdf/2311.17857

  • 工程主页:Gaussian Shell Maps for Efficient 3D Human Generation

  • 开源代码(即将开源):https://github.com/computational-imaging/GSM

论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

​​​​​​​CV计算机视觉每日开源代码Paper with code速览-2023.11.30

CV计算机视觉每日开源代码Paper with code速览-2023.11.29

CV计算机视觉每日开源代码Paper with code速览-2023.11.28

CV计算机视觉每日开源代码Paper with code速览-2023.11.27

CV计算机视觉每日开源代码Paper with code速览-2023.11.23

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1291529.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Java聊天

一对一聊天 服务端 package 一对一用户;import java.awt.BorderLayout; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.io.PrintWriter; import java.net.ServerSocket; import java.net.Socket; import java.…

【问题思考】泰勒公式证明题如何选展开点?【对称美】

我的证明题水平很烂,这个纯属让自己有一个初步的理解,恳请指正! 问题 我们可以看到这里有两种展开方式(注意:x0叫展开点),分别是正确的做法,在x0展开,然后将0和a代入fx中…

【JavaEE】生产者消费者模式

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文于《JavaEE》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&…

【开源】基于JAVA的天沐瑜伽馆管理系统

项目编号: S 039 ,文末获取源码。 \color{red}{项目编号:S039,文末获取源码。} 项目编号:S039,文末获取源码。 目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 数据中心模块2.2 瑜伽课程模块2.3 课…

线程池基础参数和执行流程

线程池核心参数 1.corePoolSize:线程池中核心线程的个数。 2.maximumPoolSize:线程池中线程的总数。(线程总数核心线程数 救急线程数) 3. keepAliveTime:救急线程的存活时间。(救急线程空闲时的存活时间。) 4.unit:存活时间的…

numpy数据读取保存及速度测试

目录 数据保存及读取 速度比对测试 数据保存及读取 代码示例: # 导入必要的库 import numpy as np # 生成测试数据 arr_disk np.arange(8) # 打印生成能的数据 print(arr_disk) # numpy保存数据到本地 np.save("arr_disk", arr_disk) # 加载本地数据…

gpt3、gpt2与gpt1区别

参考:深度学习:GPT1、GPT2、GPT-3_HanZee的博客-CSDN博客 Zero-shot Learning / One-shot Learning-CSDN博客 Zero-shot(零次学习)简介-CSDN博客 GPT-2 模型由多层单向transformer的解码器部分构成,本质上是自回归模型…

软件系统应用开发安全指南

2.1.应用系统架构安全设计要求 2.2.应用系统软件功能安全设计要求 2.3.应用系统存储安全设计要求 2.4.应用系统通讯安全设计要求 2.5.应用系统数据库安全设计要求 2.6.应用系统数据安全设计要求 全资料获取进主页。

C、C++、C#的区别概述

C、C、C#的区别概述 https://link.zhihu.com/?targethttps%3A//csharp-station.com/understanding-the-differences-between-c-c-and-c/文章翻译源于此链接 01、C语言 ​ Dennis Ritchie在1972年创造了C语言并在1978年公布。Ritchie设计C的初衷是用于开发新版本的Unix。在那之…

关于DWC OTG2.0中PFC的理解

在DWC OTG2.0 Controller手册中,有一章节专门介绍了PFC,Packet FIFO Controller。其内部分为共享FIFO(shared FIFO)以及专用FIFO(Dedicated FIFO),并针对dev和host两种模式,并且还要…

IT行业软件数据文件传输安全与高效是如何保障的?

在当今迅速发展的科技世界中,云计算、大数据、移动互联网等信息技术正迎来蓬勃发展,IT行业正置身于一个全新的世界。数据不仅是最重要的资产,也是企业竞争力的核心所在。然而,如何缩短信息共享时间、高速流转数据、跨部门/跨区域协…

智能优化算法应用:基于鹰栖息算法无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用:基于鹰栖息算法无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用:基于鹰栖息算法无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.鹰栖息算法4.实验参数设定5.算法结果6.参考文献7.…

Linux--文件权限与shell外壳的理解

目录 一.Linux的用户与用户切换,提权 二.对文件权限的理解 1.文件权限角色的权限文件属性 2.Linux中的三种角色 3.为什么会存在所属组这个角色 4.文件属性的意义 4.1.第一个字母的意义 4.2 第2——第10个字母的意义 4.3修改文件权限的方法 三.目录权限 四…

记录 | linux手动清理 buff/cache

linux下手动清理 buff/cache 切换到 root 权限 # 这个drop_caches文件可以设置的值分别为1、2、3 echo 1 > /proc/sys/vm/drop_caches # 表示清除pagecache echo 2 > /proc/sys/vm/drop_caches # 表示清除回收slab分配器中的对象(包括目录项缓存和inode缓…

idea报错——Access denied for user ‘root‘@‘localhost‘ (using password: YES)

项目场景: 使用idea启动SpringBoot项目报错,可以根据提示看到是数据库的原因,显示使用了密码,具体报错信息如下: 解决方案: 第一步:先去配置文件里面查看连接MySQL的url是否正确,如果…

代码随想录算法训练营第四十二天 _ 动态规划_01背包问题、416.分割等和子集。

学习目标: 动态规划五部曲: ① 确定dp[i]的含义 ② 求递推公式 ③ dp数组如何初始化 ④ 确定遍历顺序 ⑤ 打印递归数组 ---- 调试 引用自代码随想录! 60天训练营打卡计划! 学习内容: 二维数组处理01背包问题 听起来…

Node.js快速搭建简单的HTTP服务器并发布公网远程访问

文章目录 前言1.安装Node.js环境2.创建node.js服务3. 访问node.js 服务4.内网穿透4.1 安装配置cpolar内网穿透4.2 创建隧道映射本地端口 5.固定公网地址 前言 Node.js 是能够在服务器端运行 JavaScript 的开放源代码、跨平台运行环境。Node.js 由 OpenJS Foundation&#xff0…

基于ssm校园美食交流系统论文

目 录 摘 要 1 前 言 3 第1章 概述 4 1.1 研究背景 4 1.2 研究目的 4 1.3 研究内容 4 第二章 开发技术介绍 5 2.1Java技术 6 2.2 Mysql数据库 6 2.3 B/S结构 7 2.4 SSM框架 8 第三章 系统分析 9 3.1 可行性分析 9 3.1.1 技术可行性 9 3.1.2 经济可行性 10 3.1.3 操作可行性 10…

CentOS 7.9 安装 k8s(详细教程)

文章目录 安装步骤安装前准备事项安装docker准备环境安装kubelet、kubeadm、kubectl初始化master节点安装网络插件calicowork 加入集群 k8s集群测试 安装步骤 安装前准备事项 一台或多台机器,操作系统 CentOS7.x-86_x64硬件配置:2GB或更多RAM&#xff0…

order排序方式研究

请直接看原文: 链接:https://juejin.cn/post/7258182427306197051 --------------------------------------------------------------------------------------------------------------------------------- 一.前言 在MySQL世界中,排序是一个常见而重…