CV计算机视觉每日开源代码Paper with code速览-2023.12.5

news2024/12/23 14:31:10

点击@计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】GIFT: Generative Interpretable Fine-Tuning Transformers

  • 论文地址:https://arxiv.org//pdf/2312.00700

  • 工程主页:GIFT: Generative Interpretable Fine-Tuning Transformers

  • 开源代码(即将开源):GitHub - savadikarc/gift

2.【图像分类】BCN: Batch Channel Normalization for Image Classification

  • 论文地址:https://arxiv.org//pdf/2312.00596

  • 开源代码:GitHub - AfifaKhaled/Batch-Channel-Normalization

3.【语义分割】Efficient Multimodal Semantic Segmentation via Dual-Prompt Learning

  • 论文地址:https://arxiv.org//pdf/2312.00360

  • 开源代码(即将开源):GitHub - ShaohuaDong2021/DPLNet

4.【目标跟踪】Dense Optical Tracking: Connecting the Dots

  • 论文地址:https://arxiv.org//pdf/2312.00786

  • 工程主页:Dense Optical Tracking: Connecting the Dots

  • 开源代码(即将开源):GitHub - 16lemoing/dot

5.【目标跟踪】TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2312.00651

  • 工程主页:TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models

  • 开源代码(即将开源):GitHub - pixeli99/TrackDiffusion: Multi-object Tracking Data Generation via Diffusion Models.

6.【人脸识别】Rethinking the Domain Gap in Near-infrared Face Recognition

  • 论文地址:https://arxiv.org//pdf/2312.00627

  • 开源代码(即将开源):GitHub - michaeltrs/RethinkNIRVIS

7.【多模态】Making Large Multimodal Models Understand Arbitrary Visual Prompts

  • 论文地址:https://arxiv.org//pdf/2312.00784

  • 工程主页:ViP-LLaVA

  • 开源代码:GitHub - mu-cai/ViP-LLaVA

8.【多模态】Merlin:Empowering Multimodal LLMs with Foresight Minds

  • 论文地址:https://arxiv.org//pdf/2312.00589

  • 工程主页:Merlin: Empowering Multimodal LLMs with Foresight Minds

  • 开源代码(即将开源):GitHub - Ahnsun/merlin: Merlin: Empowering Multimodal LLMs with Foresight Minds

9.【多模态】RTQ: Rethinking Video-language Understanding Based on Image-text Model

  • 论文地址:https://arxiv.org//pdf/2312.00347

  • 开源代码:GitHub - SCZwangxiao/RTQ-MM2023: ACM Multimedia 2023 (Oral) - RTQ: Rethinking Video-language Understanding Based on Image-text Model

10.【多模态】StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

  • 论文地址:https://arxiv.org//pdf/2312.00330

  • 工程主页:StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

  • 开源代码:GitHub - GongyeLiu/StyleCrafter: StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter

11.【多模态】OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

  • 论文地址:https://arxiv.org//pdf/2312.00096

  • 工程主页:OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

  • 开源代码(即将开源):GitHub - tomchen-ctj/OST: OST: Refining Text Knowledge with Optimal Spatio-Temporal Descriptor for General Video Recognition

12.【多模态】X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

  • 论文地址:https://arxiv.org//pdf/2312.00085

  • 工程主页:X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation

  • 开源代码(即将开源):GitHub - xmu-xiaoma666/X-Dreamer: A pytorch implementation of “X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation”

13.【多模态】Synthesize, Diagnose, and Optimize: Towards Fine-Grained Vision-Language Understanding

  • 论文地址:https://arxiv.org//pdf/2312.00081

  • 开源代码(即将开源):GitHub - wjpoom/SPEC: The official implementation of paper "synthesize, diagnose, and optimize: towards fine-grained vision-language understanding"

14.【多模态】Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models

  • 论文地址:https://arxiv.org//pdf/2312.00057

  • 开源代码:GitHub - South7X/VA3: Probabilistic Copyright Protection Can Fail for Text-to-Image Generative Models

15.【自动驾驶:BEV】PointBeV: A Sparse Approach to BeV Predictions

  • 论文地址:https://arxiv.org//pdf/2312.00703

  • 开源代码(即将开源):GitHub - valeoai/PointBeV: A new BeV paradigm focusing sparsity and efficiency

16.【自动驾驶:多模态】Dolphins: Multimodal Language Model for Driving

  • 论文地址:https://arxiv.org//pdf/2312.00438

  • 工程主页:VLM-Driver

  • 开源代码(即将开源):GitHub - vlm-driver/Dolphins

17.【Diffusion】Fast ODE-based Sampling for Diffusion Models in Around 5 Steps

  • 论文地址:https://arxiv.org//pdf/2312.00094

  • 开源代码(即将开源):GitHub - zhyzhouu/amed-solver

18.【Diffusion】Unsupervised Keypoints from Pretrained Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2312.00065

  • 工程主页:Unsupervised Keypoints from Pretrained Diffusion Models

  • 开源代码:GitHub - ubc-vision/StableKeypoints

19.【深度补全】SparseDC: Depth Completion from sparse and non-uniform inputs

  • 论文地址:https://arxiv.org//pdf/2312.00097

  • 开源代码:GitHub - WHU-USI3DV/SparseDC: [ArXiv 2023] SparseDC: Depth Completion from sparse and non-uniform inputs

20.【人体运动生成】MoMask: Generative Masked Modeling of 3D Human Motions

  • 论文地址:https://arxiv.org//pdf/2312.00063

  • 工程主页:MoMask: Generative Masked Modeling of 3D Human Motions

  • 开源代码(即将开源):GitHub - EricGuo5513/momask-codes

21.【NeRF】EvE: Exploiting Generative Priors for Radiance Field Enrichment

  • 论文地址:https://arxiv.org//pdf/2312.00639

  • 工程主页:EvE: Exploiting Generative Priors for Radiance Field Enrichment | Karim Kassab, Antoine Schnepf, Jean-Yves Franceschi, Laurent Caraffa, Jeremie Mary, Valérie Gouet-Brunet

  • 代码即将开源

22.【视频生成】VideoBooth: Diffusion-based Video Generation with Image Prompts

  • 论文地址:https://arxiv.org//pdf/2312.00777

  • 工程主页:VideoBooth

  • 开源代码:GitHub - Vchitect/VideoBooth

23.【三维重建】MorpheuS: Neural Dynamic 360° Surface Reconstruction from Monocular RGB-D Video

  • 论文地址:https://arxiv.org//pdf/2312.00778

  • 工程主页:MorpheuS

  • 代码即将开源

论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.12.4

CV计算机视觉每日开源代码Paper with code速览-2023.12.1

CV计算机视觉每日开源代码Paper with code速览-2023.11.30

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1301950.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络——期末考试复习资料

什么是计算机网络 将地理位置不同的具有独立功能的多台计算机及其外部设备通过通信线路和通信设备连接起来;实现资源共享和数据传递的计算机的系统。 三种交换方式 报文交换:路由器转发报文; 电路交换:建立一对一电路 分组交换&a…

carla安装中的问题

1、carla carla安装完后,需要使用python调用API去更换地图,增加车辆等 使用Python调用API过程中可能会报错: 报错1:carla API(Carla包)版本不对 **解决方法:**需要将这个目录下的三个文件拷…

IDEA已经导入了jar包 还是提示找不到类(解决!!!)

项目代码check到本地,导入到idea中后,编译的时候很多类都报错了,打开发现有些框架中的类找不到。 报错:xxxx程序包找不到,xxxx类找不到 类似我框起来的地方是 报红的,utils这个包都找不到 解决方法: 网上1: 项目是依赖了这个jar包的,打开项目配置,查看依赖树: id…

2023.12.9 关于 Spring Boot 事务传播机制详解

目录 事务传播机制 七大事务传播机制 支持当前调用链上的事务 Propagation.REQUIRED Propagation.SUPPORTS Propagation.MANDATORY 不支持当前调用链上的事务 Propagation.REQUIRES_NEW Propagation.NOT_SUPPORTED Propagation.NEVER 嵌套事务 Propagation.NESTED…

优化您的Mac电脑风扇控制体验 - 尝试Macs Fan Control Pro!

在日常使用Mac电脑过程中,我们经常会遇到电脑发热的问题,特别是在运行大型软件或进行高负载任务时。为了保护电脑硬件,一个高效且可靠的风扇控制软件是必不可少的。 Macs Fan Control Pro是一款专为Mac电脑设计的风扇控制软件,它…

区块链技术是什么?解析其基本原理及应用

区块链技术的基本原理 在数字化时代的推动下,区块链技术作为一项革命性的创新,正逐渐渗透到各个领域,引领着未来科技的发展。区块链技术的基本原理大致可以总结为以下 4 点内容: 1. 去中心化:区块链是一个去中心化…

三(二)ts非基础类型(枚举)

数字枚举 使用enum定义一个枚举类型 enum Color {red,yellow,blue } let clr: Color Color.red如上面代码中,我们定义了一个关于颜色的枚举类型,里面的值会从0开始依次递增,也就是说Color.red为0,Color.yellow为1依次类推。当然…

渲染技术在虚拟仿真中的应用

虚拟仿真(Virtual Reality)是一种仿真技术,它使用计算机生成一个虚拟世界,用户可以通过各种传感通道与这个虚拟世界进行自然的交互。虚拟仿真技术可以创建和体验虚拟世界,使用户可以像在真实世界中一样进行操作和体验。…

Python - 深夜数据结构与算法之 ArrayList

目录 一.引言 二.ArrayList 介绍 1.List 2.Linked List 3.Skip List 三.经典算法实战 1.Two-Sum [1] 2.Three-Sum [15] 3.Merge-Two-Sorted-List [21] 4.Remove-Duplicates-From-Sorted-Array [26] 5.Plus-One [66] 6.Rotate-Array [189] 7. Move-Zero [283] 四.…

如何公网访问内网的群晖NAS随时随地远程访问本地存储的学习资源

文章目录 前言本教程解决的问题是:按照本教程方法操作后,达到的效果是前排提醒: 1. 搭建群晖虚拟机1.1 下载黑群晖文件vmvare虚拟机安装包1.2 安装VMware虚拟机:1.3 解压黑群晖虚拟机文件1.4 虚拟机初始化1.5 没有搜索到黑群晖的解…

双向链表(数据结构与算法)

✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅✅ ✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨✨ 🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿🌿&#x1…

基于Java的商城网站系统设计与实现(6000字论文范例)

基于Java的商城网站系统设计与实现 姓 名: 刘德华 学 号: 指导教师: 2023年4月 摘要 随着我国经济活力的不断提升和互联网的快速发展,信息的重要性正在…

SpringIOC之ConditionEvaluator

博主介绍:✌全网粉丝5W+,全栈开发工程师,从事多年软件开发,在大厂呆过。持有软件中级、六级等证书。可提供微服务项目搭建与毕业项目实战,博主也曾写过优秀论文,查重率极低,在这方面有丰富的经验✌ 博主作品:《Java项目案例》主要基于SpringBoot+MyBatis/MyBatis-plus+…

如何使用cpolar+Inis在Ubuntu系统快速搭建本地博客网站公网可访问

文章目录 前言1. Inis博客网站搭建1.1. Inis博客网站下载和安装1.2 Inis博客网站测试1.3 cpolar的安装和注册 2. 本地网页发布2.1 Cpolar临时数据隧道2.2 Cpolar稳定隧道(云端设置)2.3.Cpolar稳定隧道(本地设置) 3. 公网访问测试总…

安装Nacos2.2.3集群

目录 一、传统方式安装 二、Docker安装 一、传统方式安装 1、配置jdk环境 vi /etc/profile JAVA_HOME/usr/local/java JRE_HOME/usr/local/java/jre CLASSPATH.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib PATH$JAVA_HOME/bin:$PATH export PATH JAVA_…

统筹高级前端,系统进阶精选案例实战,高效奠定前端基石

在当今的软件开发中,前端技术的重要性日益突出。为了应对不断变化的市场需求和用户期望,前端开发人员需要不断进阶,并掌握高级技术和系统化的实战经验。本文将介绍一些高级前端开发的精选案例,帮助开发者高效地奠定前端基石&#…

WRF--修改geo_em.d01.nc中的变量,保持其他信息不变

WRF–修改geo_em.d01.nc中的变量,保持其他信息不变 首先呢,找到编译WRF过程中自带的读取nc的一个fortran函数:read_wrf_nc.f90 可以使用Linux命令: find / -name read_wrf_nc.f90 找到之后,修改这个文件&#xff0c…

ke14--10章-1数据库JDBC介绍

注册数据库(两种方式),获取连接,通过Connection对象获取Statement对象,使用Statement执行SQL语句。操作ResultSet结果集 ,回收数据库资源. 需要语句: 1Class.forName("DriverName");2Connection conn DriverManager.getConnection(String url, String user, String…

通过异步序列化提高图表性能 Diagramming for WPF

通过异步序列化提高图表性能 2023 年 12 月 6 日 MindFusion.Diagramming for WPF 4.0.0 添加了异步加载和保存文件的功能,从而提高了响应能力。 MindFusion.Diagramming for WPF 提供了一个全面的工具集,用于创建各种图表,包括组织结构图、图…

华为数通---配置本地端口镜像示例(1:1)

镜像概念 定义 镜像是指将指定源的报文复制一份到目的端口。指定源被称为镜像源,目的端口被称为观察端口,复制的报文被称为镜像报文。 镜像可以在不影响设备对原始报文正常处理的情况下,将其复制一份,并通过观察端口发送给监控…