CV计算机视觉每日开源代码Paper with code速览-2023.12.6

news2024/12/26 20:42:36

点击@计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构:Transformer】Rejuvenating image-GPT as Strong Visual Representation Learners

  • 论文地址:https://arxiv.org//pdf/2312.02147

  • 开源代码:https://github.com/OliverRensu/D-iGPT

2.【基础网络架构:Transformer】Bootstrapping SparseFormers from Vision Foundation Models

  • 论文地址:https://arxiv.org//pdf/2312.01987

  • 开源代码:https://github.com/showlab/sparseformer

3.【异常检测】Unsupervised Anomaly Detection using Aggregated Normative Diffusion

  • 论文地址:https://arxiv.org//pdf/2312.01904

  • 开源代码:https://github.com/alexanderfrotscher/ANDi

4.【视频异常检测】Dynamic Erasing Network Based on Multi-Scale Temporal Features for Weakly Supervised Video Anomaly Detection

  • 论文地址:https://arxiv.org//pdf/2312.01764

  • 开源代码(即将开源):https://github.com/ArielZc/DE-Net

5.【图像分割】UniGS: Unified Representation for Image Generation and Segmentation

  • 论文地址:https://arxiv.org//pdf/2312.01985

  • 开源代码(即将开源):https://github.com/qqlu/Entity

6.【语义分割】Generalization by Adaptation: Diffusion-Based Domain Extension for Domain-Generalized Semantic Segmentation

  • 论文地址:https://arxiv.org//pdf/2312.01850

  • 开源代码(即将开源):https://github.com/JNiemeijer/DIDEX

7.【人脸识别】Effective Adapter for Face Recognition in the Wild

  • 论文地址:https://arxiv.org//pdf/2312.01734

  • 工程主页:Effective Adapter for Face Recognition in the Wild

  • 开源代码(即将开源):https://github.com/liuyunhaozz/faceadapter/

8.【医学图像分割】MobileUtr: Revisiting the relationship between light-weight CNN and Transformer for efficient medical image segmentation

  • 论文地址:https://arxiv.org//pdf/2312.01740

  • 开源代码(即将开源):https://github.com/FengheTan9/MobileUtr

9.【视频超分辨率重建】Motion-Guided Latent Diffusion for Temporally Consistent Real-world Video Super-resolution

  • 论文地址:https://arxiv.org//pdf/2312.00853

  • 开源代码(即将开源):https://github.com/IanYeung/MGLD-VSR

10.【图像增强】Enhancing and Adapting in the Clinic: Source-free Unsupervised Domain Adaptation for Medical Image Enhancement

  • 论文地址:https://arxiv.org//pdf/2312.01338

  • 开源代码:https://github.com/liamheng/Annotation-free-Medical-Image-Enhancement

11.【动作识别】DST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition

  • 论文地址:https://arxiv.org//pdf/2312.01431

  • 开源代码(即将开源):https://github.com/qizhongtan/D2ST-Adapter

12.【多模态】Aligning and Prompting Everything All at Once for Universal Visual Perception

  • 论文地址:https://arxiv.org//pdf/2312.02153

  • 开源代码:https://github.com/shenyunhang/APE

13.【多模态】Object Recognition as Next Token Prediction

  • 论文地址:https://arxiv.org//pdf/2312.02142

  • 开源代码:https://github.com/kaiyuyue/nxtp

14.【多模态】Mitigating Fine-Grained Hallucination by Fine-Tuning Large Vision-Language Models with Caption Rewrites

  • 论文地址:https://arxiv.org//pdf/2312.01701

  • 开源代码:https://github.com/Anonymousanoy/FOHE

15.【多模态】Good Questions Help Zero-Shot Image Reasoning

  • 论文地址:https://arxiv.org//pdf/2312.01598

  • 开源代码:https://github.com/kai-wen-yang/QVix

16.【多模态】Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling

  • 论文地址:https://arxiv.org//pdf/2312.01017

  • 开源代码(即将开源):https://github.com/stoneMo/DeepAVFusion

17.【多模态】Segment and Caption Anything

  • 论文地址:https://arxiv.org//pdf/2312.00869

  • 工程主页:Segment and Caption Anything

  • 开源代码:https://github.com/xk-huang/segment-caption-anything

18.【多模态】VMC: Video Motion Customization using Temporal Attention Adaption for Text-to-Video Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2312.00845

  • 工程主页:VMC

  • 开源代码:https://github.com/HyeonHo99/Video-Motion-Customization

19.【多模态】A Challenging Multimodal Video Summary: Simultaneously Extracting and Generating Keyframe-Caption Pairs from Video

  • 论文地址:https://arxiv.org//pdf/2312.01575

  • 开源代码:https://github.com/keitokudo/Multi-VidSum

20.【数字人】GaussianAvatar: Towards Realistic Human Avatar Modeling from a Single Video via Animatable 3D Gaussians

  • 论文地址:https://arxiv.org//pdf/2312.02134

  • 工程主页:Projectpage of GaussianAvatar

  • 开源代码(即将开源):https://github.com/huliangxiao/GaussianAvatar

21.【数字人】VividTalk: One-Shot Audio-Driven Talking Head Generation Based on 3D Hybrid Prior

  • 论文地址:https://arxiv.org//pdf/2312.01841

  • 工程主页:VividTalk: One-Shot Audio-Driven Talking Head Generation Based 3D Hybrid Prior

  • 开源代码(即将开源):https://github.com/HumanAIGC/VividTalk

22.【数字人】3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

  • 论文地址:https://arxiv.org//pdf/2312.00870

  • 工程主页:3DiFACE: Diffusion-based Speech-driven 3D Facial Animation and Editing

  • 开源代码(即将开源):https://github.com/bala1144/3DiFACE

23.【半监督学习】Virtual Category Learning: A Semi-Supervised Learning Method for Dense Prediction with Extremely Limited Labels

  • 论文地址:https://arxiv.org//pdf/2312.01169

  • 开源代码:https://github.com/GeoffreyChen777/VC

24.【深度估计】Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

  • 论文地址:https://arxiv.org//pdf/2312.02145

  • 工程主页:Marigold: Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

  • 开源代码:https://github.com/prs-eth/marigold

25.【深度估计】Deeper into Self-Supervised Monocular Indoor Depth Estimation

  • 论文地址:https://arxiv.org//pdf/2312.01283

  • 开源代码:https://github.com/fcntes/IndoorDepth

26.【场景补全】PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

  • 论文地址:https://arxiv.org//pdf/2312.02158

  • 工程主页:PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

  • 开源代码(即将开源):https://github.com/astra-vision/PaSCo

27.【风格迁移】Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion

  • 论文地址:https://arxiv.org//pdf/2312.01671

  • 工程主页:Multimodality-guided Image Style Transfer using Cross-modal GAN Inversion

  • 代码即将开源

28.【Diffusion】Readout Guidance: Learning Control from Diffusion Features

  • 论文地址:https://arxiv.org//pdf/2312.02150

  • 工程主页:Readout Guidance: Learning Control from Diffusion Features

  • 代码即将开源

29.【Diffusion】ResEnsemble-DDPM: Residual Denoising Diffusion Probabilistic Models for Ensemble Learning

  • 论文地址:https://arxiv.org//pdf/2312.01682

  • 开源代码(即将开源):https://github.com/nkicsl/ResEnsemble-DDPM

30.【Diffusion】DeepCache: Accelerating Diffusion Models for Free

  • 论文地址:https://arxiv.org//pdf/2312.00858

  • 开源代码:https://github.com/horseee/DeepCache

31.【网络剪枝】Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective

  • 论文地址:https://arxiv.org//pdf/2312.01397

  • 开源代码:https://github.com/UNITES-Lab/VPNs

32.【网络剪枝】Physics Inspired Criterion for Pruning-Quantization Joint Learning

  • 论文地址:https://arxiv.org//pdf/2312.00851

  • 开源代码:https://github.com/fanxxxxyi/PIC-PQ

33.【姿态估计】Object 6D pose estimation meets zero-shot learning

  • 论文地址:https://arxiv.org//pdf/2312.00947

  • 工程主页:PoMZ: Object 6D Pose Estimation Meets Zero-Shot Learning

  • 代码即将开源

34.【NeRF】Mesh-Guided Neural Implicit Field Editing

  • 论文地址:https://arxiv.org//pdf/2312.02157

  • 工程主页:Mesh-Guided Neural Implicit Field Editing

  • 开源代码(即将开源):https://github.com/cassiePython/MNeuEdit/tree/master

35.【NeRF】SANeRF-HQ: Segment Anything for NeRF in High Quality

  • 论文地址:https://arxiv.org//pdf/2312.01531

  • 工程主页:SANeRF-HQ

  • 开源代码(即将开源):https://github.com/lyclyc52/SANeRF-HQ

36.【NeRF】VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams

  • 论文地址:https://arxiv.org//pdf/2312.01407

  • 工程主页:VideoRF: Rendering Dynamic Radiance Fields as 2D Feature Video Streams

  • 开源代码(即将开源):https://github.com/aoliao12138/VideoRF

37.【NeRF】Self-Evolving Neural Radiance Fields

  • 论文地址:https://arxiv.org//pdf/2312.01003

  • 工程主页:SE-NeRF

  • 开源代码(即将开源):https://github.com/KU-CVLAB/SE-NeRF

38.【图像合成】DiffiT: Diffusion Vision Transformers for Image Generation

  • 论文地址:https://arxiv.org//pdf/2312.02139

  • 开源代码:https://github.com/NVlabs/DiffiT

39.【图像合成】Style Aligned Image Generation via Shared Attention

  • 论文地址:https://arxiv.org//pdf/2312.02133

  • 工程主页:StyleAlign

  • 开源代码:https://github.com/google/style-aligned/

40.【人脸重建】DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

  • 论文地址:https://arxiv.org//pdf/2312.01068

  • 工程主页:DPHMs: Diffusion Parametric Head Models for Depth-based Tracking

  • 开源代码(即将开源):https://github.com/tangjiapeng/DPHMs

41.【图像检索】Language-only Efficient Training of Zero-shot Composed Image Retrieval

  • 论文地址:https://arxiv.org//pdf/2312.01998

  • 开源代码:https://github.com/navervision/lincir

42.【Visual Question Answering】How to Configure Good In-Context Sequence for Visual Question Answering

  • 论文地址:https://arxiv.org//pdf/2312.01571

  • 开源代码:https://github.com/GaryJiajia/OFv2_ICL_VQA

论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.12.5

CV计算机视觉每日开源代码Paper with code速览-2023.12.4

CV计算机视觉每日开源代码Paper with code速览-2023.12.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1303063.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

你好!堆排序【JAVA】

目录 1.简单介绍 2.大小顶堆 3.基本思想 4.基本思路 4.代码实现数组转化堆 5.代码排序 6.总代码测试 1.简单介绍 堆排序是一种基于堆数据结构的排序算法,其核心思路是利用堆这种特殊的数据结构来对数据进行排序。堆是一种完全二叉树,并且满足父节…

建筑可视化数据大屏汇总,UI源文件(PC端大屏设计)

酷炫的大屏设计让数据更好的展现,方便业务人员分析数据,辅助领导决策。现在分享大屏Photoshop源文件,以下为部分截图示意。 划重点:文末可获得完整素材包~ 01 科技建筑平台数据可视化 02 建筑公司可视化数据汇总平台 03 深蓝…

算法Day27 身材管理(三维背包)

身材管理(三维背包) Description Input Output Sample 代码 import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner scanner new Scanner(System.in);int n scanner.nextInt(); // 输入n的值int money sca…

TrustZone之完成器:外围设备和内存

到目前为止,在本指南中,我们集中讨论了处理器,但TrustZone远不止是一组处理器功能。要充分利用TrustZone功能,我们还需要系统其余部分的支持。以下是一个启用了TrustZone的系统示例: 本节探讨了该系统中的关键组件以及它们在TrustZone中的作用。 完成器:外围设备…

Docker创建镜像的方式---Dockerfile

Dockerfile可以创建自定义镜像。包括配置文件,挂载点,对外暴露的端口,设置环境变量。 Docker创建镜像的方式 1、 基于已有镜像创建:根据官方提供的镜像源,创建镜像。然后拉起容器。是一个白板智能提供基础的功能&…

【收获】成长之路

目录 一、前言二、计算机方面三、专业知识方面四、总结 一、前言 四年,对于一个人的成长来说,是一个相当重要的阶段。在这段时间里,我经历了许多挑战、收获了许多成就,也在不断地成长和改变。回首这四年的点点滴滴,我深…

mybatis多表映射-延迟加载,延迟加载的前提条件是:分步查询

1、建库建表 create database mybatis-example; use mybatis-example; create table t_book (bid varchar(20) primary key,bname varchar(20),stuid varchar(20) ); insert into t_book values(b001,Java,s001); insert into t_book values(b002,Python,s002); insert into …

牛客网(二叉树)

https://www.nowcoder.com/practice/4b91205483694f449f94c179883c1fef?tpId60&&tqId29483&rp1&ru/activity/oj&qru/ta/tsing-kaoyan/question-ranking 这个题目和leetcode比起来就是有一些不一样,需要我们自己来写接口函数,所以…

Linux系统编程(一):基本概念

参考引用 Unix和Linux操作系统有什么区别?一文带你彻底搞懂posix Linux系统编程(文章链接汇总) 1. Unix 和 Linux 1.1 Unix Unix 操作系统诞生于 1969 年,贝尔实验室发布了一个用 C 语言编写的名为「Unix」的操作系统&#xff0…

鸿蒙原生应用/元服务开发-Stage模型能力接口(二)

ohos.app.ability.AbilityConstant (AbilityConstant)一、说明 AbilityConstant提供Ability相关的枚举,包括设置初次启动原因、上次退出原因、迁移结果、窗口类型等。本模块首批接口从API version 9开始支持。后续版本的新增接口,采用上角标单独标记接口…

stm32学习总结:3、Proteus8+STM32CubeMX+MDK很有搞头

stm32学习总结:3、Proteus8STM32CubeMXMDK很有搞头 文章目录 stm32学习总结:3、Proteus8STM32CubeMXMDK很有搞头一、前言二、资料收集三、实际案例-点灯1、Proteus8安装2、Proteus创建stm32F013C6项目并添加外围LED电路3、STM32CubeMX配置F103C6引脚生成…

某信服 EDR 白程序DLL劫持

本文用到的白程序回复公众号20231211进行获取。 嗯… 记得去年HW的时候某信服给我装的EDR一直没卸载,不是不想卸载,是因为卸载要密码,所以就摆烂了。。。。 找到EDR这个目录,然后把目录复制到虚拟机中,然后一个一个e…

记录一下快速上手Springboot登录注册项目

本教程需要安装以下工具,如果不清楚怎么安装的可以看下我的这篇文章 链接: https://blog.csdn.net/qq_30627241/article/details/134804675 管理工具: maven IDE: IDEA 数据库: MySQL 测试工具: Postman 打开IDE…

【无线网络技术】——无线城域网(学习笔记)

📖 前言:无线城域网(WMAN)是指在地域上覆盖城市及其郊区范围的分布节点之间传输信息的本地分配无线网络。能实现语音、数据、图像、多媒体、IP等多业务的接入服务。其覆盖范围的典型值为3~5km,点到点链路的覆盖可以高达…

大道至简?ETH研究团队提出简化版Transformer模型,综合效率明显提升

论文题目: Simplifying Transformer Blocks 论文链接:https://arxiv.org/abs/2311.01906 2023年,Transformer已经成为人工智能领域中最受欢迎的基础模型,如今火热的大型语言模型,多模态大模型均由不同类型的Transforme…

数据结构与算法-Rust 版读书笔记-2线性数据结构-队列

数据结构与算法-Rust 版读书笔记-2线性数据结构-队列 1、队列:先进先出 队列是项的有序集合,其中,添加新项的一端称为队尾,移除项的另一端称为队首。一个元素在从队尾进入队列后,就会一直向队首移动,直到…

财务机器人(RPA)会影响会计人员从业吗?

财务机器人会对会计从业人员有影响。 不过是正面积极的影响。 它是财务人员工作的好助手好帮手。 具体展开聊聊财务RPA机器人是如何成为财务人员的好帮手。 财务机器人是在人工智能和自动化技术的基础上建立的、以软件机器人作为虚拟劳动力、依据预先设定的程序与现有用户系…

Axure的安装以及简单使用

目录 Axure简介 是什么 有什么用 Axure的优缺点 优点: 缺点: 安装 汉化 Axure的使用 工具栏 页面 ​编辑 添加子页面 ​编辑 Axure简介 是什么 Axure是一款著名的原型设计工具。它允许用户创建交互式线框图、流程图、原型和其他设计文档&…

ERROR: [BD 41-237] Bus Interface property FREQ_HZ does not match between

在自定义IP出现以上错误时可以通过双击模块clk属性 如果是灰色无法二次编辑时,在封装IP时,选择以下菜单

【笔记】硬件工程师入门基础课程

学习视频(b站):硬件工程师入门基础元器件课程 基础元器件课程 p1 电阻1. 定义、特性及参数1.1 色环电阻 识别方法:1.2 伏安特性1.3 基本参数 2.电阻的功能2.1 分压2.2 限流2.3 浪涌保护 3. 如何选择电阻 p2 电容1. 电容的定义1.1电…