CV计算机视觉每日开源代码Paper with code速览-2023.10.13

news2025/1/18 6:47:36

 精华置顶

墙裂推荐!小白如何1个月系统学习CV核心知识:链接

点击@CV计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【基础网络架构】CHIP: Contrastive Hierarchical Image Pretraining

  • 论文地址:https://arxiv.org//pdf/2310.08304

  • 开源代码:GitHub - harshiljhaveri/CHIP

2.【基础网络架构:Transformer】AutoVP: An Automated Visual Prompting Framework and Benchmark

  • 论文地址:https://arxiv.org//pdf/2310.08381

  • 开源代码:GitHub - IBM/AutoVP: Code and Benchmark for the paper "AutoVP: An Automated Visual Prompting Framework and Benchmark"

3.【关键点检测】UniPose: Detecting Any Keypoints

  • 论文地址:https://arxiv.org//pdf/2310.08530

  • 工程主页:UniPose: Detecting Any Keypoints

  • 开源代码(即将开源):GitHub - IDEA-Research/UniPose: Official implementation of the paper "UniPose : Detecting Any Keypoints"

4.【点云】PonderV2: Pave the Way for 3D Foundataion Model with A Universal Pre-training Paradigm

  • 论文地址:https://arxiv.org//pdf/2310.08586

  • 开源代码:GitHub - Pointcept/Pointcept: Pointcept: a codebase for point cloud perception research. Latest works: PPT, MSC (CVPR'23), PTv2 (NeurIPS'22)

5.【点云分割】PointHR: Exploring High-Resolution Architectures for 3D Point Cloud Segmentation

  • 论文地址:https://arxiv.org//pdf/2310.07743

  • 开源代码:GitHub - haibo-qiu/PointHR: PointHR: Exploring High-Resolution Architectures for 3D Point Cloud Segmentation

6.【医学图像分割】Volumetric Medical Image Segmentation via Scribble Annotations and Shape Priors

  • 论文地址:https://arxiv.org//pdf/2310.08084

  • 开源代码:GitHub - Qybc/Scribble2D5: Scribble2D5: Weakly-Supervised Volumetric Image Segmentation via Scribble Annotations

7.【医学图像分割:3D】3D TransUNet: Advancing Medical Image Segmentation through Vision Transformers

  • 论文地址:https://arxiv.org//pdf/2310.07781

  • 开源代码:GitHub - Beckschen/3D-TransUNet: This is the official repository for the paper "3D TransUNet: Advancing Medical Image Segmentation through Vision Transformers"

8.【多模态】Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models

  • 论文地址:https://arxiv.org//pdf/2310.08577

  • 开源代码(即将开源):GitHub - bethgelab/DataTypeIdentification: Code for the paper: "Visual Data-Type Understanding does not emerge from Scaling Vision-Language Models"

9.【多模态】Multimodal Variational Auto-encoder based Audio-Visual Segmentation

  • 论文地址:https://arxiv.org//pdf/2310.08303

  • 工程主页:Multimodal Variational Auto-encoder based Audio-Visual Segmentation

  • 开源代码(即将开源):GitHub - OpenNLPLab/MMVAE-AVS: Multimodal Variational Auto-encoder based Audio-Visual Segmentation [ICCV2023].

10.【多模态】Distilling from Vision-Language Models for Improved OOD Generalization in Vision Tasks

  • 论文地址:https://arxiv.org//pdf/2310.08255

  • 开源代码:GitHub - val-iisc/VL2V-ADiP: Distilling from Vision-Language Models for Improved OOD Generalization in Image Classification

11.【多模态】Lifelong Audio-video Masked Autoencoder with Forget-robust Localized Alignments

  • 论文地址:https://arxiv.org//pdf/2310.08204

  • 工程主页:FLAVA

  • 代码即将开源

12.【多模态】Generalized Logit Adjustment: Calibrating Fine-tuned Models by Removing Label Bias in Foundation Models

  • 论文地址:https://arxiv.org//pdf/2310.08106

  • 开源代码(即将开源):GitHub - BeierZhu/GLA: [NeurIPS 2023] Generalized Logit Adjustment (Coming Soon)

13.【多模态】SingleInsert: Inserting New Concepts from a Single Image into Text-to-Image Models for Flexible Editing

  • 论文地址:https://arxiv.org//pdf/2310.08094

  • 工程主页:SingleInsert

  • 开源代码(即将开源):GitHub - JarrentWu1031/SingleInsert: Official pytorch implementation for SingleInsert

14.【多模态】Can We Edit Multimodal Large Language Models?

  • 论文地址:https://arxiv.org//pdf/2310.08475

  • 开源代码:GitHub - zjunlp/EasyEdit: An Easy-to-use Knowledge Editing Framework for LLMs.

15.【自动驾驶:多模态感知】UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

  • 论文地址:https://arxiv.org//pdf/2310.08370

  • 开源代码(即将开源):GitHub - Nightmare-n/UniPAD: UniPAD: A Universal Pre-training Paradigm for Autonomous Driving

16.【自动驾驶:协同感知】DUSA: Decoupled Unsupervised Sim2Real Adaptation for Vehicle-to-Everything Collaborative Perception

  • 论文地址:https://arxiv.org//pdf/2310.08117

  • 开源代码(即将开源):GitHub - refkxh/DUSA: [ACM MM 2023] Official implementation of DUSA: Decoupled Unsupervised Sim2Real Adaptation for Vehicle-to-Everything Collaborative Perception

17.【自动驾驶:仿真】DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

  • 论文地址:https://arxiv.org//pdf/2310.07771

  • 工程主页:DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

  • 开源代码(即将开源):GitHub - shalfun/DrivingDiffusion: Layout-Guided multi-view driving scene video generation with latent diffusion model

18.【Diffusion】HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

  • 论文地址:https://arxiv.org//pdf/2310.08579

  • 工程主页:HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion

  • 开源代码(即将开源):GitHub - snap-research/HyperHuman: Github Repo for "HyperHuman: Hyper-Realistic Human Generation with Latent Structural Diffusion"

19.【Diffusion】MotionDirector: Motion Customization of Text-to-Video Diffusion Models

  • 论文地址:https://arxiv.org//pdf/2310.08465

  • 代码即将开源

20.【人体姿态估计】X-HRNet: Towards Lightweight Human Pose Estimation with Spatially Unidimensional Self-Attention

  • 论文地址:https://arxiv.org//pdf/2310.08042

  • 开源代码:GitHub - cool-xuan/x-hrnet: Official code for "X-HRNet: Towards Lightweight Human Pose Estimation with Spatially Unidimensional Self-Attention"

21.【人体运动生成】OmniControl: Control Any Joint at Any Time for Human Motion Generation

  • 论文地址:https://arxiv.org//pdf/2310.08580

  • 工程主页:OmniControl

  • 开源代码(即将开源):GitHub - neu-vi/OmniControl

22.【生成模型】Explorable Mesh Deformation Subspaces from Unstructured Generative Models

  • 论文地址:https://arxiv.org//pdf/2310.07814

  • 开源代码(即将开源):ArmanMaesumi/generative-mesh-subspaces · GitHub

23.【三维重建】Consistent123: Improve Consistency for One Image to 3D Object Synthesis

  • 论文地址:https://arxiv.org//pdf/2310.08092

  • 工程主页:Consistent123: Improve Consistency for One Image to 3D Object Synthesis

  • 代码即将开源

24.【图像分类:长尾分布】Long-Tailed Classification Based on Coarse-Grained Leading Forest and Multi-Center Loss

  • 论文地址:https://arxiv.org//pdf/2310.08206

  • 开源代码(即将开源):GitHub - jinyery/Cognisance: Long-tail Classification Based on Invariant Feature Learning from A Multi-granularity Perspective

论文已打包,点击进入—>下载界面

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

HSN:微调预训练ViT用于目标检测和语义分割,华南理工和阿里巴巴联合提出

EViT:借鉴鹰眼视觉结构,南开大学等提出ViT新骨干架构,在多个任务上涨点

CV计算机视觉每日开源代码Paper with code速览-2023.10.12

CV计算机视觉每日开源代码Paper with code速览-2023.10.11

CV计算机视觉每日开源代码Paper with code速览-2023.10.10

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1096015.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机系统概述(机组第一章)

补充: 1.1.1 计算机软硬件概念&&计算机系统的层次结构 思维导图 除了思维导图中的三个层级以外还包括两个层级 在实际机器下还可以延伸一级微程序机器,即将实际机器执行的指令翻译成一组微指令构成一个微程序。为程序机器执行完一个微程序在进…

Android MediaCodec 框架 基于codec2

系列文章的目的是什么? 粗略: 解码需要哪些基础的服务?标准解码的调用流程?各个流程的作用是什么?解码框架的层次?各个层次的作用? 细化: 解码参数的配置?解码输入数…

【iOS】——用单例类封装网络请求

文章目录 一、JSONModel1.JSONModel的简单介绍2.JSONModel的使用 二、单例类和Block传值 一、JSONModel 1.JSONModel的简单介绍 JSONModel一个第三方库,这个库用来将网络请求到的JSON格式的数据转化成Foundation框架下的Model类的属性,这样我们就可以直…

冠军方案!2023第二届广州·琶洲算法大赛

Datawhale干货 作者:唐楚柳,算法工程师,冠军选手 1.简介 大家好我是‍Alex‍,31岁,现为一名图像算法工程师,主要研究方向是计算机视觉图像识别。工作之余的研究兴趣包括ocr,aigc,ll…

[自学记录06|*Animation]四元数、死锁与方位插值

一、前言 还记得在很久以前不知道什么时候,看到过一个TA的面经,里面提到了四元数和万向锁,当时自己也查了一些资料,但是看的也是云里雾里,恰巧这两天学校的动画原理课讲到了这,打算整理一下做个小结。 二、…

【Linux学习笔记】 - 项目自动化工具make/Makefile的使用

一、背景知识 会不会写makefile,从一个侧面说明了一个人是否具备完成大型工程的能力。一个工程中的源文件不计其数,其按类型、功能、模块分别放在若干个目录中。makefile定义了一系列的规则来指定,哪些文件需要先编译,哪些文件需…

芯片学习记录SN74AHC1G14DBV

SN74AHC1G14DBV 芯片介绍 SN74AHC1G14器件是单个逆变器门。该器件执行布尔函数Y /A.The器件作为独立的逆变器门发挥作用,但由于施密特作用,门可能对正(VT)和负(VT−)信号具有不同的输入阈值电平。 引脚信…

07测试Maven中依赖的范围,依赖的传递原则,依赖排除的配置

依赖的特性 scope标签在dependencies/dependency标签内,可选值有compile(默认值),test,provided,system,runtime,import compile:在项目实际运行时真正要用到的jar包都是以compile的范围进行依赖 ,比如第三方框架SSM所需的jar包test:测试过程中使用的j…

大数据基础技能入门指南

本文介绍了数据工作中数据基础和复杂数据查询两个基础技能。 背景 当下,不管是业务升级迭代项目,还是体验优化项目,对于数据的需求都越来越大。数据需求主要集中在以下几个方面: 项目数据看板搭建:特别是一些AB实验的看…

【算法练习Day20】修剪二叉搜索树将有序数组转换为二叉搜索树把二叉搜索树转换为累加树

​📝个人主页:Sherry的成长之路 🏠学习社区:Sherry的成长之路(个人社区) 📖专栏链接:练题 🎯长路漫漫浩浩,万事皆有期待 文章目录 修剪二叉搜索树将有序数组转…

Grade 5 Math

数形结合 5 2 3 https://download.csdn.net/download/spencer_tseng/88431286

深入理解 Java 中的 synchronized 关键字

引入多线程的重要性和挑战 可以参考另一篇文章 https://blog.csdn.net/qq_41956309/article/details/133717408 JMM(Java Memory Model,Java 内存模型) 什么是JMM JMM(Java Memory Model,Java 内存模型&#xff09…

怎么在抖音上引流?分享五个抖音引流推广必备的几个方法

大家好,我是 小刘今天为大家分享的是抖音引流知识分享,今天咱们聊一些干货知识,绝对会让你们有一个重新的认知。抖音的流量大,是毋庸置疑的,抖音也是最早一批短视频平台。抖音于2017年上线,一开始主要是通过…

Golang学习记录:基础知识篇(一)

Golang学习:基础知识篇(一) 前言什么是Golang?Go语言的基础语法语言结构基础语法数据类型基础使用 前言 很久之前就想学Go语言了,但是一直有其他东西要学,因为我学的是Java嘛,所以后面学的东西…

配置VScode开发环境-CUDA编程

如果觉得本篇文章对您的学习起到帮助作用,请 点赞 关注 评论 ,留下您的足迹💪💪💪 本文主要介绍VScode下的CUDA编程配置,因此记录以备日后查看,同时,如果能够帮助到更多人&#xf…

操作系统导论-第四章作业(待更)

一、进程 进程就是运行中的程序,程序本身是没有生命周期的,它只是存储在磁盘上的一些指令(或者一些静态数据),操作系统将这些指令和数据加载到内存中,使其运行起来。 1.1 虚拟化CPU技术 根据我们平时使用…

基于Java的共享充电宝管理系统设计与实现(源码+lw+部署文档+讲解等)

文章目录 前言具体实现截图论文参考详细视频演示为什么选择我自己的网站自己的小程序(小蔡coding)有保障的售后福利 代码参考源码获取 前言 💗博主介绍:✌全网粉丝10W,CSDN特邀作者、博客专家、CSDN新星计划导师、全栈领域优质创作…

AI时代助力程序员与项目经理的双翼飞翔:从开发到成长的秘诀

❤️作者主页:小虚竹 ❤️作者简介:大家好,我是小虚竹。2022年度博客之星评选TOP 10🏆,Java领域优质创作者🏆,CSDN博客专家🏆,华为云享专家🏆,掘金年度人气作…

企业网盘中支持在线编辑的有哪些选项?

企业网盘作为现代企业不可或缺的工具之一,为企业提供了便捷的文件存储和共享功能。而其中支持在线编辑的解决方案更是减少了对额外软件的依赖,使团队成员可以直接在浏览器中进行实时协作。 什么是在线编辑? 在线编辑是指用户无需下载文件&a…

3D 生成重建008-zero123让扩散模型了解空间信息zero-shot 单图生3d

3D 生成重建008-zero123让扩散模型了解空间信息zero-shot 单图生3d 文章目录 00 论文工作1 论文方法1.1 条件生成微调1.2 维护3d表示 2 效果 0 0 论文工作 之前分享的工作主要尝试是从一个pre-trained 文生图的diffusion模型中去蒸馏知识,从而去维护一个3d的表示…