CV计算机视觉每日开源代码Paper with code速览-2023.12.8

news2024/9/9 4:10:00

点击@计算机视觉,关注更多CV干货

论文已打包,点击进入—>下载界面

点击加入—>CV计算机视觉交流群

1.【显著目标检测】Texture-Semantic Collaboration Network for ORSI Salient Object Detection

  • 论文地址:https://arxiv.org//pdf/2312.03548

  • 开源代码:GitHub - MathLee/TSCNet: [TCAS-II 2023] [TSCNet] Texture-Semantic Collaboration Network for ORSI Salient Object Detection

2.【图像分割】Boosting Segment Anything Model Towards Open-Vocabulary Learning

  • 论文地址:https://arxiv.org//pdf/2312.03628

  • 开源代码(即将开源):GitHub - ucas-vg/Sambor: Sambor: Boosting Segment Anything Model Towards Open-Vocabulary Learning

3.【图像分割】Improving the Generalization of Segmentation Foundation Model under Distribution Shift via Weakly Supervised Adaptation

  • 论文地址:https://arxiv.org//pdf/2312.03502

  • 开源代码(即将开源):GitHub - zhang-haojie/wesam

4.【语义分割】ShareCMP: Polarization-Aware RGB-P Semantic Segmentation

  • 论文地址:https://arxiv.org//pdf/2312.03430

  • 开源代码(即将开源):GitHub - LEFTeyex/ShareCMP: ShareCMP: Polarization-Aware RGB-P Semantic Segmentation.

5.【语义分割】DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

  • 论文地址:https://arxiv.org//pdf/2312.03048

  • 工程主页:DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control

  • 代码即将开源

6.【点云分割】PartSLIP++: Enhancing Low-Shot 3D Part Segmentation via Multi-View Instance Segmentation and Maximum Likelihood Estimation

  • 论文地址:https://arxiv.org//pdf/2312.03015

  • 开源代码:GitHub - zyc00/PartSLIP2

7.【医学图像分割】AI-SAM: Automatic and Interactive Segment Anything Model

  • 论文地址:https://arxiv.org//pdf/2312.03119

  • 开源代码(即将开源):GitHub - ymp5078/AI-SAM: AI-SAM: Automatic and Interactive Segment Anything Model

8.【动作识别】STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition

  • 论文地址:https://arxiv.org//pdf/2312.03288

  • 开源代码(即将开源):GitHub - maclong01/STEP-CATFormer: [BMVC 2023] Official code for "STEP CATFormer: Spatial-Temporal Effective Body-Part Cross Attention Transformer for Skeleton-based Action Recognition"

9.【多模态】OneLLM: One Framework to Align All Modalities with Language

  • 论文地址:https://arxiv.org//pdf/2312.03700

  • 开源代码:GitHub - csuhan/OneLLM: OneLLM: One Framework to Align All Modalities with Language

10.【多模态】MOCHa: Multi-Objective Reinforcement Mitigating Caption Hallucinations

  • 论文地址:https://arxiv.org//pdf/2312.03631

  • 工程主页:MOCHa: Multi-Objective Reinforcement Mitigating Caption Hallucinations

  • 开源代码(即将开源):GitHub - assafbk/mocha_code: Code Repo for MOCHa: Multi-Objective Reinforcement Mitigating Caption Hallucinations

11.【多模态】TokenCompose: Grounding Diffusion with Token-level Supervision

  • 论文地址:https://arxiv.org//pdf/2312.03626

  • 工程主页:TokenCompose: Grounding Diffusion with Token-level Supervision

  • 开源代码:GitHub - mlpc-ucsd/TokenCompose: (arXiv) 🧩 TokenCompose: Grounding Diffusion with Token-level Supervision

12.【多模态】FERGI: Automatic Annotation of User Preferences for Text-to-Image Generation from Spontaneous Facial Expression Reaction

  • 论文地址:https://arxiv.org//pdf/2312.03187

  • 开源代码:GitHub - ShuangquanFeng/FERGI

13.【多模态】Uni3DL: Unified Model for 3D and Language Understanding

  • 论文地址:https://arxiv.org//pdf/2312.03026

  • 工程主页:Uni3DL

  • 开源代码(即将开源):https://github.com/lx709/Uni3DL

14.【数字人】Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians

  • 论文地址:https://arxiv.org//pdf/2312.03029

  • 工程主页:Gaussian Head Avatar's Project Page

  • 开源代码(即将开源):GitHub - YuelangX/Gaussian-Head-Avatar: Official repository for "Gaussian Head Avatar: Ultra High-fidelity Head Avatar via Dynamic Gaussians"

15.【自动驾驶】Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

  • 论文地址:https://arxiv.org//pdf/2312.03661

  • 开源代码(即将开源):GitHub - fudan-zvg/Reason2Drive: Reason2Drive: Towards Interpretable and Chain-based Reasoning for Autonomous Driving

16.【自动驾驶】Open-sourced Data Ecosystem in Autonomous Driving: the Present and Future

  • 论文地址:https://arxiv.org//pdf/2312.03408

  • 开源代码(即将开源):GitHub - OpenDriveLab/DriveAGI: Embracing Foundation Models into Autonomous Agent and System

17.【自动驾驶】Online Vectorized HD Map Construction using Geometry

  • 论文地址:https://arxiv.org//pdf/2312.03341

  • 工程主页:Online Vectorized HD Map Construction using Geometry

  • 开源代码:GitHub - cnzzx/GeMap: Online Vectorized HD Map Construction using Geometry

18.【自动驾驶】Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving?

  • 论文地址:https://arxiv.org//pdf/2312.03031

  • 开源代码(即将开源):GitHub - NVlabs/BEV-Planner

19.【视频编辑】MagicStick: Controllable Video Editing via Control Handle Transformations

  • 论文地址:https://arxiv.org//pdf/2312.03047

  • 工程主页:MagicStick🪄

  • 开源代码(即将开源):GitHub - mayuelala/MagicStick: MagicStick: This repo is the official implementation of "MagicStick: Controllable Video Editing via Control Handle Transformations"

20.【人体运动生成】MMM: Generative Masked Motion Model

  • 论文地址:https://arxiv.org//pdf/2312.03596

  • 工程主页:MMM: Generative Masked Motion Model

  • 开源代码(即将开源):GitHub - exitudio/MMM

21.【姿态估计】FocalPose++: Focal Length and Object Pose Estimation via Render and Compare

  • 论文地址:https://arxiv.org//pdf/2312.02985

  • 开源代码:GitHub - cifkam/FocalPosePP

22.【NeRF】SO-NeRF: Active View Planning for NeRF using Surrogate Objectives

  • 论文地址:https://arxiv.org//pdf/2312.03266

  • 工程主页:SO-NeRF

  • 开源代码(即将开源):https://github.com/ai4ce/SO-NeRF

23.【图像合成】Self-conditioned Image Generation via Generating Representations

  • 论文地址:https://arxiv.org//pdf/2312.03701

  • 开源代码:GitHub - LTH14/rcg: PyTorch implementation of RCG https://arxiv.org/abs/2312.03701

24.【图像合成】LooseControl: Lifting ControlNet for Generalized Depth Conditioning

  • 论文地址:https://arxiv.org//pdf/2312.03079

  • 工程主页:LooseControl

  • 开源代码:GitHub - shariqfarooq123/LooseControl: Lifting ControlNet for Generalized Depth Conditioning

25.【视频生成】MotionCtrl: A Unified and Flexible Motion Controller for Video Generation

  • 论文地址:https://arxiv.org//pdf/2312.03641

  • 工程主页:MotionCtrl

  • 开源代码(即将开源):GitHub - TencentARC/MotionCtrl

26.【视频生成】DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance

  • 论文地址:https://arxiv.org//pdf/2312.03018

  • 工程主页:DreamVideo: High-Fidelity Image-to-Video Generation with Image Retention and Text Guidance

  • 开源代码(即将开源):GitHub - anonymous0769/DreamVideo

27.【三维重建】DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

  • 论文地址:https://arxiv.org//pdf/2312.03611

  • 工程主页:DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

  • 开源代码(即将开源):GitHub - yhyang-myron/DreamComposer: [Arxiv23] DreamComposer: Controllable 3D Object Generation via Multi-View Conditions

28.【数据蒸馏】On the Diversity and Realism of Distilled Dataset: An Efficient Dataset Distillation Paradigm

  • 论文地址:https://arxiv.org//pdf/2312.03526

  • 开源代码(即将开源):https://github.com/LINs-lab/RDED

论文已打包,下载链接

CV计算机视觉交流群

群内包含目标检测、图像分割、目标跟踪、Transformer、多模态、NeRF、GAN、缺陷检测、显著目标检测、关键点检测、超分辨率重建、SLAM、人脸、OCR、生物医学图像、三维重建、姿态估计、自动驾驶感知、深度估计、视频理解、行为识别、图像去雾、图像去雨、图像修复、图像检索、车道线检测、点云目标检测、点云分割、图像压缩、运动预测、神经网络量化、网络部署等多个领域的大佬,不定期分享技术知识、面试技巧和内推招聘信息

想进群的同学请添加微信号联系管理员:PingShanHai666。添加好友时请备注:学校/公司+研究方向+昵称

推荐阅读:

CV计算机视觉每日开源代码Paper with code速览-2023.12.7

CV计算机视觉每日开源代码Paper with code速览-2023.12.6

CV计算机视觉每日开源代码Paper with code速览-2023.12.5

CV计算机视觉每日开源代码Paper with code速览-2023.12.4

CV计算机视觉每日开源代码Paper with code速览-2023.12.1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1308427.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深入理解Java虚拟机---Java内存模型

JMM Java内存模型主内存和工作内存volatile Java内存模型 Java内存模型是Java虚拟机规范中试图定义一种Java内存模型(JMM)来屏蔽掉各种硬件和操作系统的内存访问差异,以实现让Java程序在各种平台上都能达到一致的内存访问效果。可以理解为JMM定义一套在多线程读写共…

leetcode 34. 在排序数组中查找元素的第一个和最后一个位置(优质解法)

代码&#xff1a; class Solution {public int[] searchRange(int[] nums, int target) {int[] resultnew int[2];result[0]result[1]-1;//排除特殊情况if(numsnull||nums.length0){return result;}//查找左边界int left0;int rightnums.length-1;while (left<right){int m…

独立完成软件的功能的测试(4)

独立完成软件的功能的测试&#xff08;4&#xff09; &#xff08;12.14&#xff09;&#xff08;功能测试>头条项目实战&#xff09; 项目总体概述 项目背景和定位&#xff1a;一款汇聚科技咨询&#xff0c;技术文章和问答交流的用户移动终端产品&#xff0c;用户可以通过…

【玩转TableAgent数据智能分析】TableAgent全功能详解及多领域数据分析实践(下)数据分析过程及总结展望

6 TableAgent的数据分析过程解析 TableAgent的整个分析过程包括以下步骤&#xff0c;形成一个有机结构&#xff0c;让我们理清其工作原理。 6.1 Data Graph阶段 TableAgent首先绘制数据图&#xff0c;以解决问题。这个图形表示了问题的分解和细化&#xff0c;将大问题分解成…

在WPF窗口中增加水印效果

** 原理&#xff1a; ** 以Canvas作为水印显示载体&#xff0c;在Canvas中创建若干个TextBlock控件用来显示水印文案&#xff0c;如下图所示 然后以每一个TextBlock的左上角为中心旋转-30&#xff0c;最终效果会是如图红线所示&#xff1a; 为了达到第一行旋转后刚好与窗口…

深算院YashanDB与长亮科技联合,推出国产数据库金融核心解决方案

近期&#xff0c;深圳计算科学研究院&#xff08;简称“深算院”&#xff09;携手深圳市长亮科技股份有限公司&#xff08;简称“长亮科技”&#xff09;重磅推出基于崖山数据库YashanDB的金融核心解决方案&#xff0c;为推动金融机构实现技术自主可控与数字化转型全面赋能。 …

C# 从代码入门 Mysql 数据库事务

在业务开发中&#xff0c;使用数据库事务是必不可少的。而开发中往往会使用各种 ORM 执行数据库操作&#xff0c;简化代码复杂度&#xff0c;不过&#xff0c;由于各种 ORM 的封装特性&#xff0c;开发者的使用方式也不一样&#xff0c;开发者想要了解 ORM 对事务做了什么处理是…

Facebook的DINO,无监督模型,可用于分类和分割任务

Facebook的DINO 参考&#xff1a;https://blog.csdn.net/hello_dear_you/article/details/133695006 代码&#xff1a;https://github.com/facebookresearch/dino/tree/main DINO本质上是一种自监督学习方法&#xff0c;其核心思想是通过在大规模的无标签数据集上进行对比学习&…

华为云之轻松搭建 Nginx 静态网站

华为云之轻松搭建 Nginx 静态网站 一、本次实践介绍1. 本次实践目的2. 本次实践环境 二、ECS弹性云服务器介绍三、准备实践环境1. 预置环境2. 查看ECS服务器的账号密码信息3. 登录华为云4. 远程登录ECS服务器 四、安装配置 Nginx1. 安装nginx2. 启动nginx3. 浏览器中访问nginx服…

【Spark精讲】Spark内存管理

目录 前言 Java内存管理 Java运行时数据区 Java堆 垃圾回收机制 Executor内存管理 内存类型 堆内内存 堆外内存 内存管理模式 静态内存管理 统一内存管理 ​编辑 执行内存管理 多任务间内存分配 Shuffle 的内存占用 MemoryOverHead详解 任务内存调节 错误类型…

HarmonyOS给应用添加弹窗

给您的应用添加弹窗 概述 在我们日常使用应用的时候&#xff0c;可能会进行一些敏感的操作&#xff0c;比如删除联系人&#xff0c;这时候我们给应用添加弹窗来提示用户是否需要执行该操作&#xff0c;如下图所示&#xff1a; 弹窗是一种模态窗口&#xff0c;通常用来展示用户…

gRPC-Gateway:高效转换 RESTful 接口 | 开源日报 No.105

grpc-ecosystem/grpc-gateway Stars: 16.4k License: BSD-3-Clause gRPC-Gateway 是一个遵循 gRPC HTTP 规范的 gRPC 到 JSON 代理生成器。它是 Google 协议缓冲编译器 protoc 的插件&#xff0c;可以读取 protobuf 服务定义并生成反向代理服务器&#xff0c;将 RESTful HTTP…

有没有手机电脑同步的工作时间管理软件?

越来越多的职场人士感到每天的工作任务是比较多的&#xff0c;而工作时间又是有限的&#xff0c;所以经常时间不够用。因此&#xff0c;对于上班族来说&#xff0c;高效的时间管理是提高工作效率、按时完成任务的关键。为了满足这一需求&#xff0c;很多网友都在寻找一款既能在…

HarmonyOS给应用添加视频播放功能

Video组件的使用 概述 在手机、平板或是智慧屏这些终端设备上&#xff0c;媒体功能可以算作是我们最常用的场景之一。无论是实现音频的播放、录制、采集&#xff0c;还是视频的播放、切换、循环&#xff0c;亦或是相机的预览、拍照等功能&#xff0c;媒体组件都是必不可少的。…

【数学建模美赛M奖速成系列】报名流程与论文的基本格式

数学建模美赛M奖速成系列 写在前面报名方式1.官网直接报名2.赛氪软件辅助报名 论文的基本格式摘要模型建立模型求解结果分析与检验模型评价 竞赛的基本注意事项1. 选题后查找资料2. 写作能力和编程能力 历年优秀论文标题与摘要简明扼要善用图表 最后 写在前面 最近&#xff0c…

Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets

Stable video diffusion&#xff1a;将潜在视频扩散模型扩展到大型数据集 可以做到&#xff1a;文本-视频的生成、&#xff08;文本-&#xff09;图像-视频的生成、通过图像-视频微调进行多视图合成 摘要 我们提出了Stable video diffusion——一种用于高分辨率、最先进的文…

代码随想录第三十一天(一刷C语言)|无重叠区间划分字母区间合并区间

创作目的&#xff1a;为了方便自己后续复习重点&#xff0c;以及养成写博客的习惯。 一、无重叠区间 思路&#xff1a;参考carl文档 按照右边界排序&#xff0c;从左向右记录非交叉区间的个数。最后用区间总数减去非交叉区间的个数就是需要移除的区间个数了。 ledcode题目&a…

跨境电商如何利用跨境客服软件提升销售额

随着全球化的推进&#xff0c;跨境电商成为了许多企业拓展市场的重要途径。然而&#xff0c;跨境电商面临着语言、文化、时差等多种挑战&#xff0c;为了提供更好的客户服务并提升销售额&#xff0c;跨境电商需要利用跨境客服软件。本文将探讨跨境电商如何利用跨境客服软件来提…

VLAN基本原理

目录 一、VLAN概念及优势 &#xff08;一&#xff09;基本理念 &#xff08;二&#xff09;VLAN的特点 二、VLAN ID 种类、范围及用途 &#xff08;一&#xff09;静态VLAN &#xff08;二&#xff09;动态VLAN &#xff08;三&#xff09;VLAN三种端口类型 &#xff0…

计算4*4*4空间中2点结构的分布

不考虑两点距离的情况下&#xff0c;3维空间中的两点最多只有7种位置关系。3条边&#xff0c;3条面对角线&#xff0c;1条体对角线。现在向4*4*4的3维空间中随机的扔2个石子&#xff0c;比较7种结构的占比。 得到表格为 1 96 0.0476 2 96 0.0476 3 288 0.1429 4 288 …