【论文速看】DL最新进展20241006-视频深度估计、3D、自监督学习

news2024/11/25 23:32:02

目录

    • 【视频深度估计】
    • 【3D】
    • 【自监督学习】

【视频深度估计】

[TPAMI 2024] NVDS+: Towards Efficient and Versatile Neural Stabilizer for Video Depth Estimation

论文链接:https://arxiv.org/pdf/2307.08695

代码链接:https://github.com/RaymondWang987/NVDS

演示视频:https://www.bilibili.com/video/BV1WhxdenEga/?vd_source=806e94b96ef6755e55a2da

视频深度估计的目标是推断出时间上一致的深度信息。一种方法是在每个视频上微调单图像模型并加入几何约束,但这种方法效率低下且缺乏鲁棒性。另一种选择是从数据中学习以强制一致性,这需要精心设计的模型和足够的视频深度数据。为了解决这两个挑战,本文引入了NVDS+,它以一种即插即用的方式稳定了由各种单图像模型估计出的不一致深度。作者还详细介绍了一个大规模的“野外视频深度”(VDW)数据集,其中包含14,203个视频和超过两百万帧,使其成为最大的自然场景视频深度数据集。此外,设计了一种双向推理策略,通过自适应融合正向和反向预测来提高一致性。实例化了一系列从小到大规模的模型家族,以适应不同的应用。该方法在VDW数据集和三个公共基准测试上进行了评估。为了进一步证明其多功能性,将NVDS+扩展到视频语义分割以及诸如散景渲染、新颖视图合成和3D重建等多个下游应用。实验结果表明,所提方法在一致性、准确性和效率方面都取得了显著改进。该工作为基于学习的深度估计提供了坚实的基线和数据基础。


【3D】

[NeurlPS 2024] CAT3D: Create Anything in 3D with Multi-View Diffusion Models

论文链接:https://arxiv.org/pdf/2405.10314v1

演示链接:https://cat3d.github.io/

三维重建技术的进步使得高质量的三维捕捉成为可能,但需要用户收集数百到数千张图像来创建一个三维场景。本文提出了CAT3D方法,通过模拟这种现实世界的捕捉过程,使用多视角扩散模型来创建任何三维物体。给定任意数量的输入图像和一组目标新视角,所提模型生成了高度一致的场景新视图。这些生成的视图可以作为稳健的三维重建技术的输入,以实时渲染从任何视角的三维表示。CAT3D可以在短短一分钟内创建完整的三维场景,并且性能优于现有的单图像和少视角三维场景创建方法。


[NeurlPS 2024 何凯明等] Physically Compatible 3D Object Modeling from a Single Image

论文链接:https://arxiv.org/pdf/2405.20510

演示链接:https://gmh14.github.io/phys-comp/(代码不久后会发布)

本文提出了一个计算框架,可以将单张图像转换为三维物理对象。图像中物理对象的视觉几何由三个正交属性决定:机械特性、外力和静止形状几何。现有的单视角三维重建方法常常忽视这种潜在构成,假设物体是刚性的或者忽略了外力。结果,重建出的对象无法承受现实世界的物理力,导致不稳定或不期望的变形——与图像中描绘的预期设计相偏离。所提的优化框架通过将物理一致性嵌入到重建过程中来解决这一问题。明确分解这三个物理属性,并通过静态平衡将它们联系起来,作为硬约束,确保优化后的物理形状表现出所需的物理行为。在从Objaverse收集的数据集上的评估表明,所设计的框架一致地增强了三维模型的物理真实性,超过了现有方法。所设计的框架的实用性扩展到动态模拟和3D打印等实际应用中,在这些应用中,遵循物理一致性至关重要


【自监督学习】

[NeurlPS 2024 何凯明等] Return of Unconditional Generation: A Self-supervised Representation Generation Method

论文链接:https://arxiv.org/pdf/2312.03701

代码链接:https://github.com/LTH14/rcg

无条件生成——即在不依赖人工标注标签的情况下建模数据分布的问题——是生成模型中的一个长期存在且基础的挑战,它为从大规模无标签数据中学习提供了潜力。在文献中,无条件方法的生成质量远不如其有条件的方法。这种差距可以归因于缺乏标签提供的语义信息。这项工作展示了通过在自监督编码器产生的表示空间中生成语义表示,可以弥合这一差距。这些表示可以用来条件化图像生成器。这个框架称为表示条件生成(RCG),为无条件生成问题提供了一个有效的解决方案,而无需使用标签。通过全面的实验,我们观察到RCG显著提高了无条件生成的质量:例如,它在ImageNet 256x256上实现了新的最先进FID分数2.15,将之前的最佳记录5.91大幅降低了相对64%。我们的无条件结果与领先的类条件结果处于同一水平。我们希望这些令人鼓舞的观察结果能吸引社区对无条件生成这一基础问题的关注。

在这里插入图片描述


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2193244.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

地理空间数据存储与处理:MySQL空间数据类型的优化与应用!

在 MySQL 数据库中,空间数据类型用于存储和处理地理空间数据。这些数据类型允许我们在开发时可在数据库中存储和操作地理位置、几何形状和地理空间关系等信息。 一、什么是空间数据类型 MySQL 中的空间数据类型主要包括以下几种: GEOMETRY&#xff1a…

【无人水面艇路径跟随控制3】(C++)USV代码阅读: ROS包的构建和管理:包的依赖关系、包含目录、库文件以及链接库

【无人水面艇路径跟随控制3】(C)USV代码阅读: ROS包的构建和管理:包的依赖关系、包含目录、库文件以及链接库 写在最前面ROS是什么CMakeLists.txt总结详细解释CMake最低版本和项目名称编译选项查找catkin包catkin包配置包含目录添…

(刷题记录5)盛最多水的容器

盛最多水的容器 题目信息:题目思路(环境来自力扣OJ的C):暴力枚举:双指针:移动高度较高的指针移动高度较低的指针 复杂度:代码与注释:暴力枚举:双指针: 题目信息: 给定一…

windows 找不到文件 Microsoft Net Framework 3.5 windows Driver Foundation(WDF).exe

问题 正常更新windows 11的时候发现这个问题。 重启也无法完成下面的更新,重启之后还是显然要更新: 解决方法 中文网站没有找到解决方案。微软官网总是给不靠谱的解决方案。 从有关上看到一个印度语音的视频,用的方法可行。借鉴过来。 …

【机器学习】机器学习框架

机器学习框架是支持开发、训练、和部署机器学习模型的工具集和库,以下是一些主流的机器学习框架及其特点: 1. TensorFlow 特点: 由 Google 开发,支持从研究到生产的大规模部署,广泛应用于深度学习模型。优势: 强大的可扩展性&am…

golang gin入门

gin是个小而精的web开发框架 官方文档 安装 go get -u github.com/gin-gonic/gin最简单的起手代码 package mainimport ("net/http""github.com/gin-gonic/gin" )func main() {r : gin.Default()r.GET("/ping", func(c *gin.Context) {c.JSON…

【自用】王道文件管理强化笔记

文章目录 操作系统引导:磁盘初始化文件打开过程角度1文件的打开过程角度2 内存映射的文件访问 操作系统引导: ①CPU从一个特定主存地址开始,取指令,执行ROM中的引导程序(先进行硬件自检,再开机) ②)将磁盘的第一块–主引导记录读入内存&…

【机器学习】深度学习、强化学习和深度强化学习?

深度学习、强化学习和深度强化学习是机器学习的三个重要子领域。它们有着各自独特的应用场景和研究目标,虽然都属于机器学习的范畴,但各自的实现方式和侧重点有所不同。 1. 深度学习(Deep Learning) 深度学习是一种基于神经网络的…

2024 年在线翻译谁称霸?论文翻译场景大揭秘!

现在这世界,语言就是把我们连在一起的绳子,挺关键的。不管搞研究、做生意还是传文化,翻译得又快又准。2024年,翻译这行竞争挺猛的,各种在线翻译工具都挺拼的。咱们今天就聊聊论文翻译,瞅瞅谁能在这场翻译比…

Meta 发布 Quest 3S 头显及 AR 眼镜原型:开启未来交互新视界

简介 在科技的浪潮中,Meta 始终站在创新的前沿,不断为我们带来令人惊叹的虚拟现实和增强现实体验。2024 年 10 月 6 日,让我们一同聚焦 Meta 最新发布的 Quest 3S 头显及 AR 眼镜原型(Orion),探索这两款产品…

【Blender Python】5.Blender场景中的集合

概述 这里的“集合”是指Blender场景中的集合。你可以在“大纲视图”面板中看到 图标的,就是集合,可以看做是文件夹,用于分类和整理场景中的对象。 获取场景的集合 >>> C.scene bpy.data.scenes[Scene]>>> C.scene.coll…

nodejs 构建高性能服务器的关键技术

nodejs 构建高性能服务器的关键技术 演示地址 演示地址 源码地址 源码地址 获取更多 获取更多 在现代 Web 开发中,Node.js 已成为构建高性能、可扩展网络应用的首选平台之一。它的非阻塞 I/O 模型与事件驱动架构使其能够在处理大量并发请求时表现出色&#xff0…

环形缓冲区(Ring Buffer)在STM32 HAL库中的应用:防止按键丢失

环形缓冲区(Ring Buffer)又称为循环缓冲区或圆形队列,是一种数据结构,它用于管理固定大小的数据存储空间。环形缓冲区本质是一个一维数组,不过是收尾相连的,类比一条蛇咬自己尾巴。 环形缓冲区重要性&…

危机四伏|盘点紧盯我国的五大APT组织

毒云藤(APT-C-01) 命名:该组织是 360 独立发现的,并率先披露了该组织的部分相关信息符合 360 对 APT 组织就行独立命名的条件。 360 威胁情报中心将 APT-C-01 组织命名为“毒云藤”,主要是考虑了以下几方面的因素&…

L1415 【哈工大_操作系统】CPU调度策略一个实际的schedule函数

L2.7 CPU调度策略 1、调度的策略 周转时间:任务进入到任务结束(后台任务更关注)响应时间:操作发生到响应时(前台任务更关注)吞吐量:CPU完成的任务量 响应时间小 -> 切换次数多 -> 系统…

curses函数库简介及使用

curses函数库简介及使用 导语curses简介屏幕输出读取清除移动字符 键盘键盘模式输入 窗口WINDOW常用函数屏幕刷新优化 子窗口keypad彩色显示pad总结参考文献 导语 curses函数库主要用来实现对屏幕和光标的操作,它的功能定位处于简单文本行程序和完全图形化界面之间…

【重学 MySQL】五十八、文本字符串(包括 enum set)类型

【重学 MySQL】五十八、文本字符串(包括 enum set)类型 CHAR 和 VARCHARTEXT 系列ENUMSET示例注意事项 在 MySQL 中,文本字符串类型用于存储字符数据。这些类型包括 CHAR、VARCHAR、TEXT 系列(如 TINYTEXT、TEXT、MEDIUMTEXT 和 L…

鸿蒙开发(NEXT/API 12)【管理应用与Wear Engine服务的连接状态】手机侧应用开发

监测应用与Wear Engine服务的连接状态 华为运动健康App在后台停止服务(如功耗过高),从而导致应用与Wear Engine服务的连接状态发生变化。对于类似这种不确定的断开情况,开发者可以通过本功能特性了解当前应用和Wear Engine的连接…

NatGo我的世界联机篇

书接上回 这里的TCP是JAVA,UDP是BE,选自适合你的映射类型 内网端口就填下面图片在你游戏同一个地方的数字!!! 就是我填12345的地方,mod-自定义局域网联机 默认 25565,如果出现无法创建本地游戏,那可能是端口被占用或…

卷积层是如何学习到图像特征的?

你好啊,我是董董灿。 想搞懂这个问题,需要先了解我们所说的特征指的是什么?然后再了解卷积核是如何学到的特征。 我们一步步来。 1、我们先来理解图像的特征 对于一张原始图像而言,说原始图像是相对于经过卷积处理而言的。 对…