Google的MELON: 通过未定位图像重建精确3D模型的突破性算法

news2024/11/15 13:56:29

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

Google 最近开发的一种名为MELON的新算法,代表了计算机视觉领域的一项重大进展,使得在只有少量图像的情况下重建物体的3D形状成为可能。这一基础的计算机视觉任务在从电子商务3D模型的创建到自动驾驶汽车导航等多个领域都有广泛应用。

关键的问题之一是如何确定拍摄图像的确切位置,这一过程称为姿态推断。如果相机姿态已知,一系列成功的技术——如神经辐射场(NeRF)或3D高斯投影——可以重建3D物体。但如果这些姿态不可用,就会遇到困难的“先有鸡还是先有蛋”的问题,即如果我们知道3D物体,我们可以确定姿态,但在知道相机姿态之前我们无法重建3D物体。伪对称性——即许多物体从不同角度观看时看起来相似——使这个问题更加复杂。例如,正方形物体如椅子每旋转90°看起来都很相似。通过在转盘上从各种角度渲染物体并绘制其光度自相似性图,可以揭示物体的伪对称性。

在介绍了一种名为“MELON: 在SO(3)中未定位图像的NeRF”(MELON: Modulo Equivalent Latent Optimization of NeRF)的技术后,该技术在3DV 2024大会上受到关注,它可以完全从头开始确定以物体为中心的相机姿态,同时重建物体的3D形状。MELON是首批能够在没有初始相机姿态估计、复杂训练方案或有标签数据的预训练的情况下实现这一目标的技术之一。MELON是一种相对简单的技术,可以轻松地整合到现有的NeRF方法中。研究团队演示了MELON如何从未定位图像中重建NeRF,并在只需要4-6张物体图像的情况下实现了最先进的精度。

为了帮助解决这个难题,研究团队利用了两项关键技术来促进收敛。第一项是一个非常轻量级、动态训练的卷积神经网络(CNN)编码器,该编码器可以从训练图像中回归相机姿态。通过将缩小的训练图像传递给一个四层CNN来推断相机姿态。这个CNN从噪声中初始化,不需要预训练。其容量如此之小,以至于它迫使看起来相似的图像具有相似的姿态,从而为收敛提供了一个隐式的正则化。

第二项技术是模除损失(modulo loss),它同时考虑了物体的伪对称性。对于每个训练图像,研究团队从一组固定的视点渲染物体,只通过与训练图像最匹配的视图进行损失的反向传播。这有效地考虑了每张图像的多个视图的可能性。实际上,研究团队发现,在大多数情况下,N=2视图(从物体的另一侧观察)就足够了,但有时对于方形物体使用N=4可以获得更好的结果。

这两种技术被整合到标准的NeRF训练中,除了相机姿态不是固定的,而是由CNN推断并通过模除损失复制。光度梯度通过最佳匹配的相机反向传播到CNN中。研究团队观察到,相机通常会迅速收敛到全局最优姿态。在神经场训练完成后,MELON可以使用标准的NeRF渲染方法合成新的视图。

研究团队简化了问题,使用了NeRF合成数据集,这是NeRF研究的一个流行基准,并且在姿势推断文献中很常见。这个合成数据集的相机位于精确固定的距离,并且具有一致的“向上”方向,研究团队需要推断的只是相机的极坐标。这就像一个物体位于球体中心,相机始终指向它,在表面上移动一样。然后研究团队只需要纬度和经度(2个自由度)来指定相机姿势。

MELON使用了一个动态训练的轻量级CNN编码器,该编码器可以为每张图像预测一个姿态。通过模除损失复制预测的姿态,该损失只惩罚与地面真实颜色的最小L2距离。在评估时,神经场可以用于生成新的视图。

为了评估MELON在NeRF合成数据集上的性能,研究团队计算了两个关键指标。地面真实姿势与推断姿势之间的方向

误差可以量化为单一的角度误差,该误差在所有训练图像中平均计算,得到姿势误差。接着,研究团队通过测量从新视角渲染的MELON物体与保留测试视图的峰值信号噪声比(PSNR)来测试MELON渲染物体的准确性。结果显示,MELON在训练的前1000步内快速收敛到大多数相机的大致姿势,并在50k步后达到了27.5 dB的竞争性PSNR。

MELON在优化过程中对玩具卡车模型的收敛表现。左侧:NeRF的渲染图。右侧:极坐标图显示预测的(蓝色X标记)与地面真实(红点)相机的位置。MELON对NeRF合成数据集中的其他场景也取得了类似的结果。

此外,MELON还在从极度嘈杂的未定位图像进行新视角合成时表现良好。研究团队向训练图像中添加了不同量的白高斯噪声。例如,尽管在σ=1.0的情况下物体几乎无法辨认,但MELON仍能确定姿势并生成物体的新视图。

MELON从极嘈杂的未定位128×128图像中合成新视图的能力。顶部:训练视图中存在的噪声水平示例。底部:从嘈杂训练视图重建的模型及其平均角度姿势误差。考虑到如RawNeRF这样的技术已展示了NeRF在已知相机姿势下的出色去噪能力,MELON在未知相机姿势的嘈杂图像上如此稳健地工作的事实是意料之外的。

总结,MELON是一种无需近似姿势初始化、复杂的GAN训练计划或预训练有标签数据即可确定以物体为中心的相机姿势并重建3D物体的技术。MELON是一种相对简单的技术,可以轻松地集成到现有的NeRF方法中。尽管研究团队只在合成图像上演示了MELON的应用,但他们正在调整其技术以适应现实世界的条件。了解更多信息,请参阅相关论文和MELON网站。

MELON: NeRF with Unposed Images Using Equivalence Class Estimation

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1535722.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【图解物联网】第1章 物联网的基础知识

1.1 物联网入门 1.1.1 物联网 物联网的英语是Internet of Things,缩写为IoT,这里的“物”指的是我们身边一切能与网络相连的物品。只要能与网络相连,就都是物联网说的“物”。 物联网就是“物”之间通过连接互联网来共享信息并产生…

九型人格测试适用于什么场景和群体?

九型人格起源于希腊的九和图,后来人们根据现实需求不断的进行改进,才形成了我们今天看到的九型人格测试。其理论基础源远流长,应用在生活中的各个领域,不同的群体不同的需求,都能从九型人格中获益。 九型人格理论把人格…

python 爬取杭州小区挂牌均价

下载chrome驱动 通过chrome浏览器的 设置-帮助-关于Google Chrome 查看你所使用的Chrome版本 驱动可以从这两个地方找: 【推荐】https://storage.googleapis.com/chrome-for-testing-publichttp://npm.taobao.org/mirrors/chromedriver import zipfile import os import r…

UE4 Json事件设置Asset值(Asset如果都在同一目录下)

通过Json事件来设置,比如骨骼网格体(换皮)等等

使用FlinkCDC从mysql同步数据到ES,并实现数据检索

文章目录 一、背景一、环境准备1、创建ES索引2、创建mysql数据表 二、使用FlinkCDC同步数据1、导包2、demo3、es工具类 三、测试1、先创建几条数据2、启动cdc3、查询es4、增删改几条数据进行测验 一、背景 随着公司的业务量越来越大,查询需求越来越复杂&#xff0c…

【异质集成】高k复杂氧化物栅介质在GaN HEMTs上的异质集成

COMMUNICATIONS ENGINEERING | (2024) 3:15论文阅读。 文章讨论了高k复杂氧化物栅介质在宽带隙高电子迁移率晶体管(HEMTs)上的异质集成。 其核心内容的总结如下: 研究背景: 异质集成不同晶体材料因其在高性能多功能电子和光子…

linux之shell脚本基础

1.构建基础脚本 1.1 创建shell脚本 1.1.1 第一行需要指定使用的shell # 用作注释行.shell并不会处理脚本中的注释行,但是第一行的注释,会告诉shell使用哪个shell来运行脚本. #!/bin/bash 1.1.2 让shell找到你的脚本 直接运行脚本会提示-bash: a.sh: command not found.因…

C#,图片分层(Layer Bitmap)绘制,反色、高斯模糊及凹凸贴图等处理的高速算法与源程序

1 图像反色Invert 对图像处理的过程中会遇到一些场景需要将图片反色,反色就是取像素的互补色,比如当前像素是0X00FFFF,对其取反色就是0XFFFFFF – 0X00FFFF = 0XFF0000,依次对图像中的每个像素这样做,最后得到的就是原始2 图像的反色。 2 高斯模糊(Gauss Blur)算法 …

opengl 学习(六)-----坐标系统与摄像机

坐标系统与摄像机 分类引言坐标系统摄像机教程在CMake中使用全局定义预编译宏,来控制是否开启错误检查补充 分类 opengl c 引言 OpenGL希望在每次顶点着色器运行后,我们可见的所有顶点都为标准化设备坐标(Normalized Device Coordinate, NDC)。也就是说&#xff…

电脑数字键盘充当上下左右键怎么解决

搜索鼠标键把下面这个按钮关掉就好了

垃圾回收-垃圾回收中的相关概念

目录 System.gc()的理解 内存泄漏(Memory Leak) 内存溢出(OOM) Stop The World 垃圾回收的串行、并行与并发 安全点与安全区域 强、软、弱、虚引用 强、软、弱、虚引用 终结器引用 System.gc()的理解 在默认情况下&#…

【项目】基于YOLOv8和RotNet实现圆形滑块验证码(拼图)自动识别(通过识别中间圆形的角度实现)

TOC 一、引言 1.1 实现目标 要达到的效果是使用算法预测中间圆形的角度,返回给服务器,实现自动完成验证码的问题。要实现的内容如下图所示。 1.2 实现思路 思路1(效果较差):以RotNet要实现的验证码识别为灵感&…

【技术栈】Redis 的理解与数据存储格式

SueWakeup 个人主页:SueWakeup 系列专栏:学习技术栈 个性签名:保留赤子之心也许是种幸运吧 本文封面由 凯楠📸 友情提供 目录 相关传送门 1. NOSQL和关系型数据库比较 2. 主流的NOSQL产品 3. Redis的理解 4. redis数据存储格式…

Golang标准库fmt深入解析与应用技巧

Golang标准库fmt深入解析与应用技巧 前言fmt包的基本使用打印与格式化输出函数Print系列函数格式化字符串 格式化输入函数小结 字符串格式化基本类型的格式化输出自定义类型的格式化输出控制格式化输出的宽度和精度小结 错误处理与fmt使用fmt.Errorf生成错误信息fmt包与错误处理…

vue/vite添加地图

最简单的方式&#xff0c;不论vue2、vue3、vite均适用&#xff0c;例如以高德为例&#xff1a; index.html 引入 <scriptsrc"https://webapi.amap.com/maps?v1.4.15&key您的key&pluginAMap.ToolBar,AMap.MouseTool,AMap.DistrictSearch,AMap.ControlBar&quo…

filezilla客户端的应用以及ftplftpwget的用法

filezilla的应用 用户的配置查看上一篇文章FTP3种用户的配置 进入filezilla软件测试 用yy用户登录发现可以上传下载创建删除 再用cc用户登录发现不能上传不能删除不能创建只能下载 ftp&lftp&wget客户端的应用 以命令行的方式连接ftp&#xff0c;一般只会用到上…

MAC废纸篓删掉还能复原吗 MAC废纸篓倾倒掉的文件怎么恢复 删除的东西在哪里可以找回来 怎么找回已删除的文件

MAC系统中的废纸篓&#xff08;Trash&#xff09;通常指用来临时存放用户即将丢弃的文件的地方。MAC系统的废纸篓功能相当于Windows系统的垃圾回收站&#xff0c;通过废纸篓删除的文件&#xff0c;一般是无法从系统中操作还原。那么&#xff0c;MAC废纸篓删掉还能复原吗&#x…

Linux系统(四)- 进程初识 | 环境变量 | 进程地址空间

~~~~ 前言冯诺依曼体系结构&#xff08;重要&#xff09;总览CPU工作方式什么是指令集&#xff1f;CPU为什么只和内存打交道&#xff08;数据交换&#xff09;&#xff1f;木桶效应&#xff1a;在数据层面的结论程序运行为什么要加载到内存&#xff1f; 进一步理解计算机体系结…

应用APM-如何配置Prometheus + Grafana监控springboot应用

文章目录 概述在Spring Boot应用中集成Micrometerspringboot配置修改 Docker安装Prometheus和Grafanaprometheus配置grafana配置启动Prometheus和Grafana在Grafana中配置数据源创建Grafana仪表盘配置Grafana告警&#xff08;可选&#xff09;监控和分析 概述 配置Prometheus和…

NASA数据集——2017 年来自 Arctic-CAP 的大气中 CO、CO2 和 CH4 浓度剖面图

简介 ABoVE: Atmospheric Profiles of CO, CO2 and CH4 Concentrations from Arctic-CAP, 2017 文件修订日期&#xff1a;2019-05-01 数据集版本: 1 数据集摘要 本数据集提供了 2017 年 4 月至 11 月北极碳飞机剖面&#xff08;Arctic-CAP&#xff09;月度采样活动期间阿拉…