HaLo-NeRF:利用视觉和语言模型对场景的精准定位和细粒度语义理解

news2024/12/28 19:30:48

包含大量摄影师拍摄的照片的互联网图像集有望实现对大型旅游地标的数字探索。然而,先前的工作主要集中在几何重建和可视化上,忽略了语言在为导航和细粒度理解提供语义界面方面的关键作用。

项目:HaLo-NeRF: Learning Geometry-Guided Semantics for Exploring Unconstrained Photo Collections

更多消息:
AI人工智能行业动态,aigc应用领域资讯

在受限的 3D 领域中,最近的方法利用视觉和语言模型作为 2D 视觉语义的强大先验。虽然这些模型表现出对广泛视觉语义的出色理解,但由于缺乏建筑领域的专业知识,它们难以处理描绘此类旅游地标的不受约束的照片集。在这项工作中,他们提出了一个定位系统,通过利用 SOTA 视觉和语言模型的力量以及理解地标场景语义的适应性,将描绘大规模地标的场景的神经表示与描述场景内语义区域的文本连接起来。为了用细粒度的知识支持此类模型,他们利用包含相似地标图像以及弱相关文本信息的大规模互联网数据。

他们的方法建立在这样的前提之上:物理上基于空间的图像可以为本地化新概念提供强大的监督信号,其语义可以通过大型语言模型从互联网文本元数据中解锁。他们使用场景视图之间的对应关系来引导对这些语义的空间理解,为最终提升为体积场景表示的 3D 兼容分割提供指导。 他们的结果表明,HaLo-NeRF 可以准确定位与建筑地标相关的各种语义概念,超越了其他 3D 模型以及强大的 2D 分割基线的结果。

实现方法

他们的目标是对互联网照片集捕获的地标场景执行文本驱动的神经 3D 定位。换句话说,给定这组图像和描述场景中语义概念的文本提示,他们想知道HaLo-NeRF在 3D 空间中的位置。这些图像是在野外拍摄的,这意味着它们可能是在不同季节、一天中的时间、视角和距地标的距离拍摄的,并且可能包括短暂的遮挡。

HaLo-NeRF为了在 3D 空间中定位独特的建筑特征地标,他们利用强大的现代基础模型进行视觉和文本理解。尽管在一般多模态理解方面取得了进展,但现代 VLM 仍难以在建筑地标上定位细粒度的语义概念,正如他们在结果中广泛展示的那样。建筑领域使用专门的词汇,术语在一般用法中很少见。

为了解决这些挑战,他们设计了一个三阶段系统:(a)他们使用大型语言模型(LLM)从嘈杂的互联网图像元数据中提取语义伪标签。 (b) 他们使用这些伪标签和场景视图之间的对应关系来学习图像级和像素级语义。特别是,他们使用多视图监督微调图像分割模型(CLIPSegFT),其中放大视图及其相关的伪标签(例如与术语“鼓室”相关的左侧图像)提供监督信号用于缩小视图。 (c) 然后,他们提升这种语义理解,以学习新的、看不见的地标(例如右侧描绘的圣保罗大教堂)的体积概率,从而允许使用受控的视点和照明设置渲染分段场景的视图。

此外,他们还显示了下面的可视化效果,将 HaLo-NeRF(左)与 Baseline 模型(右)进行比较,后者使用 CLIPSeg 模型而不进行微调。两个视频都显示了相同的 RGB 渲染时间序列,仅在所描述的概率上有所不同(取自他们的模型或基线)。请注意,一旦放大,他们就会关闭两个模型的概率,以便更好地查看目标语义区域。每个视频上方都写有目标文本提示,右侧是地标名称。如下图所示,他们的模型产生了明显更清晰的概率,可以更好地定位语义区域,特别是对于建筑地标领域之外不太常见的独特概念。他们还以多种外观可视化放大区域(对于他们的模型,保持基线模型的外观固定)。主论文中说明了来自 HolyScenes 基准的其他提示和地标的结果。

这项技术有几个重要的用途:

  1. 导航和定位:通过这项技术,用户可以更精确地找到地标场景中的特定区域或对象。这对于旅游导航、城市规划或者虚拟现实(VR)体验中的定位都非常重要。
  2. 增强现实(AR)和虚拟现实(VR)应用:通过提供详细的3D定位和语义信息,这项技术可以为AR和VR应用提供更加丰富和真实的场景渲染。用户可以在虚拟环境中更自然地与地标进行交互,获得更加沉浸式的体验。
  3. 文化遗产保护和展示:对于历史建筑和文化遗产,这项技术可以用于创建数字模型,进行保护和展示。通过精确的定位和语义理解,可以还原建筑的原始风貌,为学者和游客提供更加深入的了解和体验。
  4. 智能图像检索:用户可以通过输入文本描述来检索与特定地标相关的图像,或者找到图像中特定语义区域的详细信息。
  5. 自动化地标识别:这项技术可以应用于自动驾驶车辆、无人机或其他机器人设备,帮助它们更好地识别和理解地标场景,从而实现更精准的导航和任务执行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1634850.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ansible自动化运维工具主机清单配置

作者主页:点击! Ansible专栏:点击! 创作时间:2024年4月24日12点21分 Ansible主机清单文件用于定义要管理的主机及其相关信息。它是Ansible的核心配置文件之一,用于Ansible识别目标主机并与其建立连接。 …

win10安装DHCP服务--用于2台机器之间搭建简易网络来进入目标机器修改配置

前言: 客户多了,往往会出现各种突发情况。 比如一个客户现场没有DHCP,没有显示器,键盘。 你只有一台笔记本的情况下要配置目标机器的网络。要如何配置?? 这时候就可以使用这篇博客提供的方式了。 Windows…

分布式与一致性协议之CAP和Paxos算法(一)

CAP 理论 如何使用BASE理论 以InfluxDB系统中DATA节点的集群实现为例。DATA节点的核心功能是读和写,所以基本可用是指读和写的基本可用。我们可以通过分片和多副本实现读和写的基本可用。也就是说,将同一业务的数据先分片,再以多份副本的形…

STM32驱动SYN6288语音合成模块

STM32驱动SYN6288语音合成模块 简介功能特点通讯方式接线代码结果总结 简介 SYN6288通过异步串口(UART) 通讯方式,接收待合成的文本数据,从而实现文本到语音的转换SYN06188 语音芯片的优秀特点:最小SS0P28L 贴片封装、硬件接口简单、低功耗、音色清亮圆…

C++中auto关键字的用法详解

1.简介 auto作为一个C语言就存在的关键字,在C语言和C之间却有很大区别。 在C语言中auto修饰的变量,是具有自动存储器的局部变量,但因为局部变量默认类别默认是auto修饰导致一直没有人去使用它。 C11中,标准委员会赋予了auto全新…

Linux学习笔记:进程间的通信.共享内存shm

共享内存shm 什么是共享内存shm共享内存的特点关键函数ftokshmgetshmatshmdtshmctl 代码示例 什么是共享内存shm 进程间通信的前提:必须让不同的进程看到同一份资源,并且这个资源是OS提供的 而共享内存(Share memory)就是在内核共享内存区找一块物理内存空间,并允许多个进程共…

西瓜书学习——决策树形状、熵和决策树的本质

文章目录 决策树形状监督学习算法分类与回归 熵信息熵香农熵 (Shannon Entropy) - H(X)联合熵 (Joint Entropy) - H(X, Y)条件熵 (Conditional Entropy) - H(Y|X)互信息 (Mutual Information) - I(X; Y)相对熵 (Relative Entropy) / KL散度 (Kullback-Leibler Divergence) - DK…

学习CSS3,实现红色心形loading特效

试想一下,如果你的网站在加载过程中,loading图由一个老旧的菊花转动图片,变为一个红色的心形loading特效,那该有多炫酷啊。 目录 实现思路 初始化HTML部分 延迟动画是重点 设定动画效果 完整源代码 最后 实现思路 每个…

怎样批量将jpg图片转换成HEIC格式?jpg快速转换成HEIC图片

heic格式和jpg格式图片大家都很熟悉了。那么这两种图片格式的区别是什么?哪种格式图片更好一些? 一,区别:jpg和HEIC的区别 1,jpg格式有良好的压缩性能和良好的重建质量而被广泛应用于图像和视频处理中。 2&#xff…

HarmonyOS实战开发-RPC连接、如何实现前台选择商品和数目,后台计算总价的功能

介绍 本示例使用ohos.rpc 相关接口,实现了一个前台选择商品和数目,后台计算总价的功能,使用rpc进行前台和后台的通信。 效果预览 使用说明: 点击商品种类的空白方框,弹出商品选择列表,选择点击对应的商品…

常用工具网站

代码生成器: SQL转Java代码生成器 | 不求人导航SQL转Java代码生成器https://codegen.bqrdh.com/

面试题-Redis篇

什么是 Redis? Redis 是完全开源免费的,遵守 BSD 协议,是一个高性能的 key-value 数据库。 Redis 与其他 key - value 缓存产品有以下三个特点: Redis 支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时 …

windows10 H2database 安装教程

1. 下载https://www.h2database.com/html/download.htmlhttps://www.h2database.com/html/download.html 具体版本可以根据项目配置的版本 2. 安装 3.手动启动 安装完后默认启动,如退出后需手动启动则在安装目录下启动。 启动完,在桌面右下角会出现小图…

春游江淮 请来池州 | 五一池州文旅活动时间表大集合,都在这里

快到五一,想好去哪里玩吗?来池州,各景区缤纷活动登场, 速速划重点、敲黑板! 五一放大招!到底怎么玩?文旅活动、阅读推广 非遗展示......现在都已经为你整理好啦!这份超齐全的 五一假期文旅活动时间表,助力您玩转各景区,整个假期嗨不停~ 旅游惠民活动 表演类活动…

一、初识Django

简介 Django 是一个用于构建 Web 应用程序的高级 Python Web 框架。 版本对应 不同版本的django框架是基于特定的不同的python版本开发的,所以不同版本的django框架要正常执行功能只能安装特定的python版本 Django安装 安装 Django # 全局安装 pip install dj…

Python | Leetcode Python题解之第50题Pow(x,n)

题目: 题解: class Solution:def myPow(self, x: float, n: int) -> float:def quickMul(N):ans 1.0# 贡献的初始值为 xx_contribute x# 在对 N 进行二进制拆分的同时计算答案while N > 0:if N % 2 1:# 如果 N 二进制表示的最低位为 1&#xf…

Java面试八股之简述Java中assert的作用

简述Java中assert的作用 Java中的assert关键字用于在代码中插入断言(Assertion),断言是一种在开发和测试阶段用于验证程序内部状态或假设的机制。其主要作用包括: 条件检查: assert语句用于在特定代码点上检查一个布…

2024年【氧化工艺】最新解析及氧化工艺复审模拟考试

题库来源:安全生产模拟考试一点通公众号小程序 氧化工艺最新解析是安全生产模拟考试一点通总题库中生成的一套氧化工艺复审模拟考试,安全生产模拟考试一点通上氧化工艺作业手机同步练习。2024年【氧化工艺】最新解析及氧化工艺复审模拟考试 1、【单选题…

小白也能看懂,手机短信恢复方法其实很简单!

手机短信是我们日常生活中不可或缺的一部分,有时候我们可能会不小心删除了一些重要的短信,有没有手机短信恢复方法呢?别担心,本文将为您介绍3个手机短信恢复的方法,让您轻松找回丢失的短信。 方法一:通过短…

80 行 JS 代码实现页面添加水印:文字水印、多行文字水印、图片水印、文字图片水印

80 行 JS 代码实现页面添加水印:文字水印、多行文字水印、图片水印、文字&图片水印 一、水印概括 1. 添加水印的好处 信息标识: 水印可以用于标识文档的所有者、保密级别、状态或其他相关信息,帮助用户更好地理解文档内容的属性版权保…