每日学术速递4.26

news2025/1/4 18:45:24

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.AutoNeRF: Training Implicit Scene Representations with Autonomous Agents

标题:AutoNeRF:使用自主代理训练隐式场景表示

作者:Pierre Marza, Laetitia Matignon, Olivier Simonin, Dhruv Batra, Christian Wolf, Devendra Singh Chaplot

文章链接:https://arxiv.org/abs/2304.11241

项目代码:https://pierremarza.github.io/projects/autonerf/

摘要:

        神经辐射场 (NeRF) 等隐式表示已被证明在新视图合成方面非常有效。然而,这些模型通常需要手动和仔细的人类数据收集来进行训练。在本文中,我们介绍了 AutoNeRF,这是一种使用自主体现代理收集训练 NeRF 所需数据的方法。我们的方法允许代理有效地探索看不见的环境,并利用经验自主构建隐式地图表示。我们比较了不同探索策略的影响,包括手工制作的基于前沿的探索和由训练有素的高级规划者和经典的低级路径追随者组成的模块化方法。我们使用针对此问题量身定制的不同奖励函数来训练这些模型,并评估学习表示在四种不同下游任务上的质量:经典视点渲染、地图重建、规划和姿态优化。实证结果表明,NeRF 可以在未见过的环境中仅使用一次经验就可以根据主动收集的数据进行训练,并且可以用于多个下游机器人任务,并且经过模块化训练的探索模型明显优于经典基线。

2.Segment Anything in 3D with NeRFs

标题:使用 NeRFs 在 3D 中分割任何东西

作者:Jiazhong Cen, Zanwei Zhou, Jiemin Fang, Wei Shen, Lingxi Xie, Xiaopeng Zhang, Qi Tian

文章链接:https://arxiv.org/abs/2304.12308

项目代码:https://jumpat.github.io/SA3D/

摘要:

        Segment Anything Model (SAM) 已证明其在各种 2D 图像中分割任何对象/部分的有效性,但其 3D 能力尚未得到充分探索。现实世界由无数的 3D 场景和物体组成。由于可访问的 3D 数据稀缺及其获取和注释的高成本,将 SAM 提升到 3D 是一个具有挑战性但有价值的研究途径。考虑到这一点,我们提出了一个新的框架来在 3D 中分割任何东西,称为 SA3D。给定神经辐射场 (NeRF) 模型,SA3D 允许用户在单个渲染视图中仅通过一次性手动提示获得任何目标对象的 3D 分割结果。根据输入提示,SAM 从相应的视图中剪切出目标对象。获得的 2D 分割蒙版通过密度引导逆渲染投影到 3D 蒙版网格上。然后渲染来自其他视图的 2D 蒙版,这些蒙版大部分未完成,但用作跨视图自我提示以再次输入 SAM。可以获得完整的蒙版并将其投影到蒙版网格上。此过程通过迭代方式执行,最终可以学习到准确的 3D 蒙版。SA3D无需任何额外的重新设计即可有效适应各种辐射场。整个分割过程可以在大约两分钟内完成,无需任何工程优化。我们的实验证明了 SA3D 在不同场景中的有效性,突出了 SAM 在 3D 场景感知中的潜力。

Subjects: cs.AI

3.CLaMP: Contrastive Language-Music Pre-training for Cross-Modal Symbolic Music Information Retrieval

标题:CLaMP:用于跨模态符号音乐信息检索的对比语言-音乐预训练

作者:Shangda Wu, Dingyao Yu, Xu Tan, Maosong Sun

文章链接:https://arxiv.org/abs/2304.11029

项目代码:https://github.com/microsoft/muzic/tree/main/clamp

摘要:

        我们介绍了 CLaMP:对比语言-音乐预训练,它使用音乐编码器和文本编码器通过对比损失联合训练来学习自然语言和符号音乐之间的跨模态表示。为了预训练 CLaMP,我们收集了 140 万个音乐文本对的大型数据集。它采用文本丢失作为数据增强技术和条形修补来有效地表示音乐数据,从而将序列长度减少到不到 10%。此外,我们开发了一个掩码音乐模型预训练目标,以增强音乐编码器对音乐背景和结构的理解。CLaMP 集成了文本信息,可以对符号音乐进行语义搜索和零样本分类,超越了之前模型的能力。为了支持语义搜索和音乐分类的评估,我们公开发布了 WikiMusicText (WikiMT),这是一个包含 1010 个 ABC 符号表的数据集,每个表都附有标题、艺术家、流派和描述。与需要微调的最先进模型相比,零样本 CLaMP 在面向分数的数据集上表现出相当或更优的性能。我们的模型和代码可从这个 https URL 获得。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/462751.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

macOS 13.4Beta 3(22F5049e)发布

系统介绍 4 月 26 日消息,苹果今日向 Mac 电脑用户推送了 macOS 13.4 开发者预览版 Beta 3 更新(内部版本号:22F5049e),本次更新距离上次发布隔了 14 天。 macOS Ventura 带来了台前调度、连续互通相机、FaceTime 通…

Go | 一分钟掌握Go | 5 - 切片

作者:Mars酱 声明:本文章由Mars酱编写,部分内容来源于网络,如有疑问请联系本人。 转载:欢迎转载,转载前先请联系我! 说明 切片和数组有点像,对于我的理解就是声明了固定长度的就是数…

「 Redis 」RDB和AOF持久化全面解析

「 Redis 」RDB和AOF持久化全面解析 参考&鸣谢 【说透Redis】10分钟彻底理解Redis的持久化机制:RDB和AOF 程序员读书 AOF 持久化是怎么实现的? xiaolinCoding Redis持久化之RDB与AOF 的区别 1024下午茶 文章目录 「 Redis 」RDB和AOF持久化全面解析前…

设计模式之解释器模式(C++)

作者:翟天保Steven 版权声明:著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处 一、解释器模式是什么? 解释器模式是一种行为型的软件设计模式,定义了一个解释器,来解释给定语…

C语言函数大全-- q 开头的函数

C语言函数大全 本篇介绍C语言函数大全-- q 开头的函数 1. qsort 1.1 函数说明 函数声明函数功能void qsort(void *base, size_t nmemb, size_t size, int (*compar)(const void *, const void *));用于将指定数组按指定顺序进行排序 参数: base : 指…

2023年,企业如何做好团队知识管理?

团队知识管理是一个组织管理中非常重要的组成部分。成熟的企业通常会非常注重团队知识管理的实践,以提高团队的协作效率和整体绩效。本文将介绍成熟企业如何做好团队知识管理,以提高企业的竞争力和创新能力。 一、了解团队知识管理的重要性 团队知识管…

【网络进阶】五种IO网络模型(二)

文章目录 1. 多路复用IO2. 异步IO3. 信号驱动IO 1. 多路复用IO I/O多路复用这个术语可能对一些人来说比较陌生,但提到select/epoll,就容易理解了。在某些场景下,这种I/O方式也被称为事件驱动I/O(event-driven I/O)。我…

[Gitops--5]APISIX

APISIX Apache APISIX是一款开源的高性能,动态云原生网关.Apache APISIX当前已经覆盖了API网关,LB,Ingress,Service,Mesh等多种场景 1. APISIX部署 使用Helm Chart部署Apache APISIX Ingress Controller Apache APISIX Ingress Controller目前和Apache APISIX网关是强关联的…

基于html+css的图展示34

准备项目 项目开发工具 Visual Studio Code 1.44.2 版本: 1.44.2 提交: ff915844119ce9485abfe8aa9076ec76b5300ddd 日期: 2020-04-16T16:36:23.138Z Electron: 7.1.11 Chrome: 78.0.3904.130 Node.js: 12.8.1 V8: 7.8.279.23-electron.0 OS: Windows_NT x64 10.0.19044 项目…

GoodSync 数据自动同步备份工具VS傲梅轻松备份系统数据备份工具 哪款更好?

备份和同步软件的使用越来越广泛,因为在这个数据驱动的时代,数据的备份和恢复非常重要。在这里我想向大家推荐两款备份和同步软件——GoodSync和傲梅轻松备份。 GoodSync是一款备份和同步软件,它可以在多个设备之间同步文件、文件夹、照片、音…

在电脑上剪辑视频用什么软件 如何在电脑上剪辑视频

工作中需要剪辑视频的场景越来越多了,视频剪辑已经成了打工人必备技能之一。但对很多新手小白来说,剪辑视频看起来比较困难,那可能是没有找到合适的软件和方法,下面就为大家介绍在电脑上剪辑视频用什么软件,如何在电脑…

Xcode14 设置Display Name不生效问题

一、前言 早在Xcode13苹果就对Info.plist做了一次大改革,新建的OC项目默认Info.plist文件是“空的”,Swift项目甚至干脆连Info.plist文件都没有了,苹果这样做是为了建立一个新的Info.plist管理方式,把Info.plist物理文件中的配置…

对数据库中存储的程序进行现代化改造,以使用 Amazon Aurora PostgreSQL 联合查询、pg_cron 和 Amazon Lambda

作为数据库迁移和现代化的一部分,您可以继续使用存储的程序和调度作业,将远程实例中的数据整合到集中式数据存储中。 Amazon Schema Conversion Tool(Amazon SCT)可帮助您将传统的 Oracle 和 SQL Server 函数转换为其等效的开源函…

PDF 预览和下载你是怎么实现的?

前言 在开发过程中要求对 PDF 类型的发票提供 预览 和 下载 功能,**PDF** 类型文件的来源又包括 H5 移动端 和 **PC 端**,而针对这两个不同端的处理会有些许不同,下文会有所提及。 针对 PDF 预览 的文章不在少数,但似乎都没有提…

排查和解决CentOS系统上Nacos服务启动报错“java.net.UnknownHostException: jmenv.tbsite.net“问题

背景 环境是CentOS7操作系统,nacos服务宕掉了,启动服务的时候报错。 Caused by: org.springframework.beans.BeanInstantiationException: Failed to instantiate [org.springframework.boot.web.servlet.FilterRegistrationBean]: Factory method ‘di…

太酷啦,Transformer 的有效上下文长度可扩展至百万级

夕小瑶科技说 原创作者 | 智商掉了一地、iven 用 Recurrent Memory Transformer 架构:可输入长度取决于内存大小 Transformer 因其在自然语言处理领域的成功应用而备受瞩目,同时在计算机视觉领域的研究中,诸多的多模态大模型如 ViT、CLIP、BL…

iperf3使用教程

文章目录 简介1.下载2. 使用测试实例:案例一 TCP通信测试案例二:UDP测试案例三 传输东西进行测试 iperfs3简单使用样例 简介 iPerf3是用于主动测试IP网络上最大可用带宽的工具。它支持时序、缓冲区、协议(TCP,UDP,SCT…

软件测试方法——等价类划分法详解

1、等价类划分法的介绍和概念 划分 指互不相交的一组子集,这些子集的并是整个集合。 对测试的意义:完备性和无冗余性。 等价类 等价类是指某个输入域的子集合。在该子集合中,各个输入数据对于揭露程序中的错误都是等效的,具有等…

23.4.25总结

复习了MYSQL数据库的主键和外键的知识: 在设计表时,可以通过外键这个按钮,更改Update rule(更新规则)和Delete rule(删除规则)。 外键行为 默认情况下是:NO ACTION、RESTRICT 两…

传统机器学习(七)支持向量机(1)超平面、SVM硬间隔、软间隔模型和损失函数

传统机器学习(七)支持向量机(1) 1 算法概述 1.1 超平面的理解 1.1.1 超平面公式 我们对“平面”概念的理解,一般是定义在三维空间中的,如下: 假设M和M0为平面上的两点,n为该平面的法向量,那么,通过下图…