每日学术速递3.10

news2026/4/4 4:02:58

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.RO

1.Diffusion Policy: Visuomotor Policy Learning via Action Diffusion

标题：扩散策略：通过动作扩散进行视觉运动策略学习

作者：Cheng Chi, Siyuan Feng, Yilun Du, Zhenjia Xu, Eric Cousineau, Benjamin Burchfiel, Shuran Song

文章链接：https://arxiv.org/abs/2303.04137

项目代码：https://diffusion-policy.cs.columbia.edu/

摘要：

本文介绍了扩散策略，这是一种通过将机器人的视觉运动策略表示为条件去噪扩散过程来生成机器人行为的新方法。我们对来自 4 个不同机器人操作基准的 11 个不同任务的扩散策略进行基准测试，发现它始终优于现有的最先进的机器人学习方法，平均提高 46.9%。扩散策略学习动作分布得分函数的梯度，并在推理过程中通过一系列随机朗之万动力学步骤针对该梯度场进行迭代优化。我们发现扩散公式在用于机器人策略时具有强大的优势，包括优雅地处理多模态动作分布、适用于高维动作空间以及表现出令人印象深刻的训练稳定性。为了充分释放物理机器人视觉运动策略学习扩散模型的潜力，本文提出了一系列关键技术贡献，包括后退视界控制、视觉调节和时间序列扩散变换器的结合。我们希望这项工作将有助于激发能够利用扩散模型强大的生成建模能力的新一代策略学习技术。代码、数据和培训细节将公开。

Subjects: cs.CL

2.Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling

标题：用你自己的声音说外语：跨语言神经编解码器语言建模

作者：Ziqiang Zhang, Long Zhou, Chengyi Wang, Sanyuan Chen, Yu Wu, Shujie Liu, Zhuo Chen

文章链接：https://arxiv.org/abs/2303.03926

项目代码：https://vallex-demo.github.io/

摘要：

我们提出了一种用于跨语言语音合成的跨语言神经编解码器语言模型 VALL-E X。具体来说，我们扩展 VALL-E 并训练多语言条件编解码器语言模型，以使用源语言语音和目标语言文本作为提示来预测目标语言语音的声学标记序列。VALL-E X 继承了强大的上下文学习能力，可应用于零样本跨语言文本到语音合成和零样本语音到语音翻译任务。实验结果表明，它可以仅通过源语言中的一个语音话语作为提示来生成目标语言的高质量语音，同时保留看不见的说话者的声音、情感和声学环境。此外，VALL-E X有效缓解了外国口音问题，可以通过语言ID来控制。

Subjects: cs.CV

3.Nerflets: Local Radiance Fields for Efficient Structure-Aware 3D Scene Representation from 2D Supervisio(CVPR 2023)

标题：Nerflets：来自 2D Supervisio 的高效结构感知 3D 场景表示的局部辐射场

作者：Xiaoshuai Zhang, Abhijit Kundu, Thomas Funkhouser, Leonidas Guibas, Hao Su, Kyle Genova

文章链接：https://arxiv.org/abs/2303.03361

摘要：

我们解决了图像中高效且结构感知的 3D 场景表示问题。Nerflets 是我们的主要贡献——一组共同代表场景的局部神经辐射场。每个 nerflet 都保持自己的空间位置、方向和范围，在这些位置、方向和范围内，它有助于全景、密度和辐射重建。通过仅利用光度和推断的全景图像监督，我们可以直接联合优化一组 nerflet 的参数，从而形成场景的分解表示，其中每个对象实例由一组 nerflet 表示。在室内和室外环境的实验中，我们发现 nerflet：(1) 比传统的全局 NeRF 更有效地拟合和近似场景，(2) 允许从任意视图提取全景和光度渲染，以及 (3) 启用任务稀有用于 NeRF，例如 3D 全景分割和交互式编辑。

更多Ai资讯：公主号AiCharm
在这里插入图片描述