每日学术速递5.30

news2025/7/7 1:59:29

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using RGB and Poses(CVPR 2023 Highlight)

标题：加速坐标编码：学习使用 RGB 和姿势在几分钟内重新定位

作者：Eric Brachmann, Tommaso Cavallari, Victor Adrian Prisacariu

文章链接：https://arxiv.org/abs/2305.14059

摘要：

基于学习的视觉重定位器表现出领先的姿势准确性，但需要数小时或数天的培训。由于训练需要在每个新场景上再次进行，长时间的训练使得基于学习的重定位对于大多数应用来说是不切实际的，尽管它具有高精度的承诺。在本文中，我们展示了这样的系统如何在不到 5 分钟的时间内实际达到相同的精度。我们从显而易见的地方开始：重定位网络可以分为场景不可知的特征主干和场景特定的预测头。不太明显：使用 MLP 预测头允许我们在每次训练迭代中同时优化数千个视点。这导致稳定和极快的收敛。此外，我们使用稳健的姿势求解器将有效但缓慢的端到端训练替换为重投影损失的课程。我们的方法不需要特权知识，如深度图或 3D 模型，即可进行快速训练。总的来说，我们的方法在映射方面比最先进的场景坐标回归快 300 倍，同时保持相同的精度。

Subjects: cs.RO

2.Imitating Task and Motion Planning with Visuomotor Transformers

标题：使用 Visuomotor Transformers 模拟任务和运动规划

作者：Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox

文章链接：https://arxiv.org/abs/2305.16309

摘要：

模仿学习是训练机器人操作策略的强大工具，使它们无需手动编程或反复试验即可从专家演示中学习。然而，人工监督等常见的数据收集方法由于费时费力，因此难以扩展。相比之下，任务和运动规划 (TAMP) 可以自主生成各种演示的大规模数据集。在这项工作中，我们展示了由 TAMP 监督员生成的大规模数据集与适合它们的灵活 Transformer 模型的组合是机器人操作的强大范例。为此，我们提出了一种名为 OPTIMUS 的新型模仿学习系统，它通过模仿 TAMP 代理来训练大规模视觉运动 Transformer 策略。OPTIMUS 引入了一种用于生成 TAMP 数据的管道，该管道专门用于模仿学习，可用于训练基于 Transformer 的高性能策略。在本文中，我们对模仿 TAMP 所需的设计决策进行了全面研究，并证明 OPTIMUS 可以解决各种具有挑战性的基于视觉的操作任务，其中包含 70 多种不同的对象，包括远距离拾取和放置任务, 对货架和铰接物体的操纵，达到 70% 到 80% 的成功率。此 https 网址的视频结果

3.Iterative Forward Tuning Boosts In-context Learning in Language Models

标题：迭代前向调整促进语言模型中的上下文学习

作者：Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li

, Fei Huang, Yongbin Li

文章链接：https://arxiv.org/abs/2305.13016

项目代码：https://github.com/AlibabaResearch/DAMO-ConvAI

摘要：

大型语言模型 (LLM) 表现出一种新兴的上下文学习 (ICL) 能力。然而，可以解决普通案例的 ICL 模型很难通过一次处理演示示例来扩展到解决更复杂的任务。这种单轮 ICL 与人类通过类比学习的决策过程不协调。在本文中，我们提出了一种有效且高效的两阶段框架，通过利用 Transformer 注意力和基于梯度下降的优化之间的双重形式来提升 LLM 中的 ICL。具体来说，我们将 ICL 过程分为“深度思考”和推理阶段。“Deep-Thinking”阶段对演示进行迭代前向优化，通过多次“思考”演示，有望提升LLM在考试时的推理能力。它通过操纵 Transformer 的自注意力模块中的键值矩阵来产生累积的元梯度。然后，推理阶段仅将测试查询作为输入而不连接演示，并通过注意力应用学习的元梯度进行输出预测。这样，在推理阶段不需要演示，因为它们已经被学习并存储在最终的元梯度中。LLM 可以有效且高效地适应下游任务。对十个分类和多项选择数据集的大量实验表明，我们的方法在准确性和效率方面都比标准 ICL 取得了更好的性能。

更多Ai资讯：公主号AiCharm
在这里插入图片描述