每日学术速递5.30

news2025/1/13 7:30:56

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.Accelerated Coordinate Encoding: Learning to Relocalize in Minutes using RGB and Poses(CVPR 2023 Highlight)

标题:加速坐标编码:学习使用 RGB 和姿势在几分钟内重新定位

作者:Eric Brachmann, Tommaso Cavallari, Victor Adrian Prisacariu

文章链接:https://arxiv.org/abs/2305.14059

摘要:

        基于学习的视觉重定位器表现出领先的姿势准确性,但需要数小时或数天的培训。由于训练需要在每个新场景上再次进行,长时间的训练使得基于学习的重定位对于大多数应用来说是不切实际的,尽管它具有高精度的承诺。在本文中,我们展示了这样的系统如何在不到 5 分钟的时间内实际达到相同的精度。我们从显而易见的地方开始:重定位网络可以分为场景不可知的特征主干和场景特定的预测头。不太明显:使用 MLP 预测头允许我们在每次训练迭代中同时优化数千个视点。这导致稳定和极快的收敛。此外,我们使用稳健的姿势求解器将有效但缓慢的端到端训练替换为重投影损失的课程。我们的方法不需要特权知识,如深度图或 3D 模型,即可进行快速训练。总的来说,我们的方法在映射方面比最先进的场景坐标回归快 300 倍,同时保持相同的精度。

Subjects: cs.RO

2.Imitating Task and Motion Planning with Visuomotor Transformers

标题:使用 Visuomotor Transformers 模拟任务和运动规划

作者:Murtaza Dalal, Ajay Mandlekar, Caelan Garrett, Ankur Handa, Ruslan Salakhutdinov, Dieter Fox

文章链接:https://arxiv.org/abs/2305.16309

摘要:

        模仿学习是训练机器人操作策略的强大工具,使它们无需手动编程或反复试验即可从专家演示中学习。然而,人工监督等常见的数据收集方法由于费时费力,因此难以扩展。相比之下,任务和运动规划 (TAMP) 可以自主生成各种演示的大规模数据集。在这项工作中,我们展示了由 TAMP 监督员生成的大规模数据集与适合它们的灵活 Transformer 模型的组合是机器人操作的强大范例。为此,我们提出了一种名为 OPTIMUS 的新型模仿学习系统,它通过模仿 TAMP 代理来训练大规模视觉运动 Transformer 策略。OPTIMUS 引入了一种用于生成 TAMP 数据的管道,该管道专门用于模仿学习,可用于训练基于 Transformer 的高性能策略。在本文中,我们对模仿 TAMP 所需的设计决策进行了全面研究,并证明 OPTIMUS 可以解决各种具有挑战性的基于视觉的操作任务,其中包含 70 多种不同的对象,包括远距离拾取和放置任务, 对货架和铰接物体的操纵,达到 70% 到 80% 的成功率。此 https 网址的视频结果

3.Iterative Forward Tuning Boosts In-context Learning in Language Models

标题:迭代前向调整促进语言模型中的上下文学习

作者:Jiaxi Yang, Binyuan Hui, Min Yang, Binhua Li

, Fei Huang, Yongbin Li

文章链接:https://arxiv.org/abs/2305.13016

项目代码:https://github.com/AlibabaResearch/DAMO-ConvAI

摘要:

        大型语言模型 (LLM) 表现出一种新兴的上下文学习 (ICL) 能力。然而,可以解决普通案例的 ICL 模型很难通过一次处理演示示例来扩展到解决更复杂的任务。这种单轮 ICL 与人类通过类比学习的决策过程不协调。在本文中,我们提出了一种有效且高效的两阶段框架,通过利用 Transformer 注意力和基于梯度下降的优化之间的双重形式来提升 LLM 中的 ICL。具体来说,我们将 ICL 过程分为“深度思考”和推理阶段。“Deep-Thinking”阶段对演示进行迭代前向优化,通过多次“思考”演示,有望提升LLM在考试时的推理能力。它通过操纵 Transformer 的自注意力模块中的键值矩阵来产生累积的元梯度。然后,推理阶段仅将测试查询作为输入而不连接演示,并通过注意力应用学习的元梯度进行输出预测。这样,在推理阶段不需要演示,因为它们已经被学习并存储在最终的元梯度中。LLM 可以有效且高效地适应下游任务。对十个分类和多项选择数据集的大量实验表明,我们的方法在准确性和效率方面都比标准 ICL 取得了更好的性能。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/607956.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

阿里邮箱POP3/SMTP服务

最近发现一个问题,小伙伴给我发的邮件,收和回都不及时。于是我现在将所有的邮箱,通过POP3/SMTP协议整合到了一起。再配合小米手环,就能做到邮件无遗漏。 一、邮箱常用协议 邮箱中常用三类协议 POP3 Post Office Protocol versi…

Python numpy - 数组与矩阵的运算

目录 数组array 一 数组的函数 unique函数 sum函数 max函数 二 数组的加减 三 数组的乘除 矩阵matrix 一 矩阵的生成 二 矩阵的加减 三 矩阵的乘法 数组array 创建数组a和b用来运算(至少两个) import numpy as np a np.random.randint(10,siz…

Java网络开发(Tomcat)—— web的 请求request (post和get请求)和 响应response

目录 引出请求request1.带数据的请求初步2.用注解WebServlet代替配置文件3.表单form的请求4.get请求和post请求 响应response1.用户登陆前端显示一段话2.如何在前端显示一张表 转发和重定向1.请求转发---request2.响应重定向----response 【需求】表格显示在网页方案一&#xf…

自然语言处理从入门到应用——评价指标

分类目录:《自然语言处理从入门到应用》总目录 相关文章: 深入理解机器学习——机器学习模型的性能度量 由于自然语言处理任务的多样性以及评价的主观性,因此很难使用单一的评价指标衡量所有任务的性能,所以针对不同类型的任务&…

C++服务器框架开发9——日志系统LogFormatter_4/各个类的关系梳理/std::function/std::get

该专栏记录了在学习一个开发项目的过程中遇到的疑惑和问题。 其教学视频见:[C高级教程]从零开始开发服务器框架(sylar) 上一篇:C服务器框架开发8——日志系统LogFormatter_3/override/宏定义优化switchcase结构 C服务器框架开发9——日志系统LogFormatt…

3-10 0-1背包问题

1.什么是0-1背包问题 0-1背包问题是动态规划中的一个经典问题,其目标是在给定背包容量和一组物品的重量和价值的情况下,选择一些物品放入背包中,使得放入的物品总重量不超过背包容量,并且使得放入的物品总价值最大化。 问题的输…

低代码平台实力盘点:2023年最具实力的低代码平台排行榜

低代码平台是近年来迅猛发展的技术之一。它通过用最少量的编程代码去开发应用程序,从而提高效率。由此,许多企业都在使用低代码平台进行业务的开发和升级。低代码平台可以大幅简化编码过程,并且可以快速构建定制化的应用程序,从而…

GC 调优(工具篇)

进行GC性能调优时, 需要明确了解, 当前的GC行为对系统和用户有多大的影响。有多种监控GC的工具和方法, 本章将逐一介绍常用的工具。 JVM 在程序执行的过程中, 提供了GC行为的原生数据。那么, 我们就可以利用这些原生数据来生成各种报告。原生数据(raw data) 包括: 各个内存池…

1. 卷积的基本结构

一、卷积神经网络的结构有哪些? 一般包含5种类型的网络层次结构: 输入层:卷积网络的原始输入,可以是原始或预处理后的像素矩阵 卷积层 :参数共享、局部连接,利用平移不变性从全局特征图提取局部特征 激活层…

路径规划算法:基于原子搜索优化的路径规划算法- 附代码

路径规划算法:基于原子搜索优化的路径规划算法- 附代码 文章目录 路径规划算法:基于原子搜索优化的路径规划算法- 附代码1.算法原理1.1 环境设定1.2 约束条件1.3 适应度函数 2.算法结果3.MATLAB代码4.参考文献 摘要:本文主要介绍利用智能优化…

java并发编程:java内存模型介绍

文章目录 并发编程模型的两个关键问题物理计算机的内存模型缓存不一致的问题总线加LOCK#锁的方式缓存一致性协议 Java内存模型 并发编程模型的两个关键问题 线程间如何通信?即:线程之间以何种机制来交换信息 线程间如何同步?即:…

JavaEE-Servlet(CookieSession)

目录 CookieCookie从哪里来?Cookie到哪里去?Cookie有啥用? SessionServlet中操作 Cookie 和 Session 的APIHttpServletRequest小案例:模拟实现登录功能 HttpServletResponseHttpSessionCookie 类中的相关方法小案例:上…

【深入浅出C#】章节 1:C#入门介绍:C#开发环境的设置和配置

一、环境准备 1.1 安装和配置.NET Core 当配置C#开发环境时,安装.NET Core是一个重要的步骤。以下是安装.NET Core的基本过程: 访问官方网站:打开浏览器,访问.NET Core的官方网站:https://dotnet.microsoft.com/en-u…

【vue】三:核心处理---vue的生命周期

文章目录 1.Vue生命周期的四个阶段,八个钩子2.vue的生命周期图例3. 初始阶段:虚拟DOM生成4. 挂载阶段:真实DOM生成5. 更新阶段:data变化重新渲染6. 销毁阶段:卸载所有,销毁vm 1.Vue生命周期的四个阶段&…

Python+Django人脸识别考勤系统网站

程序示例精选 PythonDjango人脸识别考勤系统网站 如需安装运行环境或远程调试&#xff0c;见文章底部个人QQ名片&#xff0c;由专业技术人员远程协助&#xff01; 前言 这篇博客针对<<PythonDjango人脸识别考勤系统网站>>编写代码&#xff0c;代码整洁&#xff0c…

文本分类系统Python,基于深度学习CNN卷积神经网络

一、介绍 文本分类系统&#xff0c;使用Python作为主要开发语言&#xff0c;通过TensorFlow搭建CNN卷积神经网络对十余种不同种类的文本数据集进行训练&#xff0c;最后得到一个h5格式的本地模型文件&#xff0c;然后采用Django开发网页界面&#xff0c;实现用户在界面中输入一…

I.MX6ull 按键抖动消除

1 按键消抖的原理 其实就是在按键按下以后延时一段时间再 去读取按键值&#xff0c;如果此时按键值还有效那就表示这是一次有效的按键&#xff0c;中间的延时就是消抖的。 延时函数实现 会浪费 CPU 性能&#xff0c;因为延时函数就是空跑。 我们可以借助定时器来实现消抖&…

小程序服务器SSL证书替换,访问小程序异常

小程序最近SSL证书过期&#xff0c;访问小程序errno: 600001, errMsg: “request:fail -102:net::ERR_CONNECTION_REFUSED“。 1.在阿里云申请DV证书&#xff0c; DV证书&#xff1a;域名验证型证书&#xff0c;证书审核方式为通过验证域名所有权即可签发证书。 DV证书只验证…

基于Yolov5目标检测的物体分类识别及定位(一) -- 数据集原图获取与标注

从本篇博客正式开始深度学习项目的记录&#xff0c;实例代码只会放通用的代码&#xff0c;数据集和训练数据也是不会全部放出。 系列文章&#xff1a; 基于Yolov5目标检测的物体分类识别及定位&#xff08;一&#xff09; -- 数据集原图获取与标注 基于Yolov5目标检测的物体分类…

【计算机组成原理与体系结构】硬件系统概述

目录 一、计算机的发展 二、计算机的硬件系统 三、硬件的工作原理 四、计算机系统的层次结构 五、计算机的性能指标 一、计算机的发展 第一代计算机&#xff1a;电子管计算机 第一台电子计算机&#xff1a;ENIAC&#xff08;1946&#xff09; 设计目的&#xff1a;计算导弹…