每日学术速递5.7

news2025/2/25 11:30:47

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Multimodal Procedural Planning via Dual Text-Image Prompting

标题:通过双文本图像提示进行多模态程序规划

作者:Yujie Lu, Pan Lu, Zhiyu Chen, Wanrong Zhu, Xin Eric Wang, William Yang Wang

文章链接:https://arxiv.org/abs/2305.01795

项目代码:https://github.com/YujieLu10/TIP

摘要:

        具身代理在遵循人类指令完成任务方面取得了突出的表现。然而,提供由文本和图像告知的指令以帮助人类完成任务的潜力仍未得到充分探索。为了揭示这种能力,我们提出了多模态程序规划 (MPP) 任务,在该任务中,模型被赋予一个高级目标并生成成对的文本-图像步骤的计划,提供比单模态计划更多的补充和信息指导。MPP 的主要挑战是确保跨模式计划的信息量、时间一致性和准确性。为了解决这个问题,我们提出了文本图像提示 (TIP),这是一种双模态提示方法,它联合利用大型语言模型 (LLM) 中的零样本推理能力和基于扩散模型的引人注目的文本到图像生成能力。TIP 使用 Text-to-Image Bridge 和 Image-to-Text Bridge 改进了双模态中的交互,允许 LLM 指导基于文本的图像计划生成,并利用图像计划的描述反向地基于文本计划。为了解决缺乏相关数据集的问题,我们收集了 WIKIPLAN 和 RECIPEPLAN 作为 MPP 的测试平台。我们的结果显示了在信息量、时间一致性和计划准确性方面,针对 WIKIPLAN 和 RECIPEPLAN 上的单峰和多峰基线的令人信服的人类偏好和自动评分。我们的代码和数据:这个 https URL 。

2.Generalizing Dataset Distillation via Deep Generative Prior

标题:通过深度生成先验泛化数据集蒸馏

作者:George Cazenavette, Tongzhou Wang, Antonio Torralba, Alexei A. Efros, Jun-Yan Zhu

文章链接:https://arxiv.org/abs/2305.01649

项目代码:https://github.com/GeorgeCazenavette/glad

摘要:

        数据集蒸馏旨在将整个数据集的知识提炼成一些合成图像。这个想法是合成少量的合成数据点,当将这些数据点作为训练数据提供给学习算法时,会产生一个近似于在原始数据上训练的模型。尽管该领域最近取得了进展,但现有的数据集蒸馏方法无法推广到新的架构和扩展到高分辨率数据集。为了克服上述问题,我们建议使用从预训练的深度生成模型中学习到的先验知识来合成蒸馏数据。为实现这一目标,我们提出了一种新的优化算法,该算法将大量图像提炼为生成模型潜在空间中的几个中间特征向量。我们的方法增强了现有技术,显着改善了所有设置中的跨架构泛化。

3.DynamicStereo: Consistent Dynamic Depth from Stereo Videos(CVPR 2023)

标题:DynamicStereo:立体视频的一致动态深度

作者:Nikita Karaev, Ignacio Rocco, Benjamin Graham, Natalia Neverova, Andrea Ved

文章链接:https://arxiv.org/abs/2305.02296

项目代码:https://dynamic-stereo.github.io/

摘要:

        我们考虑重建从立体相机观察到的动态场景的问题。大多数现有的立体深度方法独立处理不同的立体帧,导致时间上不一致的深度预测。时间一致性对于身临其境的 AR 或 VR 场景尤为重要,在这些场景中,闪烁会大大降低用户体验。我们提出了 DynamicStereo,这是一种基于变换器的新型架构,用于估计立体视频的视差。该网络学习从相邻帧中汇集信息,以提高其预测的时间一致性。我们的架构旨在通过划分的注意力层有效地处理立体视频。我们还介绍了 Dynamic Replica,这是一个新的基准数据集,包含扫描环境中人和动物的合成视频,它为动态立体提供比现有数据集更接近真实应用的补充训练和评估数据。使用此数据集进行训练进一步提高了我们提出的 DynamicStereo 以及先前方法的预测质量。最后,它作为一致立体方法的基准。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/521057.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

微信小程序文件上传、下载和图片处理、文件操作API的使用

这次按照我的理解来做这部分的笔记 首先,复习上节课所学的内容。就是网络请求api的使用 现在我有一个需求就是点击按钮实现获取后端返回的图片 先打开服务器 看一下我们要返回的图片路径 书写结构 看一下返回来的数据。是在data下的banners里。因此我们封装一下 这…

【利用AI刷面试题】50道前端基础面试题

文章目录 以下是一些可能出现在前端基础面试中的问题:1. 如何判断当前浏览器是否支持某个 HTML5 特性?2. Box-sizing 属性有哪些取值,分别代表什么意思?3. 什么是浏览器的同源策略?4. 什么是 CORS?如何使用…

rabbitmq+mqtt+docker-compose搭建MQTT服务器和.netcore 客户端实现 订阅+发布

1 搭建MQTT服务器 1.1 Dockerfile 内容 FROM rabbitmq:3.11.6-management COPY install_rabbitmq_plus.sh /usr/local/ RUN chmod 777 /usr/local/install_rabbitmq_plus.sh RUN /bin/sh /usr/local/install_rabbitmq_plus.sh 1.2 容器中需要安装插件的命令 放在 insta…

假如ChatGPT 去面试前端工程师,结果会怎么样?

近日,有个叫 ChatGPT 的同学来我司面试前端,考考他面试八股文。先来问问闭包。 第一问,说说 JS 闭包 追问,详细讲讲闭包 由于篇幅太长,转成文字,以下皆为 ChatGPT 回答 闭包是一个非常重要的 JavaScript 概…

Maven构建Java项目Maven构建项目测试Maven引入外部依赖Maven项目模板

目录 Maven 构建 Java 项目 解释一下这段代码,为什么可以构建一个目录清晰的maven项目“mvn archetype:generate "-DgroupIdcom.companyname.bank" "-DartifactIdconsumerBanking" "-DarchetypeArtifactIdmaven-archetype-quickstart&qu…

volatile的实现简单概述

文章目录 内存屏障volatile关键字的实现synchronized关键字的实现 内存屏障 在讲解是关键字之前,先来了解下内存屏障的概念。 处理器保障禁止内存重排序的指令被称为基本内存屏障。其作用是禁止该屏障前后之间的操作进行重排序,要确保指令前的操作要先…

华为OD机试真题 Java 实现【服务中心选址】【2023Q1 100分 】

一、题目描述 一个快递公司希望在一条街道建立新的服务中心。公司统计了该街道中所有区域在地图上的位置,并希望能够以此为依据为新的服务中心选址,使服务中心到所有区域的距离的总和最小。 给你一个数组 positions,其中 positions[i] [le…

域名批量查询是否注册-老域名批量查询

域名到期时间批量查询软件 您是否也曾遇到过域名到期或续费时间即将到来,而需要手动一个一个查询每个域名的情况,这不仅费时效率低,还可能会遗漏一些域名。那么,我们为您介绍一款可以帮助您快速、便捷查询多个域名到期时间的软件—…

分享去年学习github命令行操作的笔记

git branch -M main 给远程分支改名 一、本地库操作 1.创建本地目录&#xff0c;用于存储要上传的文本文件。可以手动创建也可以用带命令行 mkdir <文件名> 2.进入文件夹cd <文件名> 3第一次创建时需要初始化仓库git init mac显示隐藏文件SHIFTCOMMAND. mac…

Vue3-黑马(六)

目录&#xff1a; &#xff08;1&#xff09;vue3-基础-vueuse &#xff08;2&#xff09;vue3-基础-useRequest &#xff08;3&#xff09;vue3-基础-usePagination &#xff08;1&#xff09;vue3-基础-vueuse 我们在实际中use函数的封装&#xff0c;不用我们自己写&#…

精准室内定位系统源码,采用UWB定位技术开发的智慧工厂定位系统源码

室内定位系统源码&#xff0c;采用UWB定位技术开发的智慧工厂定位系统源码 技术架构&#xff1a;单体服务 硬件&#xff08;UWB定位基站、卡牌&#xff09; 开发语言&#xff1a;java 开发工具&#xff1a;idea 、VS Code 前端框架&#xff1a;vue 后端框架&#xff1a;s…

Linux基础学习---5、磁盘查看和分区类、进程管理类

1、磁盘查看和分区类 1.1 du查看文件和目录占用的磁盘空间 du:disk usage 磁盘占用情况 1、基本语法du 目录/文件 &#xff08;显示目录下每个子目录的磁盘使用情况&#xff09; 2、情况说明选项功能-h以人们较易阅读的GBytes、MBytes、KBytes等格式自行显示-a不仅查看子目录…

iproute2 和 net-tools 介绍

路由&#xff08;Routing&#xff09; 在网络通信中&#xff0c;“路由”是一个网络层的术语。路由是指设备从一个接口上收到数据包&#xff0c;根据数据包的目的地址进行定向并转发到另一个接口的过程。路由表则是若干条路由信息的一个集合体。在路由表中&#xff0c;一条路由…

用Python+OpenCV+Yolov5+PyTorch+PyQt开发的车牌识别软件(包含训练数据)

目录 演示视频 软件使用说明 软件设计思路 演示视频 这是一个可以实时识别车牌的软件&#xff0c;支持图片和视频识别&#xff0c;以下是软件的演示视频。 车牌识别软件 点击查看代码购买地址 软件使用说明 1. 下载源码后&#xff0c;首先安装依赖库。项目所用到的依赖库已…

卷起来了!阿里最新出品“微服务全阶笔记”,涵盖微服务全部操作

近两年&#xff0c;“大厂裁员”总是凭实力冲上各大媒体头条&#xff0c;身在局中的我们早已习以为常。国内的京东&#xff0c;阿里&#xff0c;腾讯&#xff0c;字节&#xff0c;快手&#xff0c;小米等互联网公司都以不同程度的裁员比例向社会输送人才。大量有大厂经验的卷王…

一起打造漂亮的Ubuntu——2023最新版Gnome44

一起打造漂亮的Ubuntu 对于一个工程师&#xff0c;开发者&#xff0c;研究员来说&#xff0c;拥有一台漂亮的机器外加漂亮的系统界面是非常重要的。 作为Ubuntu十年的忠实粉丝&#xff0c;Linux高度依赖用户&#xff0c;无论是工作还是生活&#xff0c;我都一直以来使用着Ubu…

目标检测基础理论

一、基本知识 目标检测中RP什么意思 在目标检测中&#xff0c;RP通常指的是Recall-Precision&#xff0c;即召回率和精确率。召回率是指模型正确识别出的正样本数占所有正样本数的比例&#xff0c;而精确率是指模型正确识别出的正样本数占所有被模型识别为正样本的样本数的比例…

微服务保护——Sentinel

初识Sentinel 雪崩问题 微服务调用链路中的某个服务故障&#xff0c;引起整个链路中的所有微服务都不可用&#xff0c;这就是雪崩。 解决雪崩问题的常见方式有四种: 超时处理:设定超时时间&#xff0c;请求超过一定时间没有响应就返回错误信息&#xff0c;不会无休止等待舱壁…

谷歌浏览器network error解决方法

很多用户在使用谷歌浏览器时候会出现network error网页提示&#xff0c;很多用户不知道该如何处理这一问题&#xff0c;其实解决方法不止一种&#xff0c;小编整理了两种谷歌浏览器network error解决方法&#xff0c;一起来看看吧~ 谷歌浏览器network error解决方法&#xff1…

【精选】新年祝福(C语言),Easyx图形库应用+源代码分享

【精选】新年祝福&#xff08;C语言&#xff09;&#xff0c;Easyx图形库应用源代码分享 博主&#xff1a;命运之光 专栏&#xff1a;Easyx图形库应用 目录 【精选】新年祝福&#xff08;C语言&#xff09;&#xff0c;Easyx图形库应用源代码分享程序展示一、项目环境简单介绍一…