每日学术速递6.12

news2025/1/10 2:08:19

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.DynIBaR: Neural Dynamic Image-Based Rendering(CVPR 2023 Award Candidate)

标题:DynIBaR:基于神经动态图像的渲染

作者:Mengyuan Yan Jessica Lin Montserrat Gonzalez Arenas Ted Xiao Daniel Kappler Daniel Ho

文章链接:https://arxiv.org/abs/2305.14825

项目代码:https://dynibar.github.io/

摘要:

        我们解决了从描述复杂动态场景的单目视频中合成新视图的问题。基于随时间变化的神经辐射场(又名动态 NeRF)的最先进方法已在该任务上显示出令人印象深刻的结果。然而,对于具有复杂物体运动和不受控制的摄像机轨迹的长视频,这些方法可能会产生模糊或不准确的渲染,从而阻碍它们在现实世界中的应用。我们不是在 MLP 的权重内对整个动态场景进行编码,而是提出了一种新方法来解决这些限制,该方法采用基于体积图像的渲染框架,该框架通过以场景运动感知方式聚合附近视图的特征来合成新视点。我们的系统保留了先前方法在建模复杂场景和视图相关效果方面的优势,而且还能够从具有复杂场景动态和不受约束的相机轨迹的长视频中合成照片般逼真的新颖视图。我们展示了对动态场景数据集的最先进方法的显着改进,并将我们的方法应用于具有挑战性相机和物体运动的野外视频,在这些视频中,先前的方法无法产生高质量的渲染。我们的项目网页位于此 http URL。

2.Learning to Ground Instructional Articles in Videos through Narrations

标题:通过旁白学习视频中的教学文章

作者:Effrosyni Mavroudi, Triantafyllos Afouras, Lorenzo

文章链接:https://arxiv.org/abs/2306.03802

项目代码:https://eval.ai/web/challenges/challenge-page/2082/overview

摘要:

        在本文中,我们提出了一种在叙述的操作视频中本地化程序活动步骤的方法。为了大规模处理标记数据的稀缺性,我们从语言知识库 (wikiHow) 中获取步骤描述,其中包含针对各种程序任务的指导文章。在没有任何形式的人工监督的情况下,我们的模型通过匹配三种模式:框架、旁白和步骤描述,学会在时间上将程序文章的步骤置于操作视频中。具体来说,我们的方法通过融合来自两个不同路径的信息来将步骤与视频对齐:i)直接将步骤描述与帧对齐,ii)间接对齐通过组合 steps-to-narrations 和 narrations-to 获得- 视频通信。值得注意的是,我们的方法通过利用顺序信息一次对文章中的所有步骤进行全局时间定位,并使用经过迭代细化和积极过滤的步骤伪标签进行训练。为了验证我们的模型,我们引入了一个新的评估基准——HT-Step——通过手动注释 HowTo100M\footnote 的 124 小时子集获得。来源于 wikiHow 文章。在此基准上的实验以及 CrossTask 上的零样本评估表明,我们的多模态对齐比多个基线和先前的工作产生了显着的收益。最后,我们展示了我们用于匹配旁白与视频的内部模块在 HTM-Align 旁白视频对齐基准测试中的表现大大优于现有技术。

3.MIMIC-IT: Multi-Modal In-Context Instruction Tuning

标题:MIMIC-IT:多模态上下文指令调优

作者:Bo Li, Yuanhan Zhang, Liangyu Chen, Jinghao Wang, Fanyi Pu, Jingkang Yang, Chunyuan Li, Ziwei Liu

文章链接:https://arxiv.org/abs/2306.05425

项目代码:https://otter-ntu.github.io/

摘要:

        高质量的指令和响应对于大型语言模型在交互式自然语言任务中的零样本性能至关重要。对于涉及复杂视觉场景的交互式视觉语言任务,必须使用大量多样化和创造性的指令-响应对来调整视觉语言模型 (VLM)。然而,目前视觉-语言指令-响应对在数量、多样性和创造力方面的可用性仍然有限,这对交互式 VLM 的推广提出了挑战。在这里,我们展示了多模态上下文指令调整 (MIMIC-IT),这是一个包含 280 万个多模态指令-响应对的数据集,其中有 220 万个来自图像和视频的独特指令。每对都伴随着多模态上下文信息,形成旨在增强 VLM 感知、推理和规划能力的会话上下文。被称为 Syphus 的指令-响应收集过程使用自动注释管道进行扩展,该管道将人类专业知识与 GPT 的功能相结合。我们使用 MIMIC-IT 数据集训练了一个名为 Otter 的大型 VLM。基于对视觉语言基准进行的广泛评估,观察到 Otter 在多模态感知、推理和上下文学习方面表现出非凡的熟练程度。人工评估表明它有效地符合用户的意图。我们发布了 MIMIC-IT 数据集、指令-响应收集管道、基准测试和 Otter 模型。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/670156.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【2023,学点儿新Java-15】案例分享:基于Java实现餐厅点餐系统(附完整源代码)

前情回顾: 【2023,学点儿新Java-14】携程面试题:如何看待Java是一门半编译半解释型的语言?| 咨询互联网行业 资深前辈的一些问题 | 附:为什么说ChatGPT的核心算法是…?| GPT-3.5【2023,学点儿新…

通用密钥,无需密码,在无密码元年实现Passkeys通用密钥登录(基于Django4.2/Python3.10)

毋庸讳言,密码是极其伟大的发明,但拜病毒和黑客所赐,一旦密码泄露,我们就得绞尽脑汁再想另外一个密码,但记忆力并不是一个靠谱的东西,一旦遗忘密码,也会造成严重的后果,2023年业界巨…

算法程序设计 之 模糊数字、真假银币(1/8)

内容 模糊数字、真假银币 一、目的: 理解并掌握枚举算法的基本思想和设计步骤。 二、内容 1模糊数字 问题描述:一张单据上有一个5位数的编码,因为保管不善,其百位数已经变得模糊不清。但是知道这个5位数是57和67的倍数。现…

c++Qt Creator调用 python 完整版 + 解决bug过程

文章目录 创建项目配置python环境导入Python库其他坑点Python.h 头文件报错ModuleNotFoundError: No module named encodings’ 完美解决找不到python文件 成功! 文章首发于我的个人博客:欢迎大佬们来逛逛 创建项目 选择创建 qmake 项目: …

SciencePub学术 | 计算机类重点SCIEEI征稿中

SciencePub学术 刊源推荐: 计算机类重点SCIE&EI征稿中!影响因子高,对国人友好!信息如下,录满为止: 一、期刊概况: 计算机类重点SCIE&EI 【期刊简介】IF:8.0-8.5,JCR1区&am…

【新星计划回顾】第七篇学习-正则表达式-邮箱解释

🏆🏆时间过的真快,这是导师回顾新星计划学习的第七篇文章! 在学习过程中,学员们也咨询了很多问题,我把一些问题整理以文章形式总结分享下。 最近这段时间非常忙,虽然导师首次参与新星计划活动已…

(八)矢量数据的空间分析——叠置分析②

矢量数据的空间分析——叠置分析② 目录 矢量数据的空间分析——叠置分析② 1.交集取反1.1图解1.2用法1.3操作步骤 2.图层联合2.1图解2.2用法2.3操作步骤 3.修正更新3.1图解3.2用法3.3操作步骤 1.交集取反 输入要素和更新要素中不叠置的要素或要素的各部分将被写入到输出要素类…

Android——基本控件(下)(十四)

1. 滚动视图&#xff1a;ScrollView 1.1 知识点 &#xff08;1&#xff09;掌握滚动视图的主要作用&#xff1b; &#xff08;2&#xff09;可以使用滚视图进行布局&#xff1b; 1.2 具体内容 范例&#xff1a; <ScrollView xmlns:android"http://schemas.android…

执行Windows数据恢复的有效指南!

​被删除的文件真的没有了吗&#xff1f; 在Windows上&#xff0c;删除的文件会被放在哪里&#xff1f;发生的事情告诉我们&#xff0c;这些最近和永久删除的文件可能在数据覆盖之前仍存在于你的Windows电脑上。 在删除之后&#xff0c;回收站会自动保留这些最近删…

【Mysql索引数据结构与算法】

脑图链接 一、索引 什么是索引 索引指的是数据库管理系统中一个排序的数据结构&#xff0c;以协助快速查询、更新数据库表中的数据。类似于书籍的目录&#xff0c;用于快速定位到所需内容、数据的页码位置。 优点&#xff1a;提高数据检索的效率&#xff0c;降低数据库的IO成…

TC8:UDP_FIELDS_06-10

UDP_FIELDS_06: Fields - Total Length 目的 验证DUT发送的UDP报文的Total Length字段的正确性 测试步骤 Tester:让DUT发送UDP消息,数据大小为udpUserDataSizeTester:监听在DIface-0上DUT:发送消息Tester:验证接收到的UDP消息的Total Length字段的值为udpUserDataSize+8期…

Ansys Zemax | 内窥镜物镜系统初始结构的优化提升(上)

概述 本文分为内窥镜系统简介、主要结构、系统分析、性能提升和总结五个部分&#xff0c;介绍了内窥镜系统的主要结构&#xff0c;并讨论了如何在 OpticStudio 中根据内窥镜物镜系统的初始结构进行像差分析&#xff0c;以及如何对其进行后续的优化提升。(联系我们获取文章附件…

【设计模式】SpringBoot优雅使用策略模式

文章目录 1.概述1.1.简述策略模式 2.实现方法2.1.实现思路2.2.实现代码2.3.策略拓展2.4.执行调用 3.总结 1.概述 本篇文章主要会描述SpringBoot与策略模式的结合使用&#xff0c;因为不涉及到理论部分&#xff0c;所以在阅读本篇之前&#xff0c;需要对策略模式的理论已经有了…

<C++> C++11 新的类功能

C11 新的类功能 1.默认成员函数 原来C类中&#xff0c;有6个默认成员函数&#xff1a; 构造函数析构函数拷贝构造函数拷贝赋值重载取地址重载const取地址重载 最后重要的是前4个&#xff0c;后两个用处不大。默认成员函数就是我们不写编译器会生成一个默认的。 C11 新增了两…

大家知道什么是CDN吗?对网站有什么帮助?

&#x1f482; 个人网站:【海拥】【游戏大全】【神级源码资源网】&#x1f91f; 前端学习课程&#xff1a;&#x1f449;【28个案例趣学前端】【400个JS面试题】&#x1f485; 寻找学习交流、摸鱼划水的小伙伴&#xff0c;请点击【摸鱼学习交流群】 目录 前言什么是CDN&#xf…

【Python 随练】自由落体运动

题目&#xff1a; 一球从 100 米高度自由落下&#xff0c;每次落地后反跳回原高度的一半&#xff1b;再落下&#xff0c;求它在第 10 次落地时&#xff0c;共经过多少米&#xff1f;第 10 次反弹多高&#xff1f; 简介&#xff1a; 在本篇博客中&#xff0c;我们将解决一个物…

华为OD机试之阿里巴巴找黄金宝箱(IV)(Java源码)

阿里巴巴找黄金宝箱(IV) 题目描述 一贫如洗的樵夫阿里巴巴在去砍柴的路上&#xff0c;无意中发现了强盗集团的藏宝地&#xff0c;藏宝地有编号从0-N的箱子&#xff0c;每个箱子上面有一个数字&#xff0c;箱子排列成一个环&#xff0c;编号最大的箱子的下一个是编号为0的箱子。…

[进阶]网络通信:概述、IP地址、InetAddress

什么是网络编程&#xff1f; 可以让设备中的程序与网络上其他设备中的程序进行数据交互&#xff08;实现网络通信的&#xff09;。 Java提供的网络编程解决方案就是在java.net.*包下进行网络编程。 基本的通信架构 基本的通信架构有2种形式&#xff1a;CS架构&#xff08;Cl…

C++IO流和类型处理(11)

IO流 IO流包括 标准IO流&#xff0c;字符串流&#xff0c;文件流 标准IO流 基础使用 #include <iostream> //包括istream和ostream cin >> ----- 标准输入 cout<< ----- 标准输出 clog<< ----- 带缓冲区的标准错误 cerr<< ----- 不带缓冲…

lazada、速卖通、煤炉、eBay 、亚马逊测评环境系统:如何掌握核心养号技巧?

作为一个准备跨足测评行业的业者&#xff0c;或是一个正在考虑将电商业务转向测评服务的卖家&#xff0c;一份详尽的养号指南绝对是你不可错过的知识宝库。 跨境电商平台无疑是巨大的数据中心&#xff0c;它们不仅检测你的设备参数和IP&#xff0c;还分析你的购物习惯&#xf…