每日学术速递4.28

news2025/1/2 2:39:32

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.StepFormer: Self-supervised Step Discovery and Localization in Instructional Videos(CVPR 2023)

标题:StepFormer:教学视频中的自我监督步骤发现和定位

作者:Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson

文章链接:https://arxiv.org/abs/2304.13265

摘要:

        教学视频是从人类演示中学习程序任务的重要资源。然而,此类视频中的说明步骤通常很短且稀疏,大部分视频与过程无关。这激发了对此类视频中的指令步骤进行时间定位的需要,即称为关键步骤定位的任务。传统的关键步骤定位方法需要视频级别的人工注释,因此无法扩展到大型数据集。在这项工作中,我们在没有人工监督的情况下解决了这个问题,并引入了 StepFormer,这是一种自我监督的模型,可以发现和定位视频中的指令步骤。StepFormer 是一种转换器解码器,它通过可学习的查询处理视频,并生成一系列插槽来捕获视频中的关键步骤。我们在大型教学视频数据集上训练我们的系统,使用它们自动生成的字幕作为唯一的监督来源。特别是,我们使用过滤掉不相关短语的顺序感知损失函数,通过一系列文本叙述来监督我们的系统。我们表明,我们的模型在三个具有挑战性的基准测试中大大优于所有以前的无监督和弱监督的步骤检测和定位方法。此外,我们的模型展示了解决零样本多步定位的涌现属性,并且在该任务中优于所有相关基线。

2.Patch-based 3D Natural Scene Generation from a Single Example(CVPR 2023)

标题:从单个示例生成基于补丁的 3D 自然场景

作者:Weiyu Li, Xuelin Chen, Jue Wang, Baoquan Chen

文章链接:https://arxiv.org/abs/2304.12670

项目代码:http://weiyuli.xyz/Sin3DGen/

摘要:

        我们针对通常独特且复杂的一般自然场景的 3D 生成模型。缺乏必要的训练数据量,以及在存在不同场景特征的情况下进行临时设计的困难,使现有设置变得难以处理。受经典的基于补丁的图像模型的启发,我们提倡在补丁级别合成 3D 场景,给出一个例子。这项工作的核心是重要的算法设计 w.r.t 场景表示和生成补丁最近邻模块,解决了将基于经典 2D 补丁的框架提升到 3D 生成所带来的独特挑战。这些设计选择,在集体层面上,有助于形成一个稳健、有效和高效的模型,该模型可以生成具有逼真的几何结构和视觉外观的高质量一般自然场景,数量和种类繁多,如各种示例所证明的那样场景。

3.Super-NeRF: View-consistent Detail Generation for NeRF super-resolution(TPAMI 2023)

标题:Super-NeRF:NeRF 超分辨率的视图一致细节生成

作者:Yuqi Han, Tao Yu, Xiaohang Yu, Yuwang Wang, Qionghai Dai

文章链接:https://arxiv.org/abs/2304.13518

摘要:

        神经辐射场 (NeRF) 在 3D 场景建模和合成高保真新颖视图方面取得了显著成功。然而,现有的基于 NeRF 的方法更侧重于充分利用图像分辨率来生成新颖的视图,而较少考虑在有限的输入分辨率下生成细节。类似于图像超分辨率的广泛使用,NeRF 超分辨率是生成 3D 场景的高分辨率隐式表示的有效方法,具有巨大的潜在应用。到目前为止,这样一个重要的课题仍未得到充分探索。在本文中,我们提出了一种名为 Super-NeRF 的 NeRF 超分辨率方法,仅从低分辨率输入生成高分辨率 NeRF。给定多视图低分辨率图像,Super-NeRF 构建了一个一致性控制超分辨率模块,为 NeRF 生成视图一致的高分辨率细节。具体来说,为每个低分辨率输入图像引入可优化的潜在代码,以控制 2D 超分辨率图像收敛到视图一致的输出。每个低分辨率图像的潜在代码都与目标 Super-NeRF 表示协同优化,以充分利用 NeRF 构造中固有的视图一致性约束。我们验证了 Super-NeRF 在合成、真实世界和 AI 生成的 NeRF 数据集上的有效性。Super-NeRF 在高分辨率细节生成和跨视图一致性方面实现了最先进的 NeRF 超分辨率性能。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/480803.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

vue diff算法与虚拟dom知识整理(1) 概念叙述

今天开始 我们来学习 虚拟dom和diff算法 首先 我们要简单了解 虚拟dom和diff算法在vue中的作用 例如 下图左侧是我们的加 然后 我们要将 家按图右改造一下 我们先来找一下不同 如图卷出来的效果 我们起居室想多装一个沙发 卧室床改了位置 电视不要了 阳台小改了一下 其实改…

每日学术速递4.27

Subjects: cs.CV 1.End-to-End Spatio-Temporal Action Localisation with Video Transformers 标题:使用视频转换器进行端到端时空动作定位 作者:Alexey Gritsenko, Xuehan Xiong, Josip Djolonga, Mostafa Dehghani, Chen Sun, Mario Lučić, Corde…

IS-IS协议基础知识

文章目录 前言介绍地址格式报文格式区域及路由器类型区域类型路由器类型Level-1 路由器Level-2 路由器Level-1-2路由器 IS-IS 网络类型DIS及伪节点伪节点DIS与OSPF的DR/BDR不同之处 IS-IS 邻接关系握手报文邻接关系的建立 IS-IS 链路状态数据库概述数据库同步报文泛洪机制数据库…

【网络编程】socket套接字

文章目录 一、源IP和目的IP二、端口号port三、TCP/UDP协议3.1 网络字节流 四、socket套接字4.1 socket常见接口4.2 sockaddr结构体 五、总结 一、源IP和目的IP 如果我们的台式机或者笔记本没有IP地址就无法上网,而因为每台主机都有IP地址,所以注定了数据…

Prometheus Exporter开发

Prometheus Exporter开发 Exporter数据格式介绍 Exporter徒手开发 Exporter4种指标类型演示 Exporter自定义注册表 Exporter 基于Collector的模块开发 Exporter介绍 数据格式 通讯协议 HTTP协议服务端实现了gzip 数据格式 text/plain:文本协议 数据格式 prometheus…

MySQL性能监控全掌握,快来get关键指标及采集方法!

数据库中间件监控实战,MySQL中哪些指标比较关键以及如何采集这些指标了。帮助提早发现问题,提升数据库可用性。 1 整体思路 监控哪类指标? 如何采集数据? 第10讲监控方法论如何落地? 这些就可以在MySQL中应用起来。…

ChatGPT提示词工程(四):Inferring推断

目录 一、说明二、安装环境三、推断(Inferring)1. 推断情绪(正面 / 负面)2. 确定情绪的类型3. 识别愤怒4. 从客户评论中提取产品和公司名称5. 一次完成多项任务6. 推断主题7. 主题中是否包含给定的主题 一、说明 这是吴恩达 《Ch…

【栈】的实现

🖊作者 : D. Star. 📘专栏 : 数据结构 😆今日分享 : —>📖区块链 : 小明向你借100块钱,说一周后还你,然后你拿个喇叭大喊一声:我是某某,小明向我借了100块&#xff0c…

Redis缓存(双写一致性问题)

Redis缓存(双写一致性问题) 1 什么是缓存?1.1 为什么要使用缓存1.2 如何使用缓存 2 添加缓存2.1 、缓存模型和思路2.2、代码如下 3 缓存更新策略3.1 、数据库缓存不一致解决方案:3.2 、数据库和缓存不一致采用什么方案 4 实现商铺和缓存与数…

【C生万物】 指针篇 (初级)

欢迎来到 Claffic 的博客 💞💞💞 👉 专栏:《C生万物 | 先来学C》👈 前言: 面对C语言,很多童鞋都会高呼:指针难,指针难&#x…

【计算机专业漫谈】【计算机系统基础学习笔记】W2-1十进制数与二进制数,各进制数直接的转换

利用空档期时间学习一下计算机系统基础,以前对这些知识只停留在应试层面,今天终于能详细理解一下了。参考课程为南京大学袁春风老师的计算机系统基础MOOC,参考书籍也是袁老师的教材,这是我的听课自查资料整理后的笔记 W2-1十进制…

ChatGPT背后的技术:人类反馈强化学习RLHF

文章目录 前言Chat GPT是如何基于RLHF进行训练的RLHF 技术分解预训练语言模型训练奖励模型强化学习微调预训练模型 局限性参考 前言 随着OpenAI推出的Chat GPT火热出圈,Chat GPT背后的技术原理之一,人类反馈强化学习RLHF (Reinforcement Learning from …

Matplotlib 网格线

我们可以使用 pyplot 中的 grid() 方法来设置图表中的网格线。 grid() 方法语法格式如下: matplotlib.pyplot.grid(bNone, whichmajor, axisboth, ) 参数说明: b:可选,默认为 None,可以设置布尔值,true…

prometheus实战之二:使用常见指标

欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 本文是《prometheus实战》系列的第二篇,在《prometheus实战之一:用ansible部署》一文咱们部署了prometheus服务&#xff0c…

防护服穿戴检测识别算法 yolov8

防护服穿戴检测识别系统基于yolov8网络模型图片数据识别训练,算法模型自动完成对现场人员是否按照要求穿戴行为实时分析。YOLOv8 算法的核心特性和改动可以归结为如下:提供了一个全新的 SOTA 模型,包括 P5 640 和 P6 1280 分辨率的目标检测网…

【开发工具】 我居然可以使用Office Tool Plus 安装上Office 真的是太不可思议了

🚀 个人主页 极客小俊 ✍🏻 作者简介:web开发者、设计师、技术分享博主 🐋 希望大家多多支持一下, 我们一起进步!😄 🏅 如果文章对你有帮助的话,欢迎评论 💬点赞&#x1…

【开发工具】 Office Tool Plus 居然也可以部署 Office 365 我的天 真的是太厉害了

🚀 个人主页 极客小俊 ✍🏻 作者简介:web开发者、设计师、技术分享博主 🐋 希望大家多多支持一下, 我们一起进步!😄 🏅 如果文章对你有帮助的话,欢迎评论 💬点赞&#x1…

人不成熟的五大特征-读后感

原文地址:人不成熟的五大特征-百度经验 1 立即要回报 1 所有简单的快的,别人也能做,这并不能使你超过别人。 2 做出别人做不出来的复杂成果,需要较长的时间和持续的学习,得到就得付出,时间,资源…

Windows10本地搭建网站教程 - 内网穿透发布公网访问

文章目录 概述1. 搭建一个静态Web站点2. 本地浏览测试站点是否正常3. 本地站点发布公网可访问3.1 安装cpolar内网穿透3.2 创建隧道映射公网地址3.3 获取公网URL地址 4. 公网远程访问内网web站点5. 配置固定二级子域名5.1 保留二级子域名5.2 配置二级子域名 6. 测试访问二级子域…

【Java笔试强训 30】

🎉🎉🎉点进来你就是我的人了博主主页:🙈🙈🙈戳一戳,欢迎大佬指点! 欢迎志同道合的朋友一起加油喔🤺🤺🤺 目录 一、选择题 二、编程题 🔥最难的问…