每日学术速递4.20

news2024/11/17 21:42:17

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Avatars Grow Legs: Generating Smooth Human Motion from Sparse Tracking Inputs with Diffusion Model(CVPR 2023)

标题:化身长腿:使用扩散模型从稀疏跟踪输入生成平滑的人体运动

作者:Yuming Du, Robin Kips, Albert Pumarola, Sebastian Starke, Ali Thabet, Artsiom Sanakoyeu

文章链接:https://arxiv.org/abs/2304.08577

项目代码:https://dulucas.github.io/agrol/

摘要:

        随着近期 AR/VR 应用程序的流行,对 3D 全身化身的逼真和准确控制已成为人们迫切需要的功能。一个特殊的挑战是,独立的 HMD(头戴式设备)只能提供稀疏的跟踪信号,通常仅限于跟踪用户的头部和手腕。虽然此信号对于重建上半身运动非常有用,但下半身未被跟踪,必须从上半身关节提供的有限信息中合成。在本文中,我们提出了 AGRoL,这是一种新型条件扩散模型,专门设计用于在给定稀疏上半身跟踪信号的情况下跟踪全身。我们的模型基于一个简单的多层感知器 (MLP) 架构和一种新颖的运动数据调节方案。它可以预测准确而流畅的全身运动,尤其是具有挑战性的下半身运动。与常见的扩散架构不同,我们的紧凑架构可以实时运行,使其适用于在线身体跟踪应用程序。我们在 AMASS 运动捕捉数据集上训练和评估我们的模型,并证明我们的方法在生成的运动精度和平滑度方面优于最先进的方法。我们通过广泛的实验和消融研究进一步证明了我们的设计选择。

2Align your Latents: High-Resolution Video Synthesis with Latent Diffusion Models(CVPR 2023)

标题:对齐你的潜在:高分辨率视频合成与潜在扩散模型

作者:Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis

文章链接:https://arxiv.org/abs/2304.08818

项目代码:https://research.nvidia.com/labs/toronto-ai/VideoLDM/

摘要:

        潜在扩散模型 (LDM) 可实现高质量图像合成,同时通过在压缩的低维潜在空间中训练扩散模型来避免过多的计算需求。在这里,我们将 LDM 范例应用于高分辨率视频生成,这是一项特别耗费资源的任务。我们首先仅在图像上预训练 LDM;然后,我们通过在潜在空间扩散模型中引入时间维度并对编码图像序列(即视频)进行微调,将图像生成器转变为视频生成器。同样,我们在时间上对齐扩散模型上采样器,将它们变成时间一致的视频超分辨率模型。我们专注于两个相关的现实世界应用:模拟野外驾驶数据和使用文本到视频建模的创意内容创建。特别是,我们在分辨率为 512 x 1024 的真实驾驶视频上验证了我们的视频 LDM,实现了最先进的性能。此外,我们的方法可以轻松利用现成的预训练图像 LDM,因为在这种情况下我们只需要训练时间对齐模型。这样做,我们将公开可用的、最先进的文本到图像 LDM 稳定扩散转变为分辨率高达 1280 x 2048 的高效且富有表现力的文本到视频模型。我们表明,时间层经过训练以这种方式推广到不同的微调文本到图像 LDM。利用此属性,我们展示了个性化文本到视频生成的第一个结果,为未来的内容创建开辟了令人兴奋的方向。

Subjects: cs.RO

3.ImAffordances from Human Videos as a Versatile Representation for Robotics

标题:人类视频的可供性作为机器人技术的多功能表示

作者:Shikhar Bahl, Russell Mendonca, Lili Chen, Unnat Jain, Deepak Pathak

文章链接:https://arxiv.org/abs/2304.08488

项目代码:https://robo-affordances.github.io/

摘要:

        建造一个可以通过观察人类来理解和学习互动的机器人激发了几个视觉问题。然而,尽管在静态数据集上取得了一些成功的结果,但目前的模型如何直接用在机器人上仍然不清楚。在本文中,我们旨在通过以环境为中心的方式利用人类互动视频来弥合这一差距。利用人类行为的互联网视频,我们训练了一个视觉可供性模型,该模型估计人类可能在场景中的位置和方式进行交互。这些行为可供性的结构直接使机器人能够执行许多复杂的任务。我们展示了如何将我们的可供性模型与四种机器人学习范式无缝集成,包括离线模仿学习、探索、目标条件学习和强化学习的动作参数化。我们展示了我们称为 VRB 的方法在 4 个真实世界环境、10 多个不同任务和 2 个在野外运行的机器人平台上的有效性。此 https URL 上的结果、可视化和视频

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/451836.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

知识蒸馏之自蒸馏【附代码】

知识蒸馏的核心思想就是将大模型的知识传给小模型。 这里的知识通常就是模型所学的数据分布。大模型特点一般是具有非常高的精度,但可能在速度上不行,或者是不易部署,小模型通常是易部署,速度快但精度不如大模型。 因此可以将大…

【程序员面试金典】面试题 02.07. 链表相交

【程序员面试金典】面试题 02.07. 链表相交 题目描述解题思路 题目描述 描述:给你两个单链表的头节点 headA 和 headB ,请你找出并返回两个单链表相交的起始节点。如果两个链表没有交点,返回 null 。 图示两个链表在节点 c1 开始相交&#…

使用Storm proxies动态代理IP浅析影响在线代理IP质量的因素?

影响在线代理IP质量的因素有很多,主要包括以下几个方面: 服务器稳定性:在线代理IP的稳定性和可用性与其所在的服务器质量密切相关。如果服务器配置低、网络不稳定、带宽不足等因素,都可能导致在线代理IP的质量下降。IP地址的稳定性…

【LeetCode】剑指 Offer 66. 构建乘积数组 p312 -- Java Version

题目链接:https://leetcode.cn/problems/gou-jian-cheng-ji-shu-zu-lcof/ 1. 题目介绍(66. 构建乘积数组) 给定一个数组 A[0,1,…,n-1],请构建一个数组 B[0,1,…,n-1],其中 B[i] 的值是数组 A 中除了下标 i 以外的元素…

5.1.1树的定义,基本术语及性质

空树:结点数为0的树 除了根节点外,任何一个结点都有且仅有一个前驱。 子树也可看成一个新的树 所以树其实是一个递归结构 树形逻辑结构的应用 下面我们来看树的基本术语 1.节点之间的关系描述 F是你的兄弟结点,GHIJ就是你的堂兄弟结点。 还…

海信激光电视将亮相中国家电及消费电子博览会 科技定义家庭观影

4月27日至30日,中国家电及消费电子博览会(简称AWE)将在上海新国际博览中心举办。本届AWE强势回归,展馆规模扩大至14个,展示面积超过16万平方米,将吸引超过1200家国内外企业参展,参观人次预计将突破40万。 作为亚洲规模最大的国际家电及消费电子展览会,本届AWE以“智科技,创未来…

设计模式简介及面向对象设计原则

文章目录 前言一、什么是设计模式1、从面向对象谈起2、深入理解面向对象3、软件设计固有的复杂性4、软件设计复杂的根本原因——“变化”5、如何解决复杂性?6、软件设计的目标 二、常用设计模式及分类1、常用的七种设计模式2、设计模式分类 三、面向对象设计原则1、…

半导体封装用除泡烤箱真空压力可编程PID控制的解决方案

摘要:真空压力除泡机和除泡烤箱在电子行业的应用十分广泛,但现有除泡机存在的最大问题是选择了开关式阀门,无法实现真空和压力既准确又快速的控制。为此,本文提出了升级改造技术方案,即采用双向PID控制器和快速电动球阀…

Docker部署开源密码管理器Bitwarden, 并申请免费ssl证书自动刷新永不过期

GitHub传送阵 废话 出于一种习惯,我基本上不会在不同的应用上使用相同的密码,这种习惯使得我需要在备忘录上不胜其烦地记录大量的账号密码,每次登录一个系统,如果chrome的密码管理器不可用,我就需要打开备忘录检索。…

基于matlab使用波束成形生成 802.11ad 波形

一、前言 本示例说明如何使用WLAN工具箱和相控阵系统工具箱对带有相控阵的IEEE 802.11ad DMG波形进行波束成形。 二、介绍 IEEE 802.11ad 定义了工作在 60 GHz 的定向千兆位 (DMG) 传输格式。为了克服在 60 GHz 下遇到的大路径损耗,IEEE 802.…

进阶必看 | 有关BIMer强推的5本书,看过的都竖大拇指!

大家好,还是我,建模助手。 本期的主题都是围绕着:热点。除了建模助手的品牌资讯之外,还有一些与行业相关的热点。 这不,4月23日是正好的世界读书日,给大家搞一波书籍推荐! 小编认为&#xff…

【Dubbo核心 详解二】Dubbo服务消费的详解

✅创作者:陈书予 🎉个人主页:陈书予的个人主页 🍁陈书予的个人社区,欢迎你的加入: 陈书予的社区 🌟专栏地址: Dubbo专栏 文章目录 引言介绍 Dubbo 服务消费的详解的目的和背景概述 Dubbo 服务消费的过程和核心概念一、Dubbo 服务消费的基础知识1. Dubbo 服务消费的架…

动力节点springsecurity笔记-SpringSecurity 集成thymeleaf

15 SpringSecurity 集成thymeleaf 此项目是在springsecurity-12-database-authorization-method 的基础上进行 复制springsecurity-12-database-authorization-method 并重命名为springsecurity-13-thymeleaf 15.1 添加thymeleaf依赖 | org.springframework.boot spring-…

h5逻辑_解决h5页面嵌入ios兼容性问题

安全区域 如下图所示~ 蓝色部分为安全区域。处于安全区域内的内容不受圆角、齐刘海、小黑条的影响。 若是将h5页面嵌入app中,就需要进行适配—> 让h5页面展示在安全区域内。 tips: 安全区域是在ios11之后并且是iPhoneX及以上机型才有的。 因此我们只…

【微信小程序】详解behaviors,如何使用behaviors

一,behaviors 1.1什么是 behaviors? behaviors 是小程序中, 用于实现组件间代码共享的特性 ,类似于 Vue.js 中的 “mixins”。 1.2behaviors 的工作方式 每个 behavior 可以包含一组 属性、数据、生命周期函数和方法 。组件引…

【PE】inline hook的实现

【PE】inline hook的实现 hook思路 最基本的5字节的hook思路如下,有了这个思路,可以用更多的方式进行hook 通过修改目标函数开头的5个字节为jmp …,劫持程序执行流跳转过去之后,再把API开头5字节改回来(UnHook&…

Servlet 入门到精通(六)

上一篇博客的传送门:Servlet 入门到精通(五) Servlet Filter 又称 Servlet 过滤器,它是在 Servlet 2.3 规范中定义的,是 Servlet 中的一个组件,是设计模式中责任链模式的一种经典实现。能够对 Servlet 容器…

SpringBoot启动自动执行sql脚本

在开发当中我们每次发布服务都需要手动执行脚本,然后重启服务,而SpringBoot有服务启动自动执行sql脚本的功能的,可以为我们省去手动执行脚本的这一步,只需要部署新的服务即可。 这个功能是SpringBoot自带的不需要引入额外的依赖&a…

Spring Boot 提取内存密码

访问 /actuator/heapdump 下载内存,提取密码 select * from java.util.LinkedHashMap$Entry x WHERE (toString(x.key).contains("password"))

学习系统编程No.21【进程间通信之共享内存】

引言: 北京时间:2023/4/16/21:53,刚刚把新文章发出去,开完班会回来,本来上篇博客在昨天就能发的,昨天下午打了一下午的羽毛球之后,饭都没吃,躺在床上,准备睡觉&#xff…