每日学术速递5.1

news2024/12/24 21:41:08

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Putting People in Their Place: Affordance-Aware Human Insertion into Scenes

标题:把人放在他们的位置:可供感知的人类插入场景

作者:Sumith Kulal, Tim Brooks, Alex Aiken, Jiajun Wu, Jimei Yang, Jingwan Lu, Alexei A. Efros, Krishna Kumar Singh

文章链接:https://arxiv.org/abs/2304.14406

项目代码:https://sumith1896.github.io/affordance-insertion/

摘要:

        我们通过提出一种将人物实际插入场景的方法来研究推断场景可供性的问题。给定一个带有标记区域的场景图像和一个人的图像,我们将人插入到场景中,同时尊重场景可供性。我们的模型可以在给定场景上下文的情况下推断出一组逼真的姿势,重新摆出参考人物的姿势,并协调构图。我们通过学习在视频剪辑中重新摆姿势,以自我监督的方式设置任务。我们在 240 万个视频片段的数据集上训练了一个大规模扩散模型,该模型在尊重场景上下文的同时产生不同的合理姿势。鉴于学习到的人景组合,我们的模型还可以在没有条件的情况下在提示时产生真实的人物和场景的幻觉,并且还可以进行交互式编辑。定量评估表明,与之前的工作相比,我们的方法合成了更逼真的人类外观和更自然的人景交互。

2.Motion-Conditioned Diffusion Model for Controllable Video Synthesis

标题:用于可控视频合成的运动条件扩散模型

作者:Chung-Ching Lin, Jiang Wang, Kun Luo, Kevin Lin, Linjie Li, Lijuan Wang, Zicheng Liu

文章链接:https://arxiv.org/abs/2304.14404

项目代码:https://tsaishien-chen.github.io/MCDiff/

摘要:

        扩散模型的最新进展极大地提高了合成内容的质量和多样性。为了利用扩散模型的表达能力,研究人员探索了各种可控机制,使用户能够直观地指导内容合成过程。尽管最近的努力主要集中在视频合成上,但一直缺乏有效的方法来控制和描述所需的内容和动作。为了应对这一差距,我们引入了 MCDiff,这是一种条件扩散模型,它从起始图像帧和一组笔画生成视频,允许用户指定合成的预期内容和动态。为了解决稀疏运动输入的歧义并获得更好的合成质量,MCDiff 首先利用流完成模型基于视频帧的语义理解和稀疏运动控制来预测密集视频运动。然后,扩散模型合成高质量的未来帧以形成输出视频。我们定性和定量地表明,MCDiff 在笔触引导的可控视频合成中实现了最先进的视觉质量。MPII Human Pose 的额外实验进一步展示了我们的模型在不同内容和运动合成方面的能力。

3.mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality

标题:mPLUG-Owl:模块化赋予大型语言模型多模态能力

作者:Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi

文章链接:https://arxiv.org/abs/2304.14178

项目代码:https://www.modelscope.cn/studios/damo/mPLUG-Owl

摘要:

        大型语言模型 (LLM) 在各种开放式任务中展示了令人印象深刻的零样本能力,而最近的研究还探索了使用 LLM 进行多模态生成。在这项研究中,我们介绍了 mPLUG-Owl,这是一种新颖的训练范式,通过基础 LLM、视觉知识模块和视觉抽象模块的模块化学习,为 LLM 配备多模态能力。这种方法可以支持多种模态,并通过模态协作促进多样化的单模态和多模态能力。mPLUG-Owl 的训练范式涉及图像和文本对齐的两阶段方法,它在 LLM 的帮助下学习视觉知识,同时保持甚至提高 LLM 的生成能力。在第一阶段,视觉知识模块和抽象模块使用冻结的 LLM 模块进行训练,以对齐图像和文本。在第二阶段,使用纯语言和多模态监督数据集通过冻结视觉知识模块联合微调 LLM 上的低秩适应 (LoRA) 模块和抽象模块。我们精心构建了一个视觉相关的指令评估集 OwlEval。实验结果表明,我们的模型优于现有的多模态模型,展示了 mPLUG-Owl 令人印象深刻的指令和视觉理解能力、多轮对话能力和知识推理能力。此外,我们观察到一些意想不到且令人兴奋的能力,例如多图像关联和场景文本理解,这使得将其用于更难的真实场景(例如仅视觉文档理解)成为可能。我们的代码、预训练模型、指令调整模型和评估集可在这个 https URL 获得。此 https URL 提供在线演示。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/490931.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

项目管理:项目进度跟踪的好处有哪些?

项目进度跟踪主要针对项目计划、任务和项目成员三个方面,即为了了解整个项目计划完成情况、了解项目的实际进展情况、解成员工作完成情况。 项目跟踪可以证明计划是否可执行,可以说明计划是否可以被完成。 在项目执行过程中,我们也可以通过跟…

网络安全合规-Tisax(汽车安全评估讯息交换平台)一

**TISAX(汽车安全评估讯息交换平台(可信信息安全评估交换平台))**是2017年由德国汽车工业联合会(VDA) 联合欧洲网络交换所(ENX) 所推出的资讯交换平台,通过应用欧洲网络交换协会(ENX)和德国汽车…

rk3568 适配摄像头 (双摄)

rk3568 适配摄像头 (mipi 双摄) rk3568 适配双摄像其实就是逐个适配单摄像头,只是两颗摄像头的数据总线可能不同(cifmipi),也可能相同(mipi(2lane) x 2)。几乎相同的上电时许,不同的时钟信号和总线协议决定加载过程会略有不同。 提示&#…

CSDN周赛第49期 - 也谈马拉车

前言 C站的周赛已经很久没有新题了,已考过的题目我差不多都写过题解,若再重复写类似的文章,反而会降低博文质量分,而想要换个角度,却又难以找到动笔的欲望。所以虽然比赛发生在五一假期之前,但直到现在五一…

camunda升级事件的用途

在Camunda中,升级事件(Escalation Event)是一种可以在工作流中出现异常情况时触发相应操作的事件类型。使用升级事件可以帮助工作流更加灵活地处理异常情况,以确保工作流的正常运行。 使用升级事件可以处理以下情况: …

【Java EE 初阶】如何保证线程安全

目录 1.线程是什么? 2.线程安全(重点) 1.概念: 1.举例:用两个线程分别对同一个变量做五万次自增,观察答案是否符合预期 那么是哪些原因造成了这种线程不安全的现象呢?我们一起来分析一下&am…

搭建Plex媒体服务器,打造家庭多媒体中心【公网远程访问】

文章目录 1.前言2. Plex网站搭建2.1 Plex下载和安装2.2 Plex网页测试2.3 cpolar的安装和注册 3. 本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4. 公网访问测试5. 结语 1.前言 用手机或者平板电脑看视频,已经算是生活中稀松平常的场景了,特别是各…

MAC安装MySQL

安装MySQL 登录官网dev.mysql.com/downloads/m… 下载社区版mysql,选择dmg格式的安装包。下载完成后,开始安装。 注意:选择Use Legacy Password Encryption。 解决无法启动MySQL问题 打开设置中的mysql图标,发现红点&#xff0…

Syslog-ng RHEL 的安装和配置

syslog-ng 作为 syslog 的替代工具,可以完全替代 syslog 的服务,并且通过定义规则,实现更好的过滤功能。 作为运维来说一个好的日志工具比什么都重要。 通常我们会管理不同的服务器,因此我们需要把日志集中一下以便于快速查找。…

GUI编程(二)

Swing Swing是GUI(图形用户界面)开发工具包。 早期的AWT(抽象窗口工具包)组件开发的图形用户界面,要依赖本地系统,当把AWT组件开发的应用程序移植到其他平台的系统上运行时,不能保证其外观风格…

贪心刷题~

1、洛谷P2240 【深基12.例1】部分背包问题 贪心策略&#xff1a;拿金币单价高的。 #include<iostream> #include<cstring> #include<algorithm> using namespace std;struct gold{int v;int m; } q[101];bool cmp(gold a,gold b){return a.v*b.m>b.v*a.m…

SpringCloud-微服务Eureka服务注册中心

微服务&服务注册中心 前言一、微服务1.什么是微服务2.单体架构和微服务架构2.1.单体架构2.2.微服务架构 二、服务注册中心1.服务注册中心简介2.Eureka服务注册中心2.1.Eureka Server开发2.2 Eureka Client开发 3.Eureka的自我保护机制3.1.Eureka自我保护机制简介3.2.Eureka…

MySQL数据库连接超时自动断开的解决方案

这里写自定义目录标题 欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题&#xff0c;有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants 创建一个自定义列表如何创建一个…

windows下msys2编译64位的ffmpeg源码

目前遇到过两次需求&#xff0c;需要编译ffmpeg源码。网上下载的编译好的源码里面可能不全&#xff0c;很多时候需要自行编译源码。本文介绍自行编译ffmpeg64位源码&#xff08;32位通过相似的方式为编译成功&#xff0c;不知道原因&#xff09; 环境&#xff1a; 2023.5.4下载…

团队密码管理器Passbolt的安装

老苏下载了吴恩达联手 OpenAI 推出的 Prompt for developer 课程&#xff0c;总长度大概在一个半小时左右&#xff0c;可以让我们学习正确的 ChatGPT Prompt 工程 虽然课程对话是英文&#xff0c;但有中文字幕&#xff0c;课程地址&#xff1a;https://www.aliyundrive.com/s/…

[Gitops--9]微服务项目sangomall代码配置修改及资源清单文件

微服务项目sangomall代码配置修改及资源清单文件 1. 中间件的地址 1.1 Nacos 集群外 nacos-server.intra.com 192.168.31.211集群内 nacos-server.sangomall.svc.cluster.local. nacos-server.sangomall.svc.cluster.local.:88481.2 Redis 集群内 redis.sangomall.svc.c…

ipad有必要用手写笔吗?电容笔和Apple pencil区别

与Apple Pencil最大的不同之处&#xff0c;在于普通的电容笔并不具备着重力压感&#xff0c;而是会给人一种倾斜的压感。如果不是频繁作画&#xff0c;那就用一支普通的电容笔。这种电容笔不但可以用于办公室&#xff0c;也可以用于记笔记、做练习。再说了&#xff0c;一支苹果…

深入理解 Linux 内核(二)

系列文章目录 Linux 内核设计与实现 深入理解 Linux 内核 深入理解 Linux 内核&#xff08;二&#xff09; Linux 设备驱动程序 Linux设备驱动开发详解 文章目录 系列文章目录五、定时测量1、时钟和定时器电路2、Linux 计时体系结构&#xff08;1&#xff09;计时体系机构的数据…

200G 400G光模块介绍

200G 光模块封装有2种&#xff0c;分别是QSFP56和QSFP-DD。 200G QSFP56有2种光模块&#xff0c;第一种是200G QSFP56 SR4&#xff0c;第二种是200G QSFP56 FR。 200G QSFP56 SR4的封装形式是QSFP56&#xff0c;速率是200G&#xff0c;波长是850nm&#xff0c;最远传输距离是10…

儿童书写台灯哪个牌子比较好?盘点护眼学生用台灯品牌排行

想要拥有一个健康的视力对于我们多么重要&#xff0c;日常生活多么不便利&#xff0c;就是像家里孩子考学时视力也是对于未来专业选择的一个阻碍。 想要孩子不吃近视的苦&#xff0c;从小就要开始抓孩子对于视力和眼睛的呵护。 养成好习惯必须保持一个正确的学习姿势&#xff…