每日学术速递5.13

news2024/12/23 20:03:52

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

 

Subjects: cs.CV

1.VideoChat: Chat-Centric Video Understanding

标题:VideoChat:以聊天为中心的视频理解

作者:KunChang Li, Yinan He, Yi Wang, Yizhuo Li, Wenhai Wang, Ping Luo, Yali Wang, Limin Wang, Yu Qiao

文章链接:https://arxiv.org/abs/2305.06355

项目代码:https://rl-at-scale.github.io/

摘要:

        我们在这项研究中,我们通过引入以端到端聊天为中心的视频理解系统 VideoChat,开始对视频理解的探索。它通过可学习的神经接口集成了视频基础模型和大型语言模型,在时空推理、事件定位和因果关系推理方面表现出色。为了指导性地调整该系统,我们提出了一个以视频为中心的指令数据集,该数据集由数千个与详细描述和对话相匹配的视频组成。该数据集强调时空推理和因果关系,为训练以聊天为中心的视频理解系统提供了宝贵的资产。初步的定性实验揭示了我们的系统在广泛的视频应用中的潜力,并为未来的研究设定了标准。通过此 https URL 访问我们的代码和数据

2.Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

标题:Relightify:通过扩散模型从单个图像中重新照明 3D 人脸

作者:Foivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou

文章链接:https://arxiv.org/abs/2305.06077

项目代码:https://foivospar.github.io/Relightify/

摘要:

        继扩散模型在图像生成方面取得显着成功之后,最近的工作也展示了它们以无监督方式解决许多逆问题的令人印象深刻的能力,方法是根据条件输入适当地约束采样过程。受此启发,在本文中,我们提出了第一种使用扩散模型作为先验的方法,用于从单个图像进行高精度 3D 面部 BRDF 重建。我们首先利用高质量的面部反射率 UV 数据集(漫反射和镜面反照率和法线),我们在不同的照明设置下渲染以模拟自然 RGB 纹理,然后在串联的渲染纹理对上训练无条件扩散模型和反射成分。在测试时,我们将 3D 可变形模型拟合到给定图像,并在部分 UV 纹理中展开面部。通过从扩散模型中采样,在保持观察到的纹理部分完好无损的同时,该模型不仅修复了自遮挡区域,还修复了未知的反射分量,在一个单一的去噪步骤序列中。与现有方法相比,我们直接从输入图像中获取观察到的纹理,从而导致更忠实和一致的反射率估计。通过一系列定性和定量比较,我们在纹理完成和反射重建任务中展示了卓越的性能。

3.TidyBot: Personalized Robot Assistance with Large Language Models

标题:TidyBot:具有大型语言模型的个性化机器人协助

作者:Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, Yuxiao Dong

文章链接:https://arxiv.org/abs/2305.05658

项目代码:https://tidybot.cs.princeton.edu/

摘要:

        机器人要想有效地提供个性化的物理帮助,就必须了解用户的偏好,这些偏好通常可以重新应用于未来的场景。在这项工作中,我们研究了家庭清洁的个性化,机器人可以通过拾取和放好物品来整理房间。一个关键的挑战是确定放置每个物体的合适位置,因为人们的喜好会因个人品味或文化背景而有很大差异。例如,一个人可能更喜欢将衬衫存放在抽屉中,而另一个人可能更喜欢将它们放在架子上。我们的目标是构建可以通过与特定人的先前交互从少数示例中学习此类偏好的系统。我们表明,机器人可以将基于语言的规划和感知与大型语言模型 (LLM) 的少量摘要功能相结合,以推断广泛适用于未来交互的广义用户偏好。这种方法可以实现快速适应,并在我们的基准数据集中对看不见的物体实现 91.2% 的准确率。我们还在真实世界的移动机械手 TidyBot 上展示了我们的方法,它在真实世界的测试场景中成功地放置了 85.0% 的物体。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/531525.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络基础知识(五)——什么是TCPUDP协议?图文并茂的方式对两大传输层协议进行从头到尾的讲解

文章目录 01 | 📕 什么是 T C P ? \color{red}{什么是TCP?} 什么是TCP?📕特点三次握手 && 四次挥手超时重传滑动窗口 02 | 📙 什么是 U D P ? \color{orange}{什么是UDP?} 什…

1. 链表

b站懒猫数据结构课程笔记:https://www.bilibili.com/read/cv8013121?spm_id_from333.999.0.0 一、链表的概念 单链表:线性表的链接存储结构 单链表存储特点: 逻辑次序和物理次序不一定相同 元素之间的逻辑关系用指针表示 举例&#xff1a…

PASCAL VOC数据集

一、前言 之前寒假好像就学了,但是没有记笔记,现在看来还是得记笔记,都忘得差不多了啊。 二、数据集的介绍 2.1数据集背景 分类类别 2.2数据集文件结构: 2.3文件夹 2.3.1Annotations文件夹 对于标注文件Annotations:里…

基于SpringBoot框架的程序开发步骤

SpringBoot简介 1. 入门案例问题导入1.1 入门案例开发步骤1.2 基于SpringBoot官网创建项目1.3 SpringBoot项目快速启动 2. SpringBoot概述问题导入2.1 起步依赖2.2 辅助功能 1. 入门案例 问题导入 SpringMVC的HelloWord程序怎么写? SpringBoot是由Pivotal团队提供…

死锁、生产者和消费者问题

目录 生产者和消费者问题 死锁的概念 内存的基础知识 内存管理的概念 覆盖与交换 介绍一下PCB 连续分配管理方式​编辑 生产者和消费者问题 死锁的概念 什么是死锁 进程死锁、饥饿、死循环的区别 死锁产生的必要条件 什么时候会发生死锁 死锁的处理策略 内存的基础知识 内存…

微三云润秋带你解析商城分销系统

管理大师德鲁克曾说过:当今企业间的竞争,不是产品之间的竞争,而是商业模式之间的竞争。创业不只是项目选择重要,好的商业模式同样重要,如果没有好的商业模式,企业将会被淘汰。 今天我们要聊的这个商城就有点…

怎样设置CRM目标?有什么作用?

实施CRM系统可以帮助企业提高客户保留率,增加收入,并推动业绩增长。然而,在实施CRM系统之前,必须设定明确的目标,与企业的整体战略保持一致。在这篇文章中,我们来讨论实施CRM目标是什么,如何设定…

基于AD9172/AD9176的4 通道12.6GSPS 采样率16 位DA 播放FMC JESD204B 接口子卡模块

板卡概述 FMC_XM131 是一款4 通道12.6GSPS 采样率16 位DA 播放FMC子卡模块,该板卡为FMC标准,符合VITA57.4 规范,可以作为一个理想的IO 模块耦合至FPGA 前端,16 通道的JESD204B 接口通过FMC连接器连接至FPGA 的高速串行端…

【Python TurboGears】零基础也能轻松掌握的学习路线与参考资料

Python TurboGears是一款开源的web框架,它篮了多种Python库和工具,可以更容易地开发和维护web应用程序。TurboGears具有优秀的文档和活跃的社区支持,是学习web开发的理想选择之一。以下是Python TurboGears学习路线,参考资料和优秀…

一句话简短解析 jsjiami.v6

jsjiami.v6 是一种广泛使用的 JavaScript 代码混淆工具,它提供了多种代码混淆技术,包括变量名重命名、函数名重构、字符串替换、代码结构混淆等,可以将代码转换为难以理解和阅读的形式。在本文中,我们将对 jsjiami.v6 进行分析&am…

【FMC137】基于 VITA57.4 标准的4 路2GSPS/2.6GSPS/3GSPS 14 位AD 采集子卡模块--AD9208得多通道中文资料

板卡概述 FMC137 是一款基于VITA57.4 标准规范的JESD204B 接口FMC 子卡模块, 该模块可以实现4 路14-bit 、2GSPS/2.6GSPS/3GSPSADC 采集功能。该板卡ADC 器件采用ADI公司的AD9208 芯片,,与ADI 公司的AD9689 可以实现PIN 脚兼容。该ADC 与FPGA…

Agisoft Metashape 基于影像的外部点云着色

Agisoft Metashape 基于影像的外部点云着色 提示:这里可以添加系列文章的所有文章的目录,目录需要自己手动添加 例如:第一章 Python 机器学习入门之pandas的使用 提示:写完文章后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 Agisoft Metashape 基于影像的外…

JavaScript全解析——this指向

本系列内容为JS全解析,为千锋教育资深前端老师独家创作 致力于为大家讲解清晰JavaScript相关知识点,含有丰富的代码案例及讲解。如果感觉对大家有帮助的话,可以【点个关注】持续追更~ this指向(掌握) this 是一个关…

Python系列之判断和循环

感谢点赞和关注 ,每天进步一点点!加油! 目录 一、判断语句 1.1 Shell里的判断语句格式 1.2 Python里的判断语句格式 二、循环语句 2.1 Python while循环 2.1.1 while 循环的基本格式 2.1.2 while 循环使用else语句 2.2 Python for 循…

每日学术速递5.16

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理 Subjects: cs.CV 1.Locally Attentional SDF Diffusion for Controllable 3D Shape Generation 标题:用于可控 3D 形状生成的局部注意 SDF 扩散 作者:Xin-Yang Zheng, Hao Pa…

全能视频转换:Tipard Video Converter Ultimate Mac

Tipard Video Converter Ultimate 是一款 Mac 平台上的视频转换工具,它可以帮助用户将各种视频文件转换为不同的格式,以适应不同的设备和播放器。使用 Tipard Video Converter Ultimate,用户可以轻松地将视频转换为 MP4、AVI、WMV、FLV、MKV、…

美股股指期货在哪看?如何选择美股股指期货平台?

美股股指期货的交易方式与股票交易的方式类似。投资者可以通过经纪人或美股股指期货平台进行交易,也可以到股票交易所进行交易。需要注意的是,并非所有的美股股指期货平台都值得信赖。投资者在交易前需要筛选出靠谱的美股股指期货平台。 美股股指期货平台…

12金币问题的解决

title: 12金币 date: 2023-05-16 11:42:26 tags: 数据结构与算法 git地址:https://github.com/944613709/HIT-Data-Structures-and-Algorithms 12金币 **问题:**给出12个硬币,其中一个是假硬币,用一个天平来确定三种重量的假币&a…

AVUE样式、刷新、字典等操作

1、操作栏、表格样式的控制 2、下拉框字典的设置 3、日期格式的设置 const dateFormat function(row, value) { if (!value) return ; let format YYYY-mm-dd; let date new Date(value); const dataItem { Y: date.getFullYear().toString(), m: (date.ge…

Pycharm找不到python版本怎么办?解决方法:ModuleNotFoundError: No module named ‘torch‘

目录 1、conda我的使用版本是2023,04最新的 2、如果使用conda自定义的python的版本的话,那么着实有问题 我发现了我不管使用什么办法,切换到conda里面安装的虚拟机吧,就是找不到! 如果直接吧conda作为加载器搞进去呢&#xff0c…