每日学术速递5.6

news2024/10/5 23:29:57

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.AG3D: Learning to Generate 3D Avatars from 2D Image Collections

标题:AG3D:学习从 2D 图像集合生成 3D 头像

作者:Zijian Dong, Xu Chen, Jinlong Yang, Michael J. Black, Otmar Hilliges, Andreas Geiger

文章链接:https://arxiv.org/abs/2305.02312

项目代码:https://zj-dong.github.io/AG3D/

摘要:

        虽然人类外表的 2D 生成模型进展迅速,但许多应用程序需要可以动画和渲染的 3D 化身。不幸的是,大多数现有的学习具有不同形状和外观的 3D 人体生成模型的方法都需要 3D 训练数据,而这些数据有限且获取成本高昂。因此,进步的关键是从丰富的非结构化 2D 图像集合中学习 3D 化身的生成模型。然而,在这种欠约束的环境中学习真实和完整的 3D 外观和几何形状仍然具有挑战性,尤其是在存在宽松衣服(例如连衣裙)的情况下。在本文中,我们提出了一种新的来自 2D 图像的真实 3D 人的对抗生成模型。我们的方法通过采用整体 3D 生成器并集成高效灵活的关节模块来捕捉身体和宽松衣服的形状和变形。为了提高真实性,我们使用多个鉴别器训练我们的模型,同时还以预测的 2D 法线图的形式整合几何线索。我们通过实验发现,我们的方法在几何和外观方面优于以前的 3D 和关节感知方法。我们通过系统的消融研究验证了我们模型的有效性和每个组件的重要性。

2.Real-Time Radiance Fields for Single-Image Portrait View Synthesis(SIGGRAPH 2023)

标题:用于单图像人像视图合成的实时辐射场

作者:Alex Trevithick, Matthew Chan, Michael Stengel, Eric R. Chan, Chao Liu, Zhiding Yu, Sameh Khamis, Manmohan Chandraker, Ravi Ramamoorthi, Koki Nagano

文章链接:https://arxiv.org/abs/2305.02310

项目代码:https://research.nvidia.com/labs/nxp/lp3d/

摘要:

        我们提出了一种一次性方法,可以实时从单个未摆姿势的图像(例如人脸肖像)推断和渲染逼真的 3D 表示。给定单个 RGB 输入,我们的图像编码器直接预测神经辐射场的规范三平面表示,用于通过体积渲染进行 3D 感知的新视图合成。我们的方法在消费类硬件上速度很快(24 fps),并且比需要测试时间优化的强 GAN 反转基线产生更高质量的结果。为了训练我们的三平面编码器流水线,我们仅使用合成数据,展示了如何将知识从预训练的 3D GAN 提取到前馈编码器中。技术贡献包括基于 Vision Transformer 的三平面编码器、相机数据增强策略以及用于合成数据训练的精心设计的损失函数。我们以最先进的方法为基准,展示了在具有挑战性的现实世界环境中稳健性和图像质量的显着改进。我们展示了我们在人脸肖像 (FFHQ) 和猫 (AFHQ) 上的结果,但我们的算法也可以在未来应用于其他类别,并带有 3D 感知图像生成器。

3.Visual Chain of Thought: Bridging Logical Gaps with Multimodal Infillings

标题:视觉思维链:通过多模式填充弥合逻辑鸿沟

作者:Daniel Rose, Vaishnavi Himakunthala, Andy Ouyang, Ryan He, Alex Mei, Yujie Lu, Michael Saxon, Chinmay Sonar, Diba Mirza, William Yang Wang

文章链接:https://arxiv.org/abs/2305.02317

摘要:

        大型语言模型的最新进展引发了思维链中的推理,使模型能够以类似人类的方式分解问题。虽然这种范式提高了语言模型中的多步推理能力,但它受到单峰性的限制,主要应用于问答任务。我们声称将视觉增强结合到推理中是必不可少的,尤其是对于复杂的、富有想象力的任务。因此,我们引入了 VCoT,这是一种利用思维链提示和视觉语言基础的新方法,以递归地弥合顺序数据中的逻辑差距。我们的方法使用视觉引导来生成合成的多模式填充,这些填充添加了一致的和新颖的信息,以减少可以从时间推理中受益的下游任务的逻辑差距,并为模型的多步推理提供可解释性。我们将 VCoT 应用于 Visual Storytelling 和 WikiHow 摘要数据集,并通过人工评估证明 VCoT 提供了新颖且一致的合成数据增强,击败了思想基线链,可用于增强下游性能。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/494842.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Amper Music:AI创意音乐工具

【产品介绍】 Amper Music 是一家位于美国纽约的人工智能音乐技术公司,成立于2014年。 Amper Music是一个AI创意音乐工具,能让任何人为自己的内容制作原创音乐。无论你需要为视频、播客或互动内容配乐,Amper Music都能提供一个简单而强大的解…

【PHP在线定制商城网站源码V3.0】开源的DIY在线定制商城系统+在线礼品定制

源码下载:https://download.csdn.net/download/m0_66047725/87637177 PHP在线定制商城网站源码,免费开源、免费下载。本商城基于mycncart开发。安装成功后即可浏览,你可以在后台->安装扩展功能上传安装插件,在代码调整中点击刷…

【边缘设备】yolov5训练与rknn模型导出并在RK3588部署(亲测有效)

保姆级教程,看这一篇就够用了 环境准备 将宿主机和开发板接入同一个局域网,方便开发。 宿主机 PC电脑,x86_64, 带显卡, 配置不表, 能训练和开发即可。系统: ubuntu 22.04 LTS 版本( ubuntu 18.04 LTS 以上)自带的远程软件&…

windeployqt工具打包C++ QT项目

目录 前言方法TIP 前言 使用VS编写好QT项目后,有时需要发送给他人进行测试。在此情况下,发送所有项目文件显然不可取,因为exe文件不能独立运行,故在测试前需要先配置项目环境,以确保运行所需的库文件能够完全。 因此&…

《操作系统》——计算机系统概述

前言: 在之前的【Linux】学习中,我们已经对常见指令已经开发工具等进行了详细的了解。紧接着,我们将要学习的便是关于【Linux进程】的基本知识。但是为了帮助大家更好的理解相关的知识概念,我先带领大家来学习关于《操作系统》这…

【SpringMVC】| 拦截器 | 跨域请求 | 原理详解 | 代码实操

目录 一. 🦁 前言二. 🦁 拦截器 & 跨域请求1. 拦截器Ⅰ. 拦截器和过滤器(Filter)的区别Ⅱ. 拦截器的使用步骤1. 创建SpringBoot项目,添加Spring Web依赖2. 创建控制器方法3. 创建拦截器类4. 编写JSP页面5. 配置Interceptor核心配置类6. 拦…

《理想国》读书感悟

第一卷 话题从年老谈到财富,引出了雪蒙拿的正义观:欠债还钱是正义,从而提出了“正义是什么”的探讨。 辩论中正义定义的演变: 实话实说欠债还债是正义(商人的视角)。报朋友以善,报敌人以恶是…

Springboot JSR303校验是怎么回事?

概述: 在做项目的过程中,除了要在前端进行数据校验外,服务端也必须做相应的校验,因为高手可绕过前端的校验,直接进入服务端调用相关的方法,进行资料的盗取或破坏。在前端如果使用VueElementUI的方式&#…

基于SpringBoot3从零配置SpringDoc

为了方便调试,更好的服务于前后端分离式的工作模式,我们给项目引入Swagger。 文章目录 1. SpringFox2. SpringDoc2.1 引入依赖2.2 配置文件2.3 语法2.4 使用示例Tag 用于标识controllerOperation 用于标识方法Schema 用于标识实体类和实体类的属性ApiRes…

Unity Nsight Graphcis 使用

前言 在渲染Profile中,大家经常喜欢使用Renderdoc软件, 之前我的一篇博客也介绍Renderdoc Profile渲染的流程 RenderDoc Debug UE4 Shader_ue4 debug shader_带帯大师兄的博客-CSDN博客 Renderdoc适合查看Draw哪一步出差了,导致效果不符合理想&#xf…

webpack : 无法加载文件 D:\...\node-v18.16.0-win-x64\webpack.ps1,因为在此系统上禁止运行脚本

用idea打开项目时,安装webpack打包的包之后,由于组策略问题拒绝执行脚本 解决方法 1、cmd打开命令行。输入:powershell 出现 PS 证明已经进入组策略模式 2、输入:get-executionpolicy,查看策略 ​ 输入&#xff1a…

浅谈线程池

浅谈线程池 1、线程池 1.1、线程池介绍 线程池是一种多线程处理形式,处理过程中将任务添加到队列,然后在创建线程后自动启动这些任务。线程池线程都是后台线程。每个线程都使用默认的堆栈大小,以默认的优先级运行,并处于多线程…

Golang每日一练(leetDay0057) 缺失区间、最大间距

目录 163. 缺失的区间 Missing Ranges 🌟🌟 164. 最大间距 Maximum Gap 🌟🌟🌟 🌟 每日一练刷题专栏 🌟 Golang每日一练 专栏 Python每日一练 专栏 C/C每日一练 专栏 Java每日一练 专栏…

空闲任务与阻塞延时(笔记)

目录 前言 空闲任务实现空闲任务1、定义空闲任务栈2、定义空闲任务的任务控制块4、定义空闲任务主体 实现阻塞延时vTaskDelay()函数任务与空闲任务切换的例子:vTaskSwitchContext()函数SysTick中断服务函数更新系统时基 SysTick初始化函数实验仿真 前言 软件延时是…

牛客网专项练习Pytnon分析库(二)

1.Z-score标准化公式,,中的σ表示的是什么(C)。 A.总体平均值 B.数据的方差 C.数据的标准差 D.数据的众数 解析: Z-score标准化也叫标准差标准化法,其中X表示数据样本值,μ表示数据样本的平均值&#x…

婚姻的本质,不是爱情

婚姻的本质,不是爱情 结婚是为了爱情么?普通人或许以为是,但实际并不是。如果你是为了爱情,那你不需要结婚。什么叫爱情。所谓爱情,就是你对她朝思暮想,时时刻刻都想和她在一起。而她也对你朝思暮想&#…

Vue学习笔记1 - Vue是什么?

1,Vue概念 官网上(简介 | Vue.js) 上说, Vue (发音为 /vjuː/,类似 view) 是一款用于构建用户界面的 JavaScript 框架。 这个还好理解,就是说它是一款前端框架,用于构建 前端界面的。 但是它…

NewBing 还无法访问的几个问题

大部分的AI自媒体都在说,Bing new已经向全世界开放了,我也凑一下这个热闹,用Edge浏览器打开,访问https://www.bing.com/new?ccus 想体验一下Bing new的效果,结果如下: 相信很多人都碰到了这个问题 此体验…

Windows上使用CLion配置OpenCV环境,CMake下载,OpenCV的编译,亲测可用的方法(一)

一、Windows上使用CLion配置OpenCV环境,亲测可用的方法: Windows上使用CLion配置OpenCV环境 教程里的配置: widnows 10 clion 2022.1.1 mingw 8.1.0 opencv 4.5.5 Cmake3.21.1 我自己的配置: widnows 10 clion 2022.2.5 mingw 8.1.0 https://sourceforge.net/projects/min…

二十三种设计模式第三篇--抽象工厂模式

介绍 抽象工厂模式(Abstract Factory Pattern)是围绕一个超级工厂创建其他工厂,该超级工厂又称为其他工厂的工厂。 这种类型的设计模式属于创建型模式,它提供了一种创建对象的最佳方式。 在抽象工厂模式中,接口是负责…