每日学术速递5.3

news2024/11/19 18:23:15

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理 

Subjects: cs.CV

1.Learning Locally Editable Virtual Humans

标题:学习本地可编辑虚拟人

作者:Hsuan-I Ho, Lixin Xue, Jie Song, Otmar Hilliges

文章链接:https://arxiv.org/abs/2305.00121

项目代码:https://custom-humans.github.io/

摘要:

        在本文中,我们提出了一种新颖的混合表示和端到端可训练网络架构来对完全可编辑和可定制的神经化身进行建模。我们工作的核心在于将神经场的建模能力与蒙皮网格的易用性和固有 3D 一致性相结合的表示。为此,我们构建了一个可训练的特征码本来存储可变形身体模型顶点上的局部几何和纹理特征,从而利用其在关节下的一致拓扑结构。然后将这种表示用于生成式自动解码器架构,该架构允许适合看不见的扫描和对具有不同外观和几何形状的逼真化身进行采样。此外,我们的表示允许通过在 3D 资产之间交换局部特征来进行局部编辑。为了验证我们的头像创建和编辑方法,我们贡献了一个新的高质量数据集,称为 CustomHumans,用于训练和评估。我们的实验定量和定性地表明,与最先进的方法相比,我们的方法生成了多种详细的化身并实现了更好的模型拟合性能。我们的代码和数据集可在此 https URL 上获得。

2.It is all about where you start: Text-to-image generation with seed selection

标题:这一切都与您的起点有关:通过种子选择生成文本到图像

作者:Dvir Samuel, Rami Ben-Ari, Simon Raviv, Nir Darshan, Gal Chechik

文章链接:https://arxiv.org/abs/2304.14530

项目代码:https://github.com/microsoft/AdaM

v摘要:

        文本到图像的扩散模型可以在新的构图和场景中综合各种概念。然而,他们仍然难以生成不常见的概念、罕见的不寻常组合或像手掌这样的结构化概念。它们的局限性部分是由于其训练数据的长尾性质:网络抓取的数据集非常不平衡,导致模型无法充分代表分布尾部的概念。在这里,我们描述了不平衡训练数据对文本到图像模型的影响,并提供了补救措施。我们表明,通过在噪声空间中仔细选择合适的生成种子,可以正确生成稀有概念,我们称之为 SeedSelect 的技术。SeedSelect 是高效的,不需要重新训练扩散模型。我们评估了 SeedSelect 在一系列问题上的优势。首先,在少样本语义数据增强中,我们为少样本和长尾基准生成语义正确的图像。我们展示了所有类别的分类改进,包括扩散模型训练数据的头部和尾部。我们进一步评估了 SeedSelect 在校正手部图像时的效果,这是当前扩散模型的一个众所周知的缺陷,并表明它显着改善了手部生成。

3.GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking Face Generation

标题:GeneFace++:通用且稳定的实时音频驱动 3D 说话人脸生成

作者:Zhenhui Ye, Jinzheng He, Ziyue Jiang, Rongjie Huang, Jiawei Huang, Jinglin Liu, Yi Ren, Xiang Yin, Zejun Ma, Zhou Zhao

文章链接:https://arxiv.org/abs/2305.00787

项目代码:https://genefaceplusplus.github.io/

摘要:

        用任意语音音频生成说话人肖像是数字人和虚拟世界领域的一个关键问题。一种现代的说话人脸生成方法有望实现通用的音频-嘴唇同步、良好的视频质量和高系统效率的目标。最近,神经辐射场(NeRF)成为该领域流行的渲染技术,因为它可以通过几分钟的训练视频实现高保真和 3D 一致的说话人脸生成。然而,基于 NeRF 的方法仍然存在一些挑战:1)对于口型同步,很难生成具有高时间一致性和音频口型精度的长面部运动序列;2)在视频质量方面,由于用于训练渲染器的数据有限,容易受到域外输入条件的影响,偶尔会产生糟糕的渲染结果;3) 至于系统效率,vanilla NeRF 缓慢的训练和推理速度严重阻碍了它在实际应用中的使用。在本文中,我们提出了 GeneFace++ 来应对这些挑战:1)利用音调轮廓作为辅助特征,并在面部运动预测过程中引入时间损失;2) 提出一种地标局部线性嵌入方法来调节预测运动序列中的异常值,以避免鲁棒性问题;3) 设计一个计算高效的基于 NeRF 的运动到视频渲染器,以实现快速训练和实时推理。通过这些设置,GeneFace++ 成为第一个基于 NeRF 的方法,可以通过广义的音频-嘴唇同步实现稳定和实时的说话人脸生成。大量实验表明,我们的方法在主观和客观评估方面优于最先进的基线。此 https URL 提供了视频示例。

 

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/492107.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【分享】7-Zip解压缩软件的超详细使用攻略

常用的解压缩软件,除了WinRAR之外,7-Zip也是不错的选择。 7-Zip不仅是一款完全免费的开源解压软件,它的解压缩功能也很强大,可以支持视频、文档、文件夹、图片等文件进行压缩操作。 今天小编就来分享一下,7-Zip解压缩…

python一键登录srun校园网(以深圳技术大学为例)

全世界最(不)好的目录 一、需求分析二、实现过程2.1 分析api2.1.1 连接到校园网,自动弹出登录认证界面2.1.2 先输入错误的账号密码,按F12看会获取哪些信息2.1.3 api 2.2 分析加密2.3 流程总结 三.模拟登录3.1 编写配置文件3.2.功能…

【微软Bing王炸更新】无需等待,人人可用,答案图文并茂,太牛了

🚀 AI破局先行者 🚀 🌲 AI工具、AI绘图、AI专栏 🍀 🌲 如果你想学到最前沿、最火爆的技术,赶快加入吧✨ 🌲 作者简介:硕风和炜,CSDN-Java领域优质创作者🏆&am…

opencv实践项目-图像拼接

目录 1.简介2. 步骤2.1 特征检测与提取2.2 关键点检测2.3 关键点和描述符2.4 特征匹配2.5 比率测试2.6 估计单应性 3. 完整代码 1.简介 图像拼接是计算机视觉中最成功的应用之一。如今,很难找到不包含此功能的手机或图像处理API。在本 文中,我们将讨论如…

虹科分享 | 专为创意专业人士设计的Thunderbolt适配器

一、方案介绍 虹科HK-ATTO ThunderLink雷电™ 适配器可以适用于任何地方。 1.小。 2.便携式。 3.强大。 我们的10GBE Thunderbolt适配器的性能至少比内置或附加NIC(包括Mac)高20% , ATTO 360只需点击一个按钮即可优化以太网SAN,并可与Thunder…

xxl-job 使用示例

目录 介绍 下载源码地址 文档网站 源码导入就是这样目录 数据库建表sql 就这么几个表出来了 修改xxl-job-admin项目下的application.properties文件 完事启动就行了 页面 页面访问地址 账号密码 增加自己的定时任务 介绍 这篇写的是接入使用xxl-job 的一个简单流程…

win系统使用macOS系统

最近 win 系统和 ubuntu 系统用的久了,想用一下 MacOS 系统,于是去网上查了相关资料,发现用一款叫 NEXUS 的软件可以实现在 windows 系统体验效果,现把教程记录下来,供大家使用。 目录 一、下载NEXUS 二、 安装NEXU…

IMX6ULL裸机篇之串口实验说明一

一. 串口 本章我们就来学习如何驱动 I.MX6U 上的串口,并使用串口和电脑进行通信。 串行接口指的是数据一个一个的顺序传输,通信线路简单。 UART 作为串口的一种,其工作原理也是将数据一位一位的进行传输,发送和接收各用一 条…

win11本地安全机构保护已关闭怎么办?如何修复windows11本地安全机构保护已关闭?

win11本地安全机构保护已关闭怎么办? 如何修复windows11本地安全机构保护已关闭? 近日有windows11系统用户反映说遇到了这样一个问题:启动电脑后,发现windows右下角的安全中心图标上会显示一个黄色叹号,打开windows安…

操作系统笔记--进程与线程

1--进程 1-1--进程的定义 进程表示一个具有一定独立功能的程序在一个数据集合上的一次动态执行过程; 1-2--进程的组成 一个进程由以下部分组成:① 程序的代码; ② 程序处理的数据;③ 程序计数器中的值,其指示下一条将…

PHP流行框架的报错页面,你见过那些?

在PHP开发过程中,使用框架能够帮助我们更快速、高效地完成项目开发。但是,即使使用了框架,我们还是难免会遇到各种报错。而当我们在开发阶段或调试过程中遇到报错时,框架提供的错误页面可以给我们带来很大的帮助。PHP常用的流行框…

网易一面:如何设计线程池?请手写一个简单线程池?

说在前面 在40岁老架构师 尼恩的读者社区(50)中,最近有小伙伴拿到了一线互联网企业如极兔、有赞、希音、百度、网易的面试资格,遇到了几个很重要的面试题: 如何设计线程池? 与之类似的、其他小伙伴遇到过的问题还有: …

Reinhart FoodService的EDI需求详解

Reinhart FoodService是一家成立于1972年的美国食品服务公司,隶属于上市公司Performance Food Group。Reinhart FoodService为餐馆、酒店、医院、学校等各类机构提供广泛的食品选择和相关服务,产品包括新鲜的肉类、禽类、海鲜、奶制品、烘焙用品、蔬菜和…

迪赛智慧数——柱状图(象形动态图):不同性别消费者点外卖频率

效果图 我国超4亿人叫外卖,你多久点一次外卖? 据数据显示,30.7%男性消费者每周点3-4次外卖,34.3%的女性每周点3-4次,明显女性比男性点外卖频率多。而每周点1-2次外卖中均超过80%。 数据源:静态数据 { "column&…

MIT开源协议,多端适用的租房小程序,带完整的管理员后台

一、开源项目简介 多端适用的租房小程序,带管理员后台。是一个完整的项目,可以直接使用。 二、开源协议 使用MIT开源协议 三、界面展示 部分截图 1. 前台截图 2. 后台截图 四、功能概述 1、使用Uniapp开发的前台,基于 Vue.js 开发所有…

2 种方式在流水线中集成 DAST,动态保护应用程序安全

💡 如何在流水线中集成与应用 DAST ? 近日,在「DevSecOps软件安全开发实践」课程上,极狐(GitLab) 前端工程师钱堃、极狐(GitLab) 高级后端工程师张林杰,展开了关于 DAST 的概念、必要性、优缺点的内容分享,…

如何完美实现数据可视化?

为什么要可视化数据? 在工作中,无论你在哪个场景,你都会接触到数据,需要表达出来。数据可视化的作用是通过结合图表和数据来更好地传达业务信息。目前,大多数公司正在逐步从传统的流程管理过渡到基于数据的管理。数据可视化可以…

明明花钱上了ERP,为什么还要我装个MES系统

目前, ERP系统依旧是很多制造企业的选择。据统计,ERP系统的应用已经达到70%以上,但是在车间的应用, MES系统的应用比例并不高。那么,为什么现在很多企业又都选择再上个MES呢? MES系统是一个面向…

高性能HMI 走向扁平化

个人计算机作为图形用户界面(GUI)在自动化中已经使用了30多年。在那段时间里,从技术、术语、功能到用于创建接口的标准和指南,发生了许多变化。 PC 技术的飞速发展,特别是图形显示,用户界面的技术发展导致了…

分享8款开源的自动化测试框架

在如今开源的时代,我们就不要再闭门造车了,热烈的拥抱开源吧!本文针对性能测试、Web UI 测试、API 测试、数据库测试、接口测试、单元测试等方面,为大家整理了github或码云上优秀的自动化测试开源项目,希望能给大家带来…