每日学术速递4.17

news2024/12/30 3:25:11

CV - 计算机视觉 |  ML - 机器学习 |  RL - 强化学习 | NLP 自然语言处理  

Subjects: cs.CV

1.DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion

标题:DreamPose:通过稳定扩散实现时尚图像到视频合成

作者:Johanna Karras, Aleksander Holynski, Ting-Chun Wang, Ira Kemelmacher-Shlizerman

文章链接:https://arxiv.org/abs/2304.06025

项目代码:https://grail.cs.washington.edu/projects/dreampose/

摘要:

        我们介绍了 DreamPose,这是一种基于扩散的方法,用于从静止图像生成动画时尚视频。给定一张图像和一系列人体姿势,我们的方法合成了一个包含人体和织物运动的视频。为实现这一目标,我们将预训练的文本到图像模型(稳定扩散)转换为姿势和图像引导的视频合成模型,使用新颖的微调策略、一组架构更改以支持添加的调节信号和技术鼓励时间一致性。我们对来自 UBC 时尚数据集的时尚视频集进行了微调。我们在各种服装风格和姿势上评估了我们的方法,并证明我们的方法在时尚视频动画上产生了最先进的结果。我们的项目页面上提供了视频结果。

2.Diagnostic Benchmark and Iterative Inpainting for Layout-Guided Image Generation

标题:用于布局引导图像生成的诊断基准和迭代修复

作者:Jaemin Cho, Linjie Li, Zhengyuan Yang, Zhe Gan, Lijuan Wang, Mohit Bansal

文章链接:https://arxiv.org/abs/2304.06671

项目代码:https://layoutbench.github.io/

摘要:

        空间控制是可控图像生成的核心能力。布局引导图像生成方面的进步已在具有相似空间配置的分布内 (ID) 数据集上显示出可喜的结果。然而,目前尚不清楚这些模型在面对具有任意、看不见的布局的分布外 (OOD) 样本时的表现。在本文中,我们提出了 LayoutBench,这是一种用于布局引导图像生成的诊断基准,它检查四类空间控制技能:数量、位置、大小和形状。我们对最近两种具有代表性的布局引导图像生成方法进行了基准测试,并观察到良好的 ID 布局控制可能无法很好地泛化到野外的任意布局(例如,边界处的对象)。接下来,我们提出了 IterInpaint,这是一种新的基线,它通过修复以逐步的方式生成前景和背景区域,在 LayoutBench 的 OOD 布局上展示了比现有模型更强的通用性。我们对 LayoutBench 的四种技能进行定量和定性评估以及细粒度分析,以找出现有模型的弱点。最后,我们展示了对 IterInpaint 的综合消融研究,包括训练任务比率、裁剪和粘贴与重绘以及生成顺序。项目网站:这个https URL

3.DiffFit: Unlocking Transferability of Large Diffusion Models via Simple Parameter-Efficient Fine-Tuning

标题:DiffFit:通过简单的参数高效微调解锁大型扩散模型的可转移性

作者:Enze Xie, Lewei Yao, Han Shi, Zhili Liu, Daquan Zhou, Zhaoqiang Liu, Jiawei Li, Zhenguo Li

文章链接:https://arxiv.org/abs/2304.06648

项目代码:https://github.com/mkshing/DiffFit-pytorch

摘要:

       扩散模型已被证明在生成高质量图像方面非常有效。然而,使大型预训练扩散模型适应新领域仍然是一个开放的挑战,这对于实际应用至关重要。本文提出了 DiffFit,这是一种参数高效策略,用于微调大型预训练扩散模型,从而能够快速适应新领域。DiffFit 非常简单,仅微调特定层中的偏差项和新添加的缩放因子,但会显着提高训练速度并降低模型存储成本。与完全微调相比,DiffFit 实现了 2 × 的训练速度提升,并且只需要存储大约 0.12\% 的模型总参数。已经提供了直观的理论分析来证明缩放因子对快速适应的有效性。在 8 个下游数据集上,与完全微调相比,DiffFit 取得了优越或有竞争力的性能,同时效率更高。值得注意的是,我们表明 DiffFit 可以通过增加最小成本将预训练的低分辨率生成模型调整为高分辨率生成模型。在基于扩散的方法中,DiffFit 在 ImageNet 512 × 512 基准上设置了一个新的最先进的 FID 3.02,方法是从公共预训练的 ImageNet 256 @ 中仅微调 25 个时期。5# 256 checkpoint while being 30 × 训练效率比最接近的竞争对手高。

更多Ai资讯:公主号AiCharm
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/431181.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

无聊写个 chatgpt 玩玩!这不得试一试 openai 的聊天和绘画功能

chatgpt 最近很火。使用 chatgpt 问一些问题还是很有用的。比如面试题,面试题的答案。简直不要太爽。 不过闲来无事,也使用 openai 提供的api ,写了几个小页面,可以进行聊天,和绘画。 项目放在 github 上了&#xff…

cmake和cmake install学习

cmake 设置cmake的C/C编译标准 set(CMAKE_CXX_STANDARD 17) set(CMAKE_C_STANDARD 11)add_library生成的默认是静态库还是动态库 https://blog.csdn.net/HandsomeHong/article/details/122401900 add_library()命令生成的默认库类型取决于第二个参数。如果第二个参数是STATI…

python-day3

第003天 函数和模块的使用 定义函数 在python中可以使用def关键字来定义函数,和变量一样每个函数也有一个名字,而且命名规则和变量的命名规则是一致的。在函数名后面的圆括号中可以放置传递给函数的参数,程序中函数的参数就是相当于数学上…

企业级信息系统开发学习笔记05 初探Spring AOP

文章目录 一、学习目标二、Spring AOP(一)AOP基本含义(二)AOP基本作用(三)AOP和OOP对比(四)AOP使用方式(五)AOP基本概念 三、采用配置方法使用AOP&#xff08…

STM32实验-高级定时器输出指定个数PWM

STM32F103ZET6中有TIM1,TIM8两个高级定时器,每一定时器都有 1、一个16位向上、向下、向上/下自动装载计数器 2、一个16位预分频器和四个独立从输入输出通道 3、每一个通道都可用于输入捕获、输出比较、PWM和单脉冲模式(除了基本定时器,高级定…

Cesium-源码修改-gltf增加纹理贴图改变3dtiles外观

一、需求 Cesium支持加载gltf和3dtiles等三维数据模型,实现了很好的封装,往往只需要给一个uri就能加载模型文件,并实现贴图渲染等。但是好的封装带来的问题是如果开发者想要自定义贴图,那该怎么办?不得不从源码入手。 …

条码控件Aspose.BarCode入门教程(6):如何在C# 中生成GS1-128 条码

Aspose.BarCode for .NET 是一个功能强大的API,可以从任意角度生成和识别多种图像类型的一维和二维条形码。开发人员可以轻松添加条形码生成和识别功能,以及在.NET应用程序中将生成的条形码导出为高质量的图像格式。 Aspose API支持流行文件格式处理&am…

三、Golang环境搭建及打包和工具链

一、环境搭建 从https://golang.google.cn/dl/下载安装即可 新建GO_HOME 系统环境变量,指向go的安装目录 在终端输入go dev即可测试有无安装成功 二、包 所有Go程序的程序都会组织成若干组文件,每组文件被称为一个包。每个包的代码都可以作为很小的复用…

webpack 5 实战(1)

一、为什么使用webpack 个人将前端开发分为三个阶段: 1.1 Web1.0 Web1.0前端主要工作: 前端主要编写静态页面对于JavaScript的使用,主要是进行表单验证和动画效果制作 1.2 Web2.0之AJAX 伴随着AJAX的诞生,前端的工作模式也发…

什么牌子的蓝牙耳机音质最好?盘点2023音质最好的蓝牙耳机

近几年,蓝牙耳机在日常生活中的出现频率越来越高,不管是运动、听歌、追剧、玩游戏等等都能看到蓝牙耳机的身影。接下来,我来给大家盘点几款音质好的蓝牙耳机,感兴趣的朋友可以了解一下。 一、南卡小音舱Lite2蓝牙耳机 参考价&…

使用 WSL 在 Windows 上安装 Linux提示无法解析服务器的名称或地址及0x80370114问题解决

开发人员可以通过WSL在windows电脑上安装Linux发行版,并可以直接在电脑上使用Linux应用程序、实用程序和Bash命令行工具等。 先决条件 必须运行 Windows 10 版本 2004 及更高版本(内部版本 19041 及更高版本)或 Windows 11 才能使用以下命令…

结合企业实践来规范你的Git commit(含插件使用指南)

🏆 文章目标:了解通用的Git commit规范,并在企业的团队内部进行实践。 🍀 如何规范你的Git commit(理论结合企业的实践) ✅ 创作者:Jay… 🎉 个人主页:Jay的个人主页 &am…

论文学习——数据挖掘技术在水文数据分析中的应用

文章目录0 引言1 数据挖掘技术及工具1.1 什么是数据挖掘?1.2 数据挖掘的过程?1.3 常用的数据挖掘技术1.4 ODM2 水文数据分析系统功能设计3 系统实现与应用3.1 数据获取与清理3.2 模型建立4 结语2012年12月 计算机工程与设计 0 引言 洪水是现实生活中频发…

数据结构_第十三关(3):归并排序

目录 归并排序 1.基本思想: 2.原理图: 1)分解合并 2)数组比较和归并方法: 3.代码实现(递归方式): 归并排序的非递归方式 原理: 情况1: 情况2&#…

《剑指大前端全栈工程师》--大前端时代全站式开发,直指大厂P7技术专家

【内容提要】 实力打造大前端时代,走在时代的钱端!   实战驱动教学,探索前端黑科技。紧跟企业实际技术选型,追求技术的实用性与前瞻性完美结合!   本书对大前端技术栈进行了全面的讲解,内容涉及HTML5CS…

AI产品铺天盖地,企业却用不上?

近年来,随着人工智能技术的飞速发展,越来越多的企业开始关注并尝试使用人工智能技术来提高业务效率和降低成本。然而,国内企业使用人工智能技术仍然存在一些困难和问题,主要原因如下: 国外产品不稳定或不安全 目前国内市场上存在许多国外的AI产品,例如ChatGPT、GPT-4等,但这些…

QT CTK控件 CTK开发(二)

CTK 为支持生物医学图像计算的公共开发包,其全称为 Common Toolkit。为医学成像提供一组统一的基本功能;促进代码和数据的交互及结合;避免重复开发;在工具包(医学成像)范围内不断扩展到新任务,而不会增加现有任务的负担;整合并适应成功的解决方案。 本专栏文章较为全面…

教你如何搭建物业-后勤管理系统,demo可分享

1、简介 1.1、案例简介 本文将介绍,如何搭建物业-后勤管理。 1.2、应用场景 该应用包含疫情上报、绿化、安保等管理功能。 2、设置方法 2.1、表单搭建 1)新建表单【返区登记】,字段设置如下: 名称类型名称类型姓名单行文本…

【历史上的今天】3 月 17 日:苹果起诉微软;CN 域名开放注册;赛博朋克之父出生

整理 | 王启隆 透过「历史上的今天」,从过去看未来,从现在亦可以改变未来。 今天是 2023 年 3 月 17 日,在 1958 年的今天,我国第一台黑白电视机诞生。当时,我国电视机研制技术与日本基本处在同一起跑线,是…

四十六、docker-compose部署

一个项目肯定包含多个容器,每个容器都手动单独部署肯定费时费力。docker-compose可以通过脚本来批量构建镜像和启动容器,快速的部署项目。 使用docker-compose部署主要是编写docker-compose.yml脚本。 一、项目结构 不论是Dockerfile还是docker-compo…