Dreambooth工作原理

news2025/1/16 5:06:51

什么是Dreambooth

中文名:梦想亭。

Dreambooth 由 Google 研究团队于 2022 年发布,是一种通过向模型注入自定义主题来微调扩散模型(如稳定扩散)的技术。
所谓自定义主体,就是一张照片,但是照片主体要鲜明。比如一张小狗狗照片,那么狗和背景要有很高的区分度。

在这里插入图片描述

官方给出的一个例子:左边是三张小狗照片,通过dreamboothed 模型后,就能生成右边不同的照片。

小节下:就是使用少量的照片,给到dreamboothed 模型,dreamboothed 模型就能生成出风格不同的照片来。

为什么不直接训练照片呢?

为什么不直接使用这些照片来训练模型呢?因为少量的照片去训练,会造成过拟合语言漂移的问题。

语言漂移 (Language drift)

用一个成语来形容它:流变不居

“Language drift”(语言漂移)是指在机器学习中,训练模型的语言或数据分布与实际应用环境中的语言或数据分布之间的差异或变化。这种差异可能会导致模型在实际应用中表现不佳。

具体来说,语言漂移可能出现在以下情况:

  1. 时间漂移(Temporal Drift):语言随着时间的推移而变化。例如,社交媒体上的流行词汇、俚语或新兴语言可能会不断变化,而训练模型的数据可能是以前的数据,无法跟上最新的语言趋势。

  2. 领域漂移(Domain Drift):语言在不同领域之间可能有差异。模型在一个领域中训练,但在另一个领域中使用时,语言和术语可能不同,导致性能下降。

  3. 地理漂移(Geographical Drift):不同地理位置的语言和方言差异也可能导致漂移。一个地区的特定用语可能在另一个地区无法理解。

为了应对语言漂移,我们通常需要不断更新和微调模型,使用最新的数据以及适应特定领域或地理位置的语言变化。这有助于确保模型在实际应用中保持准确性和效用。

过拟合(Overfitting)

或者叫:过度拟合。

我先用一个成语来形容过拟合:墨守成规

过拟合(Overfitting)是指在机器学习中,模型过度适应训练数据,导致在测试数据上表现不佳的现象。这通常发生在模型变得过于复杂或在训练数据相对较少的情况下。

过拟合的原因:

  1. 模型复杂度过高:当模型具有太多参数或太多层,它可以学会在训练数据上几乎完美匹配每个样本,但这不代表它在新数据上泛化良好。

  2. 训练数据不足:如果可用于训练的数据量有限,模型可能会记住训练数据中的噪声,而不是学习通用规律。

过拟合的表现:

  1. 在训练数据上表现很好,误差很低,但在测试数据上表现糟糕。

  2. 模型的预测波动很大,对新数据敏感。

应对过拟合的方法:

  1. 数据扩充:增加训练数据的数量和多样性,有助于模型更好地泛化。

  2. 减小模型复杂度:减少模型中的参数数量或层级,以降低模型的复杂性。

  3. 来限制参数的大小,减少过拟合的风险。

  4. 早停:在训练过程中监视模型在验证数据上的性能,一旦性能开始下降,就停止训练,以防止过拟合。

Dreambooth 如何解决这些问题呢?

  1. 先给照片的主体取个个性化或者说具有标识性的名字。比如,狗的名字叫:Devora。
  2. 分类的预先保留:意思就是,Devora是啥呢?它是条狗,所以它的类目,就是Dog。

具体怎么做呢?

Dreambooth 的训练

我们需要三样东西:

  1. 一些自定义图像:主体鲜明的照片
  2. 唯一标识符(unique identifier)
  3. 一个分类名(class name)

在上面的例子中。唯一标识符是 Devora。分类就是狗。

然后你需要构建你的 实例提示

a photo of [unique identifier] [class name]

例如:a photo of Devora dog

和一个类提示

a photo of [class name]

比如: a photo of a dog

总结

Dreambooth是类似LoRA 模型。可以对照片的主体、风格、样式,进行微调的模型。
不过据说没有LoRA模型好,LoRA可是直接对交叉注意力层进行训练调整的。

参考地址:

How to use Dreambooth to put anything in Stable Diffusion (Colab notebook)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1111571.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

高校教务系统登录页面JS分析——广东工业大学

高校教务系统密码加密逻辑及JS逆向 本文将介绍高校教务系统的密码加密逻辑以及使用JavaScript进行逆向分析的过程。通过本文,你将了解到密码加密的基本概念、常用加密算法以及如何通过逆向分析来破解密码。 本文仅供交流学习,勿用于非法用途。 一、密码加…

分布式定时任务xxljob

xxl-job的xxl为作者名徐雪里拼音首字母。 xxl-job的作者是2015年开始开发这个项目,那时候springmvcbootstrapadminlte 大行其道,所以这个框架调度器一直沿用这个架构。 一、运行调度器 调度器可以集群或单点运行,以单点运行为例 下载代码…

Python学习笔记——文件操作、异常捕获、模块

食用说明:本笔记适用于有一定编程基础的伙伴们。希望有助于各位! 文件读取 文件操作比较常见,通常我们需要对文件进行读取操作: f1 open(assets/Files/测试文件.txt, r, encodingUTF-8)# 辨别是否可读print(f1.readable())# 读取…

MYSQL常用函数详解

今天查缺陷发现同事写的一个MYSQL的SQL中用到函数JSON_CONTAINS,我当时第一反应是这个函数是Mysql8新加的么?原来小丑尽是我自己。 有必要巩固一下Mysql函数知识,并记录一下。(如果对您也有用,麻烦您动动发财的手点个赞…

第六届“中国法研杯”司法人工智能挑战赛进行中!

第六届“中国法研杯”司法人工智能挑战赛 赛题上新! 第六届“中国法研杯”司法人工智能挑战赛(LAIC2023)目前已发布司法大模型数据和服务集成调度 、证据推理、司法大数据征文比赛、案件要素识别四大任务。本届大赛中,“案件要素…

找不到msvcr120.dll怎么办?msvcr120.dll丢失如何修复?

MSVCR120.dll是一个动态链接库文件,它是Microsoft Visual C 2012 Redistributable Package的一部分。这个文件包含了许多用于运行C应用程序的函数和类。当我们的计算机上缺少这个文件时,就会导致一些程序无法正常运行,甚至会出现系统崩溃的情…

汽车屏类产品(四):仪表Cluster

###前言 仪表Cluster/仪表盘Dashboard,作为伴随汽车诞生就存在的一个主要零部件之一,从机械到电子到数字,可以说也是逐渐发展到现在的。 目前的主流框图如下,中间processor就是主控芯片,可能有buttons/switches,有display显示屏+backlight背光,有audio->speake…

黑客技术(网络安全)学习

1.网络安全是什么 网络安全可以基于攻击和防御视角来分类,我们经常听到的 “红队”、“渗透测试” 等就是研究攻击技术,而“蓝队”、“安全运营”、“安全运维”则研究防御技术。 2.网络安全市场 一、是市场需求量高; 二、则是发展相对成熟…

2023年中国多功能折叠刀产量、销量及市场规模分析[图]

多功能折叠刀是一种集多种功能于一身的刀具,通常包括切割、开瓶、剥皮、锯木等功能,可以通过折叠和展开的方式来实现不同的功能,具有便携、多用途、安全等特点,广泛应用于户外探险、露营、自驾旅行等场景。 多功能折叠刀行业分类…

【AIGC核心技术剖析】扩大富有表现力的人体姿势和形状估计SMPLer-X模型

富有表现力的人体姿势和形状估计 (EHPS) 将身体、手和面部运动捕捉与众多应用结合起来。尽管取得了令人鼓舞的进展,但当前最先进的方法仍然在很大程度上依赖于有限的训练数据集。在这项工作中,我们研究了将 EHPS 扩展到第一个通用基础模型(称为 SMPLer-X),以 ViT-Huge 作为…

layui中页面切分

1.引入Split插件 2.切屏比例设置 pallet与material为标签的id 3.html内部标签上设置切分盒子 4参考网站 : 网站链接

VMware——Window11安装VMware17(图解版)

目录 一、VMware17百度云下载二、安装三、注册 一、VMware17百度云下载 下载链接:https://pan.baidu.com/s/1dv_Y7ig2LUFxeHvrG2rOTA 提取码:elih 二、安装 下载 VMware-workstation-full-17.0.2-21581411.exe 安装包后,右键以管理员身份运…

AutoSar 学习路线

1 获取Spec 如何获取Autosar SPEC文档? 从官网获取最新的规范文档,网址:https://www.autosar.org/standards。 如果浏览器拦截, 点开高级, 点击继续访问即可。 Autosar 分Classific 和 Adaptive Platform. AUTOSAR分…

荧光EEM平滑教程(去除散射)

说明:本文为drEEM工具箱官网教程《Smoothing EEMs》的笔记。 瑞利散射是一种弹性散射。来自激发源的光子遇到溶液中的分子之后,反弹到各个方向。 最重要的是,瑞利散射(的发射波长)总是与激发波长完全相等。 因此&…

ios safari 正则兼容问题

背景: 系统是自己开发的采购管理系统; 最近升级系统之后客户反馈部分苹果手机现在在进入单据界面的时候报错, 内容显示不全; 安卓手机正常; 苹果首页是之前有使用过系统的才不行, 如果是之前没有使用过系统, 现在也是可以; 也尝试清理过缓存,更换浏览器都也是不行; 也更…

CleanMyMac苹果电脑清理软件是智商税吗?最全评测价格、清理效果一次说清

这是一篇CleanMyMac最全评测!价格、清理效果一次说清,告诉你它真不是智商税! 升级Ventura系统之前,我用的是CleanMyMac X绿色版(绝不提倡这个行为)。更新到Ventura之后,之前很多绿色软件失效,浪…

Python|Pyppeteer获取去哪儿酒店数据(20)

前言 本文是该专栏的第20篇,结合优质项目案例持续分享Pyppeteer的干货知识,记得关注。 本文以去哪儿为例,笔者将详细介绍使用pyppeteer获取去哪儿的酒店数据。如果对pyppeteer的使用以及知识点不太熟悉的同学,可往前查看本专栏前面介绍的pyppeteer知识点。 接下来,我们言…

uniapp(uncloud) 使用生态开发接口详情1(创建项目)

开发接口对比时间: 用java开发接口周期太长, 大概5-6个月左右 用php 开发接口周期同样太长, 大概3-4个月左右 用node.js 开发接口周期相对短一点, 大概1-2个月左右 用uniapp 开发接口, 可以不到 1-2周的时间 这里我使用 uniapp 开发接口, 废话不多说了,直接开干 HBuilder官网(…

[资源推荐] 飞书画板模板

今天做PPT,尝试了一些AI工具之后,感觉反而降低了做PPT的效率,因为和想实现的效果还是差很多…然后我本人不到万不得已不做PPT,都是用notion这类在线文档来作展示,今天必须得做ppt,但是不想在ppt里面画图&am…

想找就能找!如何找回iPhone中被隐藏或主屏幕上被删除的应用程序

本文介绍了如何取消隐藏你在iPhone上隐藏的应用程序,以及如何检索你从iPhone中删除的应用程序。 如何取消隐藏隐藏的应用程序 你过去可能在iPhone上隐藏了应用程序,因为你不经常使用它们,或者你只是喜欢几个整洁的主屏幕。如果你决定将隐藏…