Stable Didffusion 学习笔记经验总结

news2024/9/24 17:21:21

值的概念

在Stable Diffusion中,有很多要设置的参数,这些参数起到的作用非常重要,直接决定了出图的各种样子和质量,经过实践,我大概搞明白他们遵循的规律,因为程序员是要与AI对话的,所以所谓的指标,应该就是让AI放开在机的意思,就如踩油门一样,所以,所有的数字越大,AI越放飞自己,越小,AI就越收敛。

文生图的意义

  1. 文生图的意义就是为了给图生图做准备的,所以一开始不能设置太大,只是为了看个样子,真正要挖细节时,再开始搞成图生图
  2. lora 在文生图的意义在于,将大模型的人物或者服饰,先变成需要的样子,然后在图生图中微调,通过对lora和重绘的设置将样貌和服饰一点点向着自己需要的方向发展.

图生图

  1. 图生图的意义比文生图的意义要大的多,通过不断调整prompt和参数将一张图,向着自己要求的方向绘制,同时还可以借助姿势来帮助AI逐渐调整姿势,这个过程需要反复,通过调整重绘幅度提高AI的想象力,才能实现自己的目标
  2. 重绘值:例如换衣服或者增减衣服,如果选择重绘在0.7以下,AI基本不敢有大动作联想,而达到0.7时,即意味着告诉AI它可以重绘70%的部分,这样AI就可以绽放想象力,所以重绘的概念大家就会很容易理解了,重绘值越低,图片变化幅度越低,如果是0,则不会做任何改变;
  3. 对于衣服的处理,AI对黑色分辨率不高,即使让AI发挥想象力,AI对黑色仍然处理不太好,我想了个点子,就是将所有的服饰中的黑色全部搞成白色,这样AI就很容易识别出来。
  4. 另外就是透明的处理,对衣服,尤其是汉服的处理,可以让其透明,透明程度,可以让AI一点点处理,同时提高重绘程度,来达到透明质地的效果。
  5. lora 在图片重绘时的作用要大些,尤其用lora做局部重绘,效果比较好,我本来想找一下脚的lora,结果训练的人很少,且角度也很少,所以,目前AI虽然能把手画好了,但是脚画起来真是让人痛苦不堪,希望未来有大佬补足这一块。
  6. 局部重绘,已经被融入PS了,也不知道PS怎么搞成图层的,不过这个创意很好,stable diffusion就是单张图片,之前我就在想,如果stable diffusion能做成图层,每渲染一层都进行模式叠加,那就强无敌了,也不知道底层AI是不是这样做的,但是专业的PS貌似已经解读出来了,我详细你不久的未来就会有大牛会搞出来图层的概念来
  7. posex 无法画手,而且四肢的对应比较简单,不知道未来火柴人能不能做得更丰富些,openpose无法识别三维世界,虽然posex能输出三维立体的pose,但是AI不理解呀,它没有分层的概念后,还是靠抽象层去猜,一个抬起的手是在前还是在后,AI好像分不清,不知道我们的打开方式是不是不对,后期继续深入,看看别人怎么解决的
  8. lora权重插件还没有研究,但是自己手写lora进行配置,的确多个lora可以组合效果,通过调节它们参数权重,可以将不同的lora风格加入到重绘当中,目前窍门还没有找到,只能下试,但目前来看,可以理解为层的概念,把最核心的大细节加大权重,小细节都比大lora小,就能实现主体风格不变,并且可以一直加细节
  9. 最终需要微调的图,一定要记得固定住seed,不然AI无法把控在原来的已经形成的模型上,继续追加细节
  10. AI 能听懂你的修图要求,这个之前没提过修图要求,只是让AI设计图,从无到有,实际上也可以从有到无,只要你提的要求符合模型中的词汇即可,这个还是要对模型怎么训练的,LLM的词如何转化AI能识别的意思,尤其是LLM的词有哪些可用,要了解一下

局部重绘

  1. 我的想法得到证实,更具细节的lora,对局部优化有质的提升,AI可以通过对整体图片的识别,这是大模型起到的作用,然后分析你要重绘的局部,思考如何将周边的图像融合进来,以达到更好的无缝衔接效果,这个过程需要你对lora参数进行调整,以及给AI重绘的幅度,两者结合就能很好的让AI知道重绘的点在哪里,然后经过多次随机和prompt的组合调整,就能弄出来符合你预想的图像
  2. 于是商业价值就出来了,谁掌握了大量显卡,快速地给一堆人搞一堆lora,那么这个人以后就可以拿自己的lora搞事情了,甚至未来元宇宙,虚拟世界,都可以拿去用,这是服务于C端客户,同样B端客户的培训和指导,也是商机。

视频重绘

  1. 视频重绘的原理跟局部重绘的原理一致,差异点应该就像 After Effect 有图片批处理方式,例如局部重绘蒙版可以一次性追加到所有图片,如果人物动作幅度不大,AI 对蒙版区域的要求没那么严格,接下来的事情就是烧显卡,不过也比 3D 重新渲染速度要快?

stable diffusion 设计目的

  1. 有时候怎么盈利和赚钱,其实stable diffusion开源公司肯定想到了,所以玩到这里我也似乎有感觉了,文生图可以提高你的想象力,将想象力的成本降到最低,然后就是图生图,将产品经理的内心架构可以很快得到原公司设计体系和风格的延伸,很多大设计公司都是有自己的风格的,储备了大量的已有风格的产品,如果新进去的设计者要熟悉这种风格,并在这个基础上尽快进行新的迭代,而stable diffusion只要给每个设计公司训练一 好基本模型之后,再让每个项目组训练好自己的lora,这样整个公司的风格就定下来了,新的设计者进去后,就可以快速知道风格,并且将自己设计理念用prompt的方式先给到大模型,进行文生图,这样只需要一天的时间,新人就能很好的适应这种风格,并创造出统一风格的设计,同时每个项目组都有大量的lora,融入项目租的速度也加快了,这就是价值的之所在。

(未完待续)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/611032.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【CMake 入门与进阶(3)】 CMakeLists.txt 语法规则基础及部分常用指令(附使用代码)

在上两篇中,笔者通过几个简单地示例向大家演示了 cmake 的使用方法,由此可知,cmake 的使用方法其实还是非常简单的,重点在于编写 CMakeLists.txt,CMakeLists.txt 的语法规则也简单,并没有 Makefile 的语法规…

操作系统复习2.3.4-进程同步问题

生产者-消费者 系统中有一组生产者进程和一组消费者进程 两者共享一个初始为空,大小为n的缓冲区 缓冲区没满,生产者才能放入 缓冲区没空,消费者才能取出 互斥地访问缓冲区 互斥要在同步之后,不然会导致想要同步,但由…

39从零开始学Java之面向对象的继承到底是怎么回事?

作者:孙玉昌,昵称【一一哥】,另外【壹壹哥】也是我哦 千锋教育高级教研员、CSDN博客专家、万粉博主、阿里云专家博主、掘金优质作者 前言 在上一篇文章中,壹哥给大家讲解了面向对象三大特征之一的封装,现在我们还有另…

JWT strings must contain exactly 2 period characters. Found: 0

登录接口异常报错: 这是登录接口报错,实际上他不走登录接口,直接走的拦截器,拦截器应配置好了登录接口的放行,登录接口写的也没有问题,拦截器解析也没有问题,因为之前都是好用的,本…

人车网租赁软件开发|人车网租赁系统|租赁系统源码功能

经过租赁小程序不只可以使物品得到充沛的运用,还能减少一些资源的浪费,租赁行业这两年因为互联网技术的完善,发展也在不断进步,租赁系统定制开发功能也在不断完善,那么企业想要开发租赁小程序的时分需求留意哪些方面呢…

深入了解Java虚拟机之高效并发

目录 Java内存模型与线程 概述 硬件的效率与一致性 Java内存模型 主内存与工作内存 内存间交互操作 对于volatile型变量的特殊规则 原子性、可见性与有序性 先行发生原则 Java与线程 线程实现 线程调度 状态切换 小结 线程安全与锁优化 概述 线程安全 Java中…

HDR显示技术

什么是HDR? HDR(High-Dynamic Range,简称HDR)是指高动态范围图像,是一种能够显示更大的亮度范围和对比度的图像技术。HDR可以让暗部的细节变亮,亮部的细节不失真,呈现出更自然、更真实的画面,…

记一次618军演压测TPS上不去排查及优化 | 京东云技术团队

本文内容主要介绍,618医药供应链质量组一次军演压测发现的问题及排查优化过程。旨在给大家借鉴参考。 背景 本次军演压测背景是,2B业务线及多个业务侧共同和B中台联合军演。 现象 当压测商品卡片接口的时候,cpu达到10%,TPS只有…

Tomcat基本原理

1.Tomcat核心: Http服务器Servlet容器 组件分工: 连接器Connector:处理 Socket 连接,负责网络字节流与 Request 和 Response 对象的转化。容器Container:加载和管理 Servlet,以及具体处理 Request 请求。 …

静态杂波滤波算法

静态杂波滤波算法 1.零速通道置零法2.动目标显示(MTI)3.相量均值相消算法(平均相消算法)4.总结 1.零速通道置零法 零速通道置零法,是指在2D-FFT(速度维FFT)后直接将R-V谱矩阵(RD图&…

计算机网络学习笔记-传输层

目录​​​​​​​ 概述 与网络层的区别 端口号 概述 分类 重要功能:复用分用 两个重要协议:UDPTCP UDP用户数据报协议 概述 主要特点 首部格式 TCP传输控制协议 主要特点 首部格式 运输连接管理 概述 运输层提供应用进程间的逻辑通信通…

SpringBoot—yml配置多环境(踩坑总结!)

一、实例操作 ①、创建对应的application.yml (dev 开发;prod 生产;test 测试)文件 ②、在application.yml文件中,放公共的配置部分 (这部分最好还是复制,自己敲位置,空格不对都会报…

深入理解一下Python中的面向对象编程

Part1 如何面向“对象” 网上关于Java和**C**的面向对象编程相关介绍的博客文章已经很多了,那我为什么还写呢?因为,人生苦短,刚好我是学Python的... 今天,我们就来走进面向对象编程的理想国——深入理解一下Python中…

2023年6月杭州/广州/深圳NPDP产品经理认证招生简章

产品经理国际资格认证NPDP是新产品开发方面的认证,集理论、方法与实践为一体的全方位的知识体系,为公司组织层级进行规划、决策、执行提供良好的方法体系支撑。 【认证机构】 产品开发与管理协会(PDMA)成立于1979年,是…

Go语言反射编程指南

反射[1]是一种编程语言的高级特性,它允许程序在运行时检视自身的结构和行为。通过反射,程序可以动态地获取类型(type)与值(value)等信息,并对它们进行操作,诸如修改字段、调用方法等,这使得程序具有更大的灵活性和可扩…

【论文阅读】用于大型城市场景的网格引导神经辐射场

【论文阅读】用于大型城市场景的网格引导神经辐射场 Abstract1. Introduction2. Related Works and Background大规模场景重建和渲染体积场景表示大尺度NeRF 3. Grid-guided Neural Radiance Fields3.1. Multi-resolution Feature Grid Pre-train3.2. Grid-guided Neural Radia…

AI炒股回报率500%?内行揭秘玄机

一篇来自佛罗里达大学的研究报告震惊了金融圈:用ChatGPT对公司新闻进行情绪分析,并按此在股市做多、卖空,最高可获得超过500%的投资回报率。虽然坊间对这份报告中惊人的回报率数据有所怀疑,但金融界正在因AI的介入发生改变。 摩根…

港联证券|龙头齐聚,本周7股将申购!今年第三高价新股也要来了?

本周(6月5日—6月9日),共有7只新股将进行申购,其中创业板5只(康力源、飞沃科技、恒勃股份、威士顿、海看股份)、科创板2只(西高院、智翔金泰)。 资料显示,康力源是国内健…

Windows下安装与使用Kafka(使用Kafka内置的ZooKeeper图文结合版)

文章目录 Windows安装Kafka1.安装JDK并配置好对应的环境变量 2.安装配置Zookeeper1.下载安装包Apache Zookeeper2.解压并进入Zookeeper目录 防止端口8080启动后被占用,这里考虑先配置下3.安装Kafka3.1 下载安装包3.2、 解压并进入Kafka目录, Windows安装…

Vue.js 中的指令自定义是什么?如何自定义指令?

Vue.js 中的指令自定义是什么?如何自定义指令? Vue.js是一种流行的前端框架,它提供了一种称为“指令”的技术,用于操作DOM元素。Vue.js中内置了一些常用的指令,如v-if、v-show、v-for等。除了内置指令外,V…