【AIGC】只要10秒,AI生成IP海报,解放双手!!! | 京东云技术团队

news2024/11/16 19:02:01

看完这篇文章,你将学会以下价值连城的内容

1、云端部署(配置不行的小伙伴看)+ 云端模型放置位置

2、本地部署(配置达标的小伙伴看)

3、运用SD训练IP的流程和技巧(LoRA篇)

4、运用SD稳定生成高质量IP海报

众所周知,各大厂目前都在AIGC的领域探索实践,也有非常多的外部设计师制作了大量的AIGC相关授课,很多同学因为不清楚具体能得到什么价值或者收获而停止了脚步。今天我来为大家分享一下经过实际探索且落地的Stable diffusion的IP海报生成流程,内容很干请上车坐稳

📌 先来看一下达达骑士IP的效果:

· 浅看一下IP海报生成过程

· V1模型生成

· V2模型生成

V3模型生成

1、云端部署

应该有很多小伙伴苦于没有一个趁手的电脑配置,以及繁琐的本地配置,最终卡在了配置这个环节,今天我将带大家完成SD的云端部署,看完你就能完美的打开SD了

1、打开云端地址:https://www.autodl.com/home

1、注册登陆后,点击算力市场

2、选择按量计费、内蒙A区(注:不要选北京区可能需要SHH企业打开的问题)

3、点击社区镜像

4、输入搜索关键词vel,找到并选择最新stable-diffusion镜像

5、点击立即创建

6、命名自己的服务器,等待创建完成和开机

7、点击JupyterLab,进入MainUI.ipynb

8、左侧目录下,打开MainUI.ipynb,点击第一行代码区域,然后点击上方的“运行”三角,显示“移动完成”后刷新页面

9、将右上角python 3,改为xl_env

10、点击第二行代码区域,然后点击上方的“运行”三角,等待功能模块出现

11、选择“启动WebUi”,然后勾选前4个常用功能,点击运行WebUi,等待代码运行

12、当看到蓝色的URL时,则表示运行成功了,然后返回AutoDL下自己的服务器

13、点击“自定义服务”,恭喜你成功进入云端SD了

2、云端基础模型的放置位置

1、大模型放置位置:dutodl-tmp——stable-diffusion-webui——models——Stable-diffusion

2、lora放置位置:dutodl-tmp——stable-diffusion-webui——models——Lora

3、VAE放置位置:dutodl-tmp——stable-diffusion-webui——models——VAE

4、ControlNet模型放置位置:dutodl-tmp——stable-diffusion-webui——extensions——sd-webui-controlnet——models

5、起手式位置:dutodl-tmp——stable-diffusion-webui

2、本地部署

秋葉Stable diffusion一键包

百度链接https://pan.baidu.com/s/1A4xSvlLHUJ8uplOc7WjZqg;提取码:sejt

夸克链接:https://pan.quark.cn/s/1dd4f17b3504;提取码:yBRx

3、运用SD训练IP的流程和技巧(LoRA篇)

先来介绍一下什么是LoRA

大家刚接触stable diffusion时,会听到很多专业术语,其中LoRA模型必定是会被提及到的,那么什么是LoRA模型?它有什么作用呢?

LoRA模型全称是:Low-Rank Adaptation of Large Language Models,可以理解为Stable-Diffusion中的一个插件,仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA模型会与大模型结合使用,从而实现对输出图片结果的调整。

举个例子:大模型好比没有修饰过的人物、物品、场景、等;LoRA模型好比是改变人物、物品、场景等内容的形色质构的因素,但仍然在大模型的底子下。当然LoRA模型不仅仅限制于人物,场景、动漫、风格。

1、训练环境的搭建

· 本地:可下载秋葉SD trainer训练器一键包

· 云端:AutoDL云端配置,社区镜像中找到Train进行部署

2、训练集处理(图片处理+打标+训练参数)

· 图片处理

· 首先我们需要准备训练的IP(也可以是:物品、场景、风格等),训练图的尺寸需要统一,且以64的倍数设置:常用分辨率为512*512、512*768、768*1152。因为如果尺寸不统一或不是64的倍数,AI在训练过程会对你的图片进行裁切,导致你想要的画面细节被裁减

· 其次我们需要有3种类型的图:白底IP图+场景IP结合图+单独场景图,整个训练集的数量可以有多少准备多少,越多越好(但是要保证差异性,重复的动作或角度需要剔除)

· 打标

· 当我们准备好需要AI训练的图以后我们需要对这些训练图进行描述,可使用自动打标工具或手动打标(手动打标训练效果会更好) ,准备一个txt文本(保证和你描述的图片命名一一对应),然后进行详细的描述,以下是我的一些举例:

· 在打标描述里需要注意格式:我们常用的格式是“触发词”+“自然语言”+“单词”,并且保证全程英文输入,包括标点符号

3、模型训练&参数设置

(注:这里的参数需要根据自身训练的IP或内容进行调优,存在是错成本,这里给大家科普一些基础)

· 补充2个概念:欠拟合、过拟合

· 过拟合:指AI只会生成你给他提供的训练集内容,比如IP动作、场景、元素、等

· 欠拟合:指AI生成的内容和你训练集的内容完全没关联,或者说收敛性很差导致IP不像

· 基础训练参数

• repeat次数(每张图训练的次数,次数不是越高越高,训练太多会导致过拟合,训练太少会导致欠拟合)

• epoch训练轮数(训练集训练的轮数,轮数不是越高越好,训练太多会导致过拟合,训练太少会导致欠拟合)

• dim值(dim代表了训练的精度)

• alpha值(alpha用于控制模型复杂性和约束性,alpha 必须≤dim)

• learning rate、unet lr、text encoder lr(学习率决定模型学习的程度,影响训练效果,比如稳定性、泛化性、收敛性)

• 训练优化器(自适应优化器和非自适应,决定了AI学习节奏)

· 训练过程中的观察

· 需要观察训练的Loss值,Loss值需要成递减状态(正常状态),曲线波动不易较大。并且需要记录每一次训练的参数和Loss值来分析后续模型调优的方向

4、模型测试

· 模型测试阶段,我们需要启动SD,并且运用XYZ轴来测试每个版本的模型搭配的LoRA权重,以及大模型,最终沉淀出我们最优版本的模型。

· 在测试阶段我们需要围绕着3个核心的点:稳定性、泛化性、以及收敛性进行测试

· 稳定性:模型是不是在大多数prompt输入下,都能够出现好的效果

· 泛化行:生成的内容是不是有AI创新的内容(动作、场景、元素、等)

· 收敛性:生成的IP以及特征(或其他核心内容)是不是你想要的效果

4、运用SD稳定生成高质量IP海报

1、模型&提示词

· 生成环境模型主要包括3类,底模、LoRA模型、以及VAE(可以理解为滤镜),我们可以尝试各种不同的大模型,比如二次元的anything、目前用的最多的Rev、或者真人类的real

· 提示词分为2部分,正向词为你想要的内容,负向词代表你不想要的内容

· 正向词:会出现3种类型:触发词+提示词+LoRA,越靠前的词汇权重就会越高

· 在生成出好的效果后大家可以对自己的prompt进行保存

2、采样方式

· 简单来说,这些采样器是算法,它们在每个步骤后获取生成的图像并将其与文本提示请求的内容进行比较,然后对噪声进行一些更改,直到它逐渐达到与文本描述匹配的图像

· 常用的采样器如:Euler a、DDIM、DPM++系列,可以根据自己模型来调整尝试出最好的参数

3、采样迭代步数

· SD通过从充满噪点的画布开始创建图像,然后逐渐去噪以达到最终输出。Steps就是控制这些去噪步骤的数量。通常,越高越好,但一般情况下,我们使用的默认值是20个步骤,这其实已经足以生成任何类型的图像

· 如果在测试新提示希望快速得到理想的构图或结果,可使用15-20steps

· 当找到确认的seed后,可将步骤增加到20-30steps

4、面部修复

· 面部修复可改善脸部特这个以及细节,让人脸更自然和美观,建议当找到确认的seed后打开

5、高清修复

· 通过使用算法,AI可以首先在较低的分辨率下对图片进行部分渲染,然后将其提升到高分辨率,并在高分辨率下添加细节,建议当找到确认的seed后打开。

· 常用高清算法如: R-ESRGAN 4x++

6、重绘幅度

· 可以理解为AI在创作过程中的发散幅度,越高的值会带来越大的创意,反之会更精准。

7、随机种子

· Seed可以理解为你生成图的身份ID,每个生成图都有自己的seed,当确认了基础构图以及想要的基础效果后锁定种子,从而完成微调

8、尺寸、批次、批数

· 尺寸:一般会以64的倍数去递增,常用尺寸在前期确认seed之前会用到512*768,512*512,等

· 生成批次、每批数量:每批、每次次生成的图像数量,建议在前期找画面之前可以开大数量去抽卡,找到自己想要的画面,然后锁定seed

9、点击生成,完成IP海报(记得记住&保存自己的参数模版)

到这里我们整个流程就走完了,接下来我们就可以不断的生成和创新我们的IP海报了

最后我想说在AI绘画领域还有很多需要探索和实践,未来我也会继续与大家分享更多有价值的内容,如果你也喜欢AIGC的探索可以留言一起交流一起进步

作者:京东零售 徐仲巍

来源:京东云开发者社区 转载请注明来源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1047666.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言】指针与动态内存

文章目录 1. 使用动态内存的意义2. 动态内存分配函数2.1 malloc2.2 free2.3 calloc2.4 realloc 3. 动态内存会被自动释放吗?4. 涉及动态内存常见的错误使用4.1 对NULL指针的解引用操作4.2 未对开辟的动态内存空间初始化4.3 越界访问4.4 对非动态开辟内存使用free释放…

vue-cli项目打包体积太大,服务器网速也拉胯(100kb/s),客户打开网站需要等十几秒!!! 尝试cdn优化方案

一、首先用插件webpack-bundle-analyzer查看自己各个包的体积 插件用法参考之前博客 vue-cli项目中,使用webpack-bundle-analyzer进行模块分析,查看各个模块的体积,方便后期代码优化 二、发现有几个插件体积较大,有改成CDN引用的…

解决github 2FA验证

安装谷歌浏览器插件 身份验证器 https://chrome.google.com/webstore/detail/authenticator/bhghoamapcdpbohphigoooaddinpkbai 安装后点击这里后,选中github网页提供的二维码,插件会生成一个code,粘贴到github网页需要输入code的地方 验证…

Visual Studio 删除行尾空格

1.CtrlH 打开替换窗口(注意选择合适的查找范围) VS2010: VS2017、VS2022: 2.复制下面正则表达式到上面的选择窗口(注意前面有一个空格): VS2010: $ VS2017、VS2022: $ 3.下面的替换窗口不写入 VS2010: VS2017、VS2022: 4.点选“正则表达式…

UE4蓝图

1、绑定蓝图到对象并打印对象名称 2、变量数值 3、变量字符串 4、侧边栏 5、分支判断 6、倒计时停止 7、每隔一秒执行一次 8、倒计时按条件执行 9、多按键阻断、重置 10、门的状态:开、关、开关 11、一个键盘事件完成多个事件 12、随机抽奖 13、分:秒计时器&#x…

opentelemetry、grafana、Prometheus、jaeger、victoria-metrics 介绍、关系与使用

Opentelemetry OTEL 是 OpenTelemetry 的简称, 是 CNCF 的一个可观测性项目,旨在提供可观测性领域的标准化方案,解决观测数据的数据模型、采集、处理、导出等的标准化问题,提供与三方 vendor 无关的服务。 OpenTelemetry 是一组标…

一致性思维链(SELF-CONSISTENCY IMPROVES CHAIN OF THOUGHT REASONING IN LANGUAGE MODELS)

概要 思维链已经在很多任务上取得了非常显著的效果,这篇论文中提出了一种 self-consistency 的算法,来代替 贪婪解码 算法。本方法通过 采样多个思维链集合,然后LLM模型生成后,选择一个最一致的答案作为最后的结果。一致性思维链…

第二十届北京消防展即将开启,汉威科技即将精彩亮相

10月10日~13日,第二十届中国国际消防设备技术交流展览会,将在北京市顺义区中国国际展览中心新馆隆重举行。该展会由中国消防协会举办,是世界三大消防品牌展会之一,本届主题为“助力产业发展,服务消防救援”。届时将有4…

控价维权的意义是什么

品牌为什么要做控价,其目的又是什么,控价是品牌管控渠道的一种方式,通过控价,品牌可以达到管控渠道价格的目标,同时在管控的过程中,可以及时发现渠道中的低价、假货、窜货链接,并及时将这些链接…

山海鲸数字孪生金融解决方案:开创智能金融新时代

在金融行业的数字化浪潮中,数字孪生技术正以惊人的速度崭露头角。这项技术不仅改变了金融机构的运营方式,还为金融从业者提供了更多机会来提高效率、降低风险以及提供更加个性化的服务。为了解决这一需求,山海鲸可视化退出一系列智慧金融解决…

MySQL面试题-索引的基本原理及相关面试题

先了解一下MySQL的结构 下面我们重点讲一下存储引擎 MySQL的数据库和存储数据的目录是一一对应的,这些数据库的文件就保存在磁盘中对应的目录里 下面我们来看一下对应的具体数据文件 .frm是表的结构,不管什么样的索引都会有 .ibd代表我们现在使用的存…

智慧灯杆网关管理平台:城市建设的智慧化之道

随着城市化进程不断推进,城市公共服务和管理的数字化、智能化已经成为必然趋势。而要实现从“灯杆”到“智慧灯杆”的转变,构建新一代城市基础设施,就需要以智慧灯杆管理平台为核心的解决方案。 星创易联自主研发的智慧灯杆管理云平台,是新型城市物联网建设的关键环节。它以LE…

【RocketMQ】【源码】DLedger选主源码分析

RocketMQ 4.5版本之前,可以采用主从架构进行集群部署,但是如果master节点挂掉,不能自动在集群中选举出新的Master节点,需要人工介入,在4.5版本之后提供了DLedger模式,使用Raft算法,如果Master节…

SpringSecurity的认证流程源码深入刨析

环境 SpringBoot版本:2.7.14 流程图 默认的Filter SpringSecurity的默认Filter地址:http://t.csdn.cn/YH838 常见的认证授权技术 1、基于表单的认证(Cookie & Session) 基于表单的认证并不是在 HTTP 协议中定义的&#x…

互联网社交礼仪:我到底该怎么笑才对

点击文末“阅读原文”即可参与节目互动 剪辑、音频 / 小黑 运营 / SandLiu 卷圈 监制 / 姝琦 封面 / 姝琦Midjourney 产品统筹 / bobo 场地支持 / 声湃轩天津录音间 一切要从不知情的阿福发微笑脸说起。 微笑、呲牙笑、流汗笑,到底哪个才是真正的笑&#xff1…

C++入门篇10---stack+queue+priority_queue

前言 本文主要是介绍C库中的栈、队列和优先级队列(其实就是堆)的一些接口以及如何用C来实现它们,对这三种数据结构就不多介绍了,如有不了解的同学,请查阅我之前写的两篇博客 栈和队列的实现二叉树和堆详解 下面正片开始 一、stack 1.了解s…

企业知识库构建:关于企业知识库及知识平台搭建的重要性!

随着企业规模的不断发展与壮大,在企业运营相关知识信息将不断产生,而知识处理中,建立知识库会面临着信息零散碎片化、信息关系复杂难梳理、信息不完整、碎片数据难以沉淀存储等问题…… 所以作为企业管理者,首先需要意识到关于企业…

SPA项目之主页面--数据表格的增删改查

🥳🥳Welcome Huihuis Code World ! !🥳🥳 接下来看看由辉辉所写的关于VueElementUI的相关操作吧 目录 🥳🥳Welcome Huihuis Code World ! !🥳🥳 一.增删改查 1.样式准备 2.编码 …

聚合统一,SpringBoot实现全局响应和全局异常处理

目录 前言 全局响应 数据规范 状态码(错误码) 全局响应类 使用 优化 全局异常处理 为什么需要全局异常处理 业务异常类 全局捕获 使用 优化 总结 前言 在悦享校园1.0版本中的数据返回采用了以Map对象返回的方式,虽然较为便捷但也带来一些问题。一是在…

机器人制作开源方案 | 货物输送小车

作者:周展鹏 黄万森 彭军铭 吕会权 聂文俊 单位:柳州工学院 指导老师:蔡洪炜 王一波 1. 场景调研 目前货物输送已成为人们生活中必不可少的部分,加之国内近年来有因快递配送导致疫情迅速传播的事件常有发生,因此在疫…