如何构造个人 AI 策略:从 AI 绘画的演进与 ChatGPT 现状出发?

news2025/1/26 14:13:35

持续关注 AI 相关探索:https://github.com/phodal/ai-research

PS:就本文的结论而言,我相信你已经或多或少的有所体会了。也因此,本文更多的是展现一个思考的过程,而不是一个纯粹的结论。

AIGC 是什么?它是指通过机器学习、自然语言处理等人工智能技术,让计算机自动生成文字、图像、音频、视频等各种类型的内容。它能够帮助企业和个人降低创作成本、提高生产效率、增强创意输出等。

开始之前,先说结论:哪怕仅就当前的 AIGC 成熟度,我们都明白:人类应该去做更高价值的事,也因此在当前的工作模式上呈现的是,三步区:

  • 蓝图设计(人类)。负责创意性的思考与设计工作,如场景、软件架构等。

  • 机械化生成(机器)。将创意借助工具或者人转换为 Prompt,然后交给 AIGC 生成。

  • 细节修复(人类)。对于 AIGC 生成不合理、不适宜法律法规等的地方,进行修改。

因此,对于诸多通用的大众领域,人类这样的碳基生物而言,如果不能从思维框架来驾驭 AIGC。而对于细分领域来说,只要在足够卷的情况下,AIGC 也会给予我们更多的惊喜。

与 ChatGPT 的黑盒相比,类似于 Stable Diffusion 白盒开源,可以让我们更了解 Prompt 应该如何编写?如何更好地利用 AIGC。所以,本文的第一部分就是从现有的 AI 绘画的变化来看,如何更好的利用 AIGC。而第二部分则是结合 ChatGPT 的现状来看,如何更好的利用 AIGC。

如何构建高质量的 AI 图形?

注意:请在取得授权的情况下,进行个人模型的练习,避免侵犯个人肖像权。

我们的例子,依旧是基于 Stable Diffusion,开源模型与开源软件才是人类的未来。太长不看图:

4348ab0df0129dafcd6545c14760516d.jpeg

Stable Diffusion 概览

对于一个绘画过程来说,我们可以通过如下的方式,逐步引导绘图应用:

  1. 编写详细的 Negative Prompt,以淘汰不合理的生成内容。

  2. ControlNet 作为基准骨架,引导最终效果,过滤不合理的图像。

  3. 训练与融合个人模型,以构建领域特定的用途。

总的来说:过滤不合理的图像,就能提升生成质量。我们就可以,设计出初步符合需求(在不看 AI 画出来的手情况下)的框架性方案。

严格化验收条件:Negative Prompt

Negative Prompt 会将模型的目标从一般的高概率生成样本转换为生成与负向提示不匹配的低概率样本,从而迫使模型更加关注图像的细节和特征,提高其生成的图像的质量和逼真度。

我们的故事依旧可以从: 微笑的女孩探出火车窗外 故事开开始,简单地翻译成英语,来作为我们的 prompt: smiling girl leaning out the train window。在只有 Prompt 的情况下,会生成各种奇怪的图形,所以我们需要添加 Negative Prompt。

所以在 Stable Diffusion 里,我们就可以通过它来提升质量:

016a26ae16902f7f3b1817ea99336a00.jpeg

Negative

而从结果来看,模型与我们想要的图,还存在一定的距离。对于 ChatGPT 也是类似的,所以我们需要相似的模式:诸如于 写一个不超过 800 字的作文,又或者是 写一个作文,要求如下:1. 不超过 800 字

构架蓝图:ControlNet 精准控线

ControlNet 是一种神经网络结构,旨在通过添加额外条件来控制扩散模型。在特定场景下,ControlNet被用于生成类似建模效果(法线贴图)的中间图和相关的图像。这种技术可以被应用于多个领域,如骨骼绑定、精准控线、线稿上色、深度图结构透视精准重绘等。

简单来说,在人像领域,通过手绘特定的姿势、从照片中解析等方式,创建一个人物姿势,绘制出来的图便采用类似的格式。如下图所示:

74a6e9c9dc9a87bd1de01b6076e1953b.jpeg

ControlNet

从形状和生成的效果来说,除了脸部等细节不是特定令人满意之外,基本能满足使用的需求。而在更好地机器加持下,我们能得到更高分辨率,就可以靠人工修复脸部的问题。

而在写作场景之下,只要我们给了 ChatGPT 大纲,那么他就能帮助我们生成文章。唯一的问题是,我们不能添加上自己的写作风格、历史作品,否则我们可以更加容易使用这个作品。而在那之前,我们需要思考什么是我们的作品?什么是我们的风格?

轻量小模型:DreamBooth 个人模型与风格化

注意:请在取得授权的情况下,进行模型的练习与作品创作。除了 DreamBootb 还有其他工具可使用,但由于时间限制,我就没有展开进一步研究。

融合个人模型是指将训练后的个人风格和特点融入到 AI 绘画模型中,使其生成的画作更贴近个人风格和需求,提高生成画作的个性化和定制化。

诸如在 Stable Diffusion 中,我们可以用自己的头像结合 DreamBooth 等工具训练,以得到一个融合自己风格的模型。在二次元世界里,最常被使用的是 "个人头像",以用于生成动漫或者 idol。效果如下:

32a3bf0f0e94fe03ede1f2833a8d14b3.jpeg

DreamBooth

PS:在取得某人同意的情况下,放一张动画化的结果(当然了,取的是不像本人的照片):

5174d0f4b2567c5024ff071bae801a8b.jpeg
Final

在 Stable Diffusion 的模型尝试之后,我们可以发现:云 GPU + 模型可插件化 + 算力要求逐步下降之后,会使得个人的小模型会变成越来越普及,所以我训练的模型也只在云上跑了几分钟。

完善与细化:局部绘制 —— InPaint 的手部修复

众所周知,当前的 AI 绘图还存在诸多细节问题,比如手、脚等,因此需要一定的人类修复画师。又有一部分人自此成为了服务于 AI 的打工人。如下是使用 InPaint 修复手部时生产出来的,人类画师就需要从中挑选出合适的照片:

0e9159ff135871d81811258d7185148a.jpeg

最后,总算,先找到一张可以凑合着交差的:

fcf9e97f1746fa12cf87e83f8934d856.jpeg

除此,还可以选择对图形进行裁剪,或者使用 Photoshop 等工具进行重绘等。

小小的总结:严格化验收条件 + 构架蓝图 + 轻量小模型 + 完善与细化

要想清晰的表达自己的需求,我们需要:

  • 严格化的验收条件,即通过 Prompt 描写需求,通过 Negative Prompt 排除异常

  • 表达构架蓝图,即通过 ControlNet 创建所需要的内容骨架,控制

  • 轻量的领域小模型,即通过 DreamBooth,结合灵活的架构模型,来丰富 AI 模型。

  • 完善与细化,即通过 InPaint 对有缺陷的部分进行修复,如局部绘制。

当然了,在 Stable Diffusion 里,还可以通过 Inpaint 等方式进行修复。

个人 AI 策略:构架 + 磨炼 + 小模型

在先前的两篇文章里,我们已经不断地在探索适合于个人的 AI 策略:

  • 《基于编程、绘画、写作的 AI 探索与总结》

  • 《Prompt 编写模式:如何将思维框架赋予机器》。

对于我来说,我的 AI 策略大致是:

  • 强化构架能力。强化架构设计、软件设计、抽象设计等。

  • 构建小模型。在未来合适的时候,诸如于合适的开源 GPT 等。

  • 探索与磨炼技巧。探索更多的 AI 解决方案,如 Notion AI 等;持续探索 Prompt 模式等。

对于修复与完善来说,由于 AI 本身是无法达到这么精细的,所以我的想法是持续构建小工具

策略 0:拥抱变化

首先,我们要理解 AIGC 真的带来变化,尽管现今的 AI 并不能完整的代替我们,但是已经能大大提升效率。

作为一个知名的 “开源挖抗” 作者,在我使用 GitHub Copilot 的初期,觉得这 TM(Trademark) 就是一个智障。而我适应了:如何与智障沟通之后,我悟了,我才是 ”智障“ —— 只有理解机器的 API 与工作方式,才能利用好机器。

策略 1:强化构架能力

AI 工具无法替代个人的感性思考和直觉,所以个人在设计过程是非常重要性的。

强化设计是指通过 AI 技术释放个人的创造力,帮助个人在设计中实现更高效、更优质的创造成果。这个策略的核心在于使用 AIGC 工具来自动生成大量的创意元素,例如图像、文字、音频等,从而将创造的效率提高到一个新的水平。

在实践中,个人可以通过以下方式强化自己的构架能力:

  • 持续学习新的设计理念和创意方法,不断拓展自己的知识面和视野。例如,了解一些新兴的设计趋势,学习如何将传统的设计元素与现代的技术手段相结合,从而创造出更有创意和张力的作品。

  • 坚持思考和探索,不断挑战自己的思维方式和想象力。通过不断思考和实践,将自己的思维方式和想象力逐渐转化为可操作的设计构架,从而在 AIGC 工具的帮助下实现更高效的创造。

除此,我们还应该熟练掌握使用 AIGC 工具的方法,尤其是一些高级的特性。例如,对于文本生成任务,可以使用 Negative Prompt 等技巧提高生成的质量;对于图像生成任务,则可以使用 ControlNet 等技术实现更精准的控制。

策略 2:构建领域小模型

PS:此处需要持续寻找合适的工具,就当前而言,只有 AI 绘图领域是相对比较成熟(可用)的。

每个人的知识面是不同的,知识体系也是不同的。因此,我们不能期望一个通用的大模型能够满足所有人的需求。相反,我们应该尝试构建适合自己领域的小模型。通过选择合适的数据集、算法和网络结构,我们可以快速训练出一个专门用于解决自己问题的小型模型。这个模型不需要太复杂,只需要满足自己的需求即可。这样可以提高模型的效率和准确度,并且减少训练时间和计算资源的消耗。

例如,对于一个博客作者来说,可以使用 GPT-3 来帮助自己快速生成博客文章的开头或结尾段落,也可以通过训练自己的小模型,生成符合自己风格的文章内容。对于一名摄影师来说,可以通过构建小模型来辅助自己完成相册的排版、图像剪辑等工作。

所以,对于而言,我有 900+ 的博客,从中训练出来的写作风格,大概是能像我的 —— 也存在不同时机的风格不一样的问题。

策略 3:探索与磨炼技巧

对于探索而言,也是最近才有时间和精力去探索,加入了公司的相关讨论群后,也获得了更多的输入。只是对于我来说,更多的是想把 AI 融入到日常事务中,以提升工作效率,所以也不想去创建微信群。

对于技巧来说,其实更多的是要去理解 AI 是如何 work 的,并将这种模式整合到自己的思维方式里。

除此,我们还可以思考如何将思维框架赋予 AI,以完成更闭环的工作。诸如于 GitHub Copilot 可以帮我们写代码,但是无法从宏观上理解业务问题、整体性的架构问题,生成的代码只是从局部考虑的。因此,我们需要通过不断地磨炼自己的技能和能力,来提高自己的综合素质和创造力。如我正在持续丰富的 phodal/prompt-patterns 也算是我的磨炼技巧。

小结

最后,再让 AI 总结一下四个策略:

  1. 拥抱变化,尽管人工智能并不能完全代替人类,但它已经能够大大提高效率。

  2. 强化构架能力,因为人工智能工具无法代替个人的感性思考和直觉。

  3. 构建领域小模型,可以快速训练出一个专门用于解决自己问题的小型模型。

  4. 探索与磨炼技巧,探索 AI 能力并持续构建小工具,来修复和完善自己的 AI 增强系统。

结论,AI 在短期内还是智障,但是已经可以大大提升效率了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/376865.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

pyenv安装python虚拟环境

文章目录pyenv介绍准备工作安装pyenv设置虚拟环境pyenv介绍 pyenv是一个forked自ruby社区的简单、低调、遵循UNIX哲学的Python环境管理工具, 它可以轻松切换全局解释器版本, 同时结合vitualenv插件可以方便的管理对应的包源。 为什么我们需要pyenv呢 Python解释器版本混乱, 2…

怎么关闭win10自动更新?我们可以这么做!

Win10自动更新可以使系统保持最新状态,但也可能导致一些问题,例如占用大量网络流量,导致系统速度减慢等。如果你希望关闭win10自动更新,不要电脑自动更新,我们可以跟着这篇文章这么做! 操作环境&#xff1a…

测试行业干了5年,从只会点点点到了现在的测试开发,总算是证明了自己

测试不止是点点点 我感觉我是一个比较有发言权的人吧,我在测试行业摸爬滚打5年,以前经常听到开发对我说,天天的点点点有意思没? 和IT圈外的同学、朋友聊起自己的工作,往往一说自己是测试,无形中也会被大家…

Jmeter 连接 JDBC 报错Communications link failure解决办法(云服务器搭建了LNMP环境必看)

换jar包、加?useSSLfalse,3306加防火墙,都不能解决我的问题。最终我发现是我的LNMP环境导致 错误提示 Response message:java.sql.SQLException: Cannot create PoolableConnectionFactory (Communications link failureThe last packet sent successf…

【跨尺度学习:迭代残差:超分:泛锐化】

Pansharpening via Super-Resolution Iterative Residual Network With a Cross-Scale Learning Strategy (基于跨尺度学习策略的超分辨率迭代残差网络泛锐化) 全色锐化是利用高空间分辨率全色(HR PAN)图像恢复低空间分辨率多光…

Vue-Router 路由管理器

文章目录知识点前端路由的概念及作用Vue-Router 的安装Vue-Router 的基本使用知识点 前端路由的概念及作用Vue-Router 的安装Vue-Router 的基本使用 前端路由的概念及作用 需要大家注意的是,这里的路由可不是指我们日常生活中的路由器 😂 ,…

Allegro如何打开或者关闭DFA规则设置操作指导

Allegro如何打开或者关闭DFA规则设置操作指导 在用Allegro做PCB布局的时候,器件与器件之间的DFA规则可以避免器件出现装配问题。如下图 当DFA规则设置好之后,如何打开或者关闭规则,具体操作如下 点击Setup点击Constraints

华为OD机试题,用 Java 解【相同数字的积木游戏 1】问题

最近更新的博客 华为OD机试题,用 Java 解【停车场车辆统计】问题华为OD机试题,用 Java 解【字符串变换最小字符串】问题华为OD机试题,用 Java 解【计算最大乘积】问题华为OD机试题,用 Java 解【DNA 序列】问题华为OD机试 - 组成最大数(Java) | 机试题算法思路 【2023】使…

2023年“网络安全”赛项浙江省金华市选拔赛 任务书

2023年“网络安全”赛项浙江省金华市选拔赛 任务书 任务书 一、竞赛时间 共计3小时。 二、竞赛阶段 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 第一阶段单兵模式系统渗透测试 任务一 Windows操作系统渗透测试 任务二 Linux操作系统渗透测试 任务三 网页渗透 任务四 Linux系统…

硬件工程师——门控开关的设计

假设自己是一个工程师,那么我们怎么介绍自己呢? 我们首先需要可以自己独立设计项目,需要每一个工程师在开始阶段可以独立做项目,从而提高薪水 那么我们怎么提高做项目的能力呢? 通过项目来积累经验,在短…

百亿数据,毫秒级返回查询优化

近年来公司业务迅猛发展,数据量爆炸式增长,随之而来的的是海量数据查询等带来的挑战,我们需要数据量在十亿,甚至百亿级别的规模时依然能以秒级甚至毫秒级的速度返回,这样的话显然离不开搜索引擎的帮助,在搜…

OpenHarmony的未来和如何做好一个开源社区

今天要分享的文章,可能更多只是作为一种观点。主要包括2个内容。OpenHarmony的未来和如何做好一个开源社区,好的,接下来开始今天的内容。 你对OpenHarmony的未来如何看待? OpenHarmony的未来看起来非常光明,因为它具…

把 ChatGPT 加入 Flutter 开发,会有怎样的体验?

前言 ChatGPT 最近一直都处于技术圈的讨论焦点。它除了可作为普通用户的日常 AI 助手,还可以帮助开发者加速开发进度。声网社区的一位开发者"小猿"就基于 ChatGPT 做了一场实验。仅 40 分钟就实现了一个互动直播 Demo。他是怎么做的呢?他将整个…

如何管理好仓库/库房?

仓库管理是企业管理中不可缺少的一部分,事关企业能否正常运行的关键之一,古人有云:“三军未动粮草先行”,一个企业仓库管理做不好,他的生产管理肯定也是做不好的,不是说生产管理人员的管理能力不具备&#…

跨设备文件传输工具横评

文章目录对比QQ微信SnapDropLocalSendIntelUnisonLANDropTailscaleAirDroidSendAnywhere参考文献对比 传输速度测试条件大致相同,文件大小约为 100 MB 工具优点缺点传输速度备注QQ支持断点续传不要求同一局域网需要安装1.81 MB/s微信方便需要安装不支持大文件传完还…

ESP32设备驱动-ML8511紫外线传感器驱动

ML8511紫外线传感器驱动 1、ML8511介绍 ML8511 是一款紫外线传感器,适用于室内或室外获取紫外线强度。 ML8511 配备了一个内部放大器,可根据紫外线强度将光电流转换为电压。 这种独特的功能提供了与 ADC 等外部电路的简单接口。 在掉电模式下,典型的待机电流为 0.1 μ \mu…

认识 ECharts

文章目录前言知识点什么是 ECharts获取 ECharts 的方式从 CDN 获取ECharts 初体验前言 ECharts 是一个使用 JavaScript 实现的开源可视化库。它可以在 PC 端和移动设备上运行,目前兼容的浏览器有 IE8/9/10/11,Chrome,Firefox,Safa…

数组(三)-- LeetCode[370][1109][1094] 区间加法

1 区间加法 1.1 题目描述 1.2 求解思路 常规的思路很容易,给区间 nums[i: j] 加上 val,那就⼀个 for 循环给它们都加上呗,但这种思路的时间复杂度是 O(N)O(N)O(N),由于这个场景下对 nums 的修改⾮常频繁,所以效率会很…

【Redis】常见命令介绍(二)

🚗Redis学习第二站~ 🚩起始站:【Redis】概述&环境搭建(一) 🚩本文已收录至专栏:数据库学习之旅 👍希望您能有所收获 一.概述 Redis是典型的key-value数据库,key一般是字符串,而…

电子科技大学软件工程期末复习笔记(八):软件维护

目录 前言 重点一览 软件维护的定义 四种类型的维护 软件维护的必要性 软件维护的成本 软件维护的困难性 可维护性的定义 决定软件可维护性的因素 软件维护的过程模型 维护费用估算 软件再工程 软件逆向工程 本章小结 前言 本复习笔记基于王玉林老师的课堂PPT与…