微调真香,漫画科技博主竟然在用国产大模型生成系列漫画女主角

news2024/9/23 23:30:55

cf751841311ef47f41691731f9326408.jpeg

有一说一,《微调真香,漫画科技博主竟然在用国产大模型生成系列漫画女主角》不是标题党。

连我也不得不相信,作为“亲爱的数据”创始人,我确实在用人工智能大模型生成自家特有风格的漫画。

市面上,海内外,用Midjourney或者文心一格之类的文生图的能力生成精美图画这件事似乎也没有什么稀奇。

日常聊天,有人动不动就说:“你让人工智能给你画。”

这话我接不住,并且很想回怼。

你能你上呀,你让人工智能给你画。

文生图首先得会“咒语”。

这里的“咒语”是指提示词Prompt

也许有人天生就会用“咒语”。

或者也许有人通过练习能将“咒语”用得出神入化。

很可惜,我没有天赋。

很遗憾,Midjourney的咒语我练了很久,水平依然很菜。

完了,霍格沃茨四大学院,我今年铁定考不上了。

不过,聊以自慰,在文生图的时候,让人工智能“陪你画着玩”和“按职业要求画” 完全是两回事。

后者很难。

821f18548cda8c44d779d6c05014cb65.jpeg

1.风格稳定,继续画出我们已有的漫画风格;

上一张宫崎骏,下一张葫芦娃,这样不行。

2.人物稳定,主角是“同一个IP人物”。

做到这一点,意味着微调后的模型认识我们科技漫画故事里的“女主角”,这里要隆重介绍一下,她叫做“小桔子”。

实际上,我们还有配角团队,就是五仁。没错,就是五仁月饼的那个五仁。和世界上所有的配角一样,我们希望五仁能够丰富故事内容,完成特定任务,推动情节发展,以及搞笑担当。

不过,我们决定要微调模型的时候,五仁的角色还没有确定,或者说,没有完全定型。

4e71a872f6f9daba3568b1fcecc08706.jpeg

3.质量稳定,丑图不行。

这只是三个重点,对于大部分漫画团队的来说,比较有共通性。

团队肯定有自己的审美偏好,所以,次重点也有很多:

比如,笔触力度一致,不能有的画线条粗,有的画,线条细。

比如,不要大面积使用艳丽色彩。

比如,少量着色

……

反正,有图你自己看就行了,图都在文章里。

生成的科技漫画,要把这些要求都满足,可太难了。

好在,谭老师我对人工智能的理解有点深,高低能拿得出手的文章写了二十来万字。

借机,插播一条硬广:

5a78ae10d8ec95d2e41e4e1392791cec.jpeg

这时候,我判断:需要上微调模型了。

这里说的微调模型,是指,在基础大模型的基础上,使用“亲爱的数据”私有数据(漫画图片)训练出来的微调模型。

虽然不知道结果如何,但是“微调”这只“螃蟹”,我先吃为敬

对微调后的模型效果有何期待呢?

我曾经听到一些专业的画家说,人工智能可以激发灵感。要我说,胆子再大一点。

微调模型能够生成特定风格的漫画,情况不外乎三种,

第一,能直接生成我们所需要的科技文章中的配图。这是最好的情况,拿来就用。

第二,对图画少量改动后,就能用。

第三种最糟糕,对图进行大量手工修改。

那种不能用的就直接删了,省的占用存储空间。

为了保护商业秘密和知识产权,文章中均以“我们”来模糊处理团队内部配合和分工的细节。

e6094de55261dd6fad69ab46a39b5597.jpeg

1.基础模型:武汉人工智能研究院的“紫东太初”国产大模型;

2.原始数据:科技科普漫画已经发布了二十多期。对“亲爱的数据”老读者而言,原始数据不需要介绍,全部来自原创漫画系列。

1. 是喜,还是悲?AI竟帮我们把Office破活干完了

2. AI算法是兄弟,AI运维不是兄弟吗?

3. 大数据的社交牛气症是怎么得的?

4. AI for Science这事,到底“科学不科学”?

5. 想帮数学家,AI算老几? 

6. 给王心凌打Call的,原来是神奇的智能湖仓

7. 原来,知识图谱是“找关系”的摇钱树?

8. 为什么图计算能正面硬刚黑色产业薅羊毛?

9. AutoML:攒钱买个“调参侠机器人”?

10. AutoML:你爱吃的火锅底料,是机器人自动进货

11. 强化学习:人工智能下象棋,走一步,能看几步?

12. 时序数据库:好险,差一点没挤进工业制造的高端局

13. 主动学习:人工智能居然被PUA了?

14. 云计算Serverless:一支穿云箭,千军万马来相见

15. 数据中心网络:数据还有5纳秒抵达战场

16.  数据中心网络:迟到不可怕,可怕的是别人都没迟到

17. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?

18. ChatGPT:绝不欺负文科生

19. ChatGPT触类旁通的学习能力如何而来? 

20.开源大模型“二号羊驼”驾到,天下有变,到底怎么变?

不过,值得注意的是,我拿出来的私有数据都是黑白线稿.

从全部数据中挑了240张,并且都进行了标注。

标注方法就是给每个图片都给出了一句描述性的句子,我有一部分数据是彩图,但是没有拿出来训练。原因是,从实用的角度出发。黑白线稿更好修改。

风格上,追求简约,如果线稿能够把科技科普内容说清楚,就不费事复杂上色。

3.训练时间:5小时;

4.训练资源:华为昇腾910 ,2张 32G的NPU;

5.训练类型:小样本微调;

6.应用界面:开源的Gradio简单搭建,不是十分稳定,有时候也会报错;

step是引导步数,越多生成的图细节越多,会更丰富,但也可能会起到反效果;

scale是引导力度,scale越大图像内容跟语义更相关,但过大会导致图像质量下降;

seed是随机种子,改变seed会在保证语义的前提下,调整图像的构图;

bfa52aaa1b68d2ccdc1ffba4e96bbbe6.png

旧版应用界面有些不趁手的地方,我们经过反复讨论,几轮对齐需求。(字少,事多。)

我们更新了一版应用界面,可以调的维度增多了,更能“探索”出大模型的能力。

俗称,顺手了。

7.提示词长度:55个字。

8.每次可生成张数:7张。

22d653afbb526e6740f5d083505bddf9.jpeg

158a134b8e1ec9522d18903c109bfd92.jpeg这部分应该是最有趣的。

借用此前的比喻,带着私有数据上门训练,好比提着自己最喜欢的独门秘方饺子馅,直接到店,向餐厅要求定制化服务。

一般说来,模型微调属于ToB服务。

但,凡事无绝对。

我们科技漫画中的女主人公,也是我们漫画的IP人物,在提示词中使用“SKS小女孩”指代“小桔子”。

让模型学习“认识”小桔子,再生成出她的相关漫画。

7517779dc0b39b844a6622a94bf2496d.jpeg

业务在发展,小桔子的形象也在迭代。

在训练数据中,第二代和第三代小桔子的眼睛差距比较大,所以大模型生成的眼睛的失败率非常高。可能大模型也很困惑到底学哪个。

造成这个糟糕问题的原因是,亲爱的数据团队的业务也在迅速迭代,我们需要调整小橘子的形象,迭代时期正好和训练时间相撞。

但是,业务不可能停下来。

不得不承认,想用新技术,踩坑是避免不了的。

fe9750465c72a2b495e989c4da765322.jpeg

第一代:漫画丨AI for Science这事,到底“科学不科学”?

第二代:漫画云计算Serverless:一支穿云箭,千军万马来相见

第三代:老店迎新客:向量数据库选型与押注中,没人告诉你的那些事

众所周知,基础模型非常重要。

因为是小样本训练,数据以小桔子的形象为主,样本数据中没有出现的大千世界的各种事物,比如企鹅,独角兽,龙,赑屃,只能依靠基础模型的能力。

67697af15f0544d165e89149f03fd52f.jpeg

虽然眼睛总是失败,但我们认为,小橘子的脸型和发型生成得还不错,对此,武汉人工智能研究院的专家给我的讲解是:

学习小橘子的特征既包括风格,也包括样貌。比如,学习一个女生的样貌,10张图就能学到生神态特征。

妙鸭APP生成优美艺术照片的原理也是如此,换妆的时候(场景),不需要学太多特征。

0de9cd2491d1795335edadc72b0a7bce.jpeg

0f6207dea043828b98568cf73c17daa0.jpeg

a18170d67406e9f5cfe34c8324ffffba.png

9c50b7dacaf8dd2d8bbf20598f1519c7.jpeg

结合用文生图模型的心路历程,从经济学的角度谈谈以下几点:

1. 大模型不能代替主创思想。

如果你脑子里什么都没有,大模型也没办法代替你思考。我们的方法是,你有了想法,再去引导大模型生成。

2.文生图模型能让主创团队的工作成果变得更多。

对于创意团队来说,好作品多,自然业界影响力大。同样的团队规模,能出更多的活,紫东太初大模型可以成为我们团队劳动力的补充。

3.施咒能力是一种必备的,很值钱,很有技术含量的技能。

只要提示词这个模式没有被革命,有文生图需求的人都应该尽快学。

图文模型不像语言模型那样情商高,就算你做得不好,它也会有礼貌的安抚你。

图文模型一切用“结果”说话,图不行,就是不行。

咒语水平不行会限制模型能力的施展。上手一个新模型,对“咒语”的使用会有个“适应期”。

对模型的熟悉程度,也影响咒语水平。

不同模型,咒语手法有所不同。比如,Midjouney上的部分经验是可以用在“紫东太初”上,但不能完全照搬。

就算同一家公司的模型,不同版本(比如版本升级),也可能会让“施咒者”从熟练变得生疏。

对紫东太初大模型的评价:

本质上讲,这不是一个大模型测试。

我们甚至也无法做出横向比较,用私有数据微调过的模型,只用了这一个。

我们干这件事情的目的是希望用“紫东太初”大模型做帮手,增大产量,更快出品。

看它能从多大程度上,成为“新同事”。

以目的作为评价标准,我们认为紫东太初微调版本的模型有以下特点:

1. 和Midjourney有差距,但也有自己的特色。

2.配色水平不错,微调模型的数据是黑白线稿,所以配色能力来自于基础大模型。但是,颜色艳丽的高饱和色的配色水平容易翻车。

3.远景背景的生成水平出乎意料,尤其对四字成语或者四字形容词有一定的理解力,四字成语做提示词效果不错。比如万家灯火,深邃广袤。

4.特有的“留白”意境,给模型留下想象空间。

让模型根据学到的知识,自动完善图片。(比如,自动上色配色,比如,设计人物动作)

如有必要,我们会拿出更多的数据,进行下一次微调。

所以,这篇文章也许会出后续。

最后,还是那句话,人不会被AI取代,而是不会用AI的人才会被取代。

One More Thing

给AI工程师的悄悄话:

第一件事,整理数据。

虽然是提着“饺子馅(私有数据)”上门,但是标注好的数据,仍然需要再次清理,转化成需要的格式,去掉图片标注内容中不需要的数字。

第二件事,微调。

一般而言,小样本的微调,模型学习几遍就学会了。

过程是,手写模型训练工程代码,调整学习率等参数,调整“冻结和放开”的参数,紫东太初是多模态大模型,需要激活模型不同区域。

微调过程中,需要“平衡”模型的融合性。

既不能让模型过度训练,从而导致原有信息丧失(遗忘旧知识),也不能因训练不足够而没有学会。

多模态大模型涉及语言和视觉模型,为了保证模型均衡性,同时进行动态调整。

训练过程中,根据样本的数量,样本学习的难易程度不同等因素,需要调整语言和视觉大模型学习时间。

比如,某一领域数据量较少,学习过程中出现语义偏移,模型总在重复学习一类东西,会把之前学习的内容给忘了。我们的这次微调,语义学习的时间短,信息量在图里,所以要多学图片。语义学习的时间短,视觉学习长。

第三件事,测试。

第四件事,部署服务上线,Gradio快速生成应用。

然后,就没有然后了。

73bb915eb2c8e8de3fa40d557344032c.png

更多阅读

AI大模型与学术论文系列:

1.开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?

2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)

3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)

e7b70ea3067f0648ddc7b0809fcfe398.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/931092.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

HAproxy服务及keepalived+haproxy高可用

本节主要学习AHproxy 的概述,安装,调度算法,配置文件,负载均衡,配置syslog日志,keepalivedhaproxy实现高可用。 目录 一、概述 1、简介 2、核心功能 3、关键特性 4、应用场景 二、安装 1.内核配置 …

【附安装包】Marvelous designer12|3D服装设计

软件下载 软件:Marvelous designer版本:12语言:简体中文大小:1.49G安装环境:Win11/Win10/Win8/Win7硬件要求:CPU2.0GHz 内存4G(或更高)下载通道①百度网盘丨64位下载链接:https://p…

X(推特)推出招聘平台,马斯克进军招聘领域,欲对标 LinkedIn

8 月 26 日,埃隆・马斯克接手 X(推特)后,开启了一系列备受争议的变革,并多次在公开场合表示希望将 X 打造成为超级应用,受人瞩目。除了私信中推出了视频聊天和语音聊天功能之外,X 在今天宣布上线…

无涯教程-机器学习 - 数据加载

假设如果要启动ML项目,那么您需要做的第一件事也是最重要的事情是什么?这是无涯教程启动任何ML项目都需要加载的数据。关于数据,对于ML项目,最常见的数据格式是CSV(逗号分隔值)。 基本上,CSV是一种简单的文件格式,用…

网络字节序——TCP接口及其实现简单TCP服务器

网络字节序——TCP接口及其实现简单TCP服务器 文章目录 网络字节序——TCP接口及其实现简单TCP服务器简单TCP服务器的实现1. 单进程版:客户端串行版2. 多进程版:客户端并行版netstat查看网络信息3.多线程版:并行执行log.hpp 守护进程fg、bg s…

BI技巧丨Window应用之同环比

白茶曾介绍过OFFSET可以用来解决同环比的问题&#xff0c;其实微软最近推出的开窗函数WINDOW也可以用来解决同环比。 WINDOW函数基础语法 WINDOW ( from[, from_type], to[, to_type][, <relation>][, <orderBy>][, <blanks>][, <partitionBy>][, &l…

[论文分享]Skip-Attention: Improving Vision Transformers by Paying Less Attention

Skip-Attention: Improving Vision Transformers by Paying Less Attention 这项工作旨在提高视觉transformer&#xff08;ViT&#xff09;的效率。 虽然 ViT 在每一层都使用计算昂贵的自我注意操作&#xff0c;但我们发现这些操作在各层之间高度相关——这是导致不必要的计算的…

计算机网络-笔记-第二章-计算机网络概述

目录 二、第二章——物理层 1、物理层的基本概念 2、物理层下面的传输媒体 &#xff08;1&#xff09;光纤、同轴电缆、双绞线、电力线【导引型】 &#xff08;2&#xff09;无线电波、微波、红外线、可见光【非导引型】 &#xff08;3&#xff09;无线电【频谱的使用】 …

linux问题定位

1.CPU工作原理 2.Linux内存分配 3.栈 1&#xff09;.存储局部变量 函数参数 函数返回值的地方 2&#xff09;.每个线程的栈空间连续且相互独立 3&#xff09;.使用 x /100a $esp 可以看到栈内存中的原始数据 3.函数调用过程 函数调用过程在栈中如何组织数据的 4.堆 三级堆管理…

研磨设计模式day13组合模式

目录 场景 不用模式实现 代码实现 有何问题 解决方案 代码改造 组合模式优缺点 思考 何时选用 场景 不用模式实现 代码实现 叶子对象 package day14组合模式;/*** 叶子对象*/ public class Leaf {/*** 叶子对象的名字*/private String name "";/**…

KVM虚拟化平台安装及创建虚拟机

文章目录 一、KVM 简介二、安装KVM虚拟化平台1、方式一&#xff1a;安装操作系统时&#xff0c;添加虚拟化功能2、方式二&#xff1a;基于现有系统&#xff0c;安装虚拟化功能3、验证KVM安装是否无误 三、创建虚拟机1、创建虚拟机前环境准备工作2、创建CentOS7.5系统虚拟机 一、…

网工必备知识之——防火墙篇

目录 一、背景 二、类型 2.1.过滤防火墙 2.2.应用网关防火墙 2.3.服务防火墙 2.4.监控防火墙 三、功能 3.1.网络安全屏障 3.2.网络安全策略 3.3.进行监控审计 3.4.防止内部信息的外泄 四、五个安全域 五、三种工作模式 5.1交换模式(二层模式): 5.2路由模式(三层…

恶意软件分析和取证:深入研究各类恶意软件,讨论分析技术和数字取证方法,了解攻击者的行为和动机

章节一&#xff1a;引言 在当今数字化的世界中&#xff0c;恶意软件的威胁不断演化&#xff0c;给个人、企业 ja 尤其是政府带来了巨大的安全风险。恶意软件如病毒、木马、蠕虫等形式多样&#xff0c;攻击手段不断升级&#xff0c;导致了信息泄露、财产损失 ja 甚至国家安全的…

【深度学习】实验02 鸢尾花数据集分析

文章目录 鸢尾花数据集分析决策树K-means 鸢尾花数据集分析 决策树 # 导入机器学习相关库 from sklearn import datasets from sklearn import treeimport matplotlib.pyplot as plt import numpy as np# Iris数据集是常用的分类实验数据集&#xff0c; # 由Fisher, 1936收集…

CFC编程入门_【10分钟学会】

什么是CFC&#xff1a; 【差不多10分钟全学会】 CFC是图形化编程&#xff0c; 跟单片机的连线一样&#xff0c; 唯一的区别&#xff1a;功能块右侧是【只能输出】引脚。 只有左侧引脚可以输入输出。 有哪些控件&#xff1a; 指针&#xff1a;用于拖动功能块。 控制点&#xf…

C#将text文本中的单双行分开单独保存

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 文本的分割1.设定text文件的名称为02.文本导出 文本的分割 1.设定text文件的名称为0 代码如下&#xff1a; using System; using System.Collections.Generic; us…

【Seata】01 - Seata XA 模式 Demo 调用流程分析

文章目录 前言参考目录版本说明前置知识1、关于事务的理论知识2、关于 Seata3、Seata 领域模型 测试 Demo1、模块说明2、调用逻辑说明3、分析流程说明4、注意事项 Seata XA 模式 Commit 调用流程分析1、调用流程图2、XA 模式流程以及操作命令3、业务模块&#xff1a;流程入口3.…

掌握Six Sigma:逐步解锁业务流程优化的秘密之匙

一、Six Sigma方法简介 1. Six Sigma的起源和概念 Six Sigma起源于1980年代的摩托罗拉公司。当时的摩托罗拉在面临激烈的全球竞争和持续的质量问题时&#xff0c;发明了这种系统的管理方法&#xff0c;并通过实施&#xff0c;获得了显著的成绩。 所谓的“Six Sigma”&#x…

Tensorflow2.0搭建网络八股

目录 引言&#xff1a;keras与Tensorflow2.0结合 一、六步法 1.导入头文件&#xff1a;import 2.收集处理训练集和测试集&#xff1a;train, test&#xff1a; 3.描述各层网model tf.keras.models.Sequential&#xff1a; 4.描述使用什么优化反向传播&#xff1a;model.c…

Python中使用print()时如何实现不换行

平时刷题的时候大家可能会发现打印字符的时候需要你不换行才能得到正确答案&#xff0c;那么如何实现的。下面直接看例子。 使用print()函数时其实还有个默认的参数end&#xff0c;来看看具体怎么回事 list [a,b,c] for i in list:print(i)打印结果&#xff1a;在这里插入代…