有一说一,《微调真香,漫画科技博主竟然在用国产大模型生成系列漫画女主角》不是标题党。
连我也不得不相信,作为“亲爱的数据”创始人,我确实在用人工智能大模型生成自家特有风格的漫画。
市面上,海内外,用Midjourney或者文心一格之类的文生图的能力生成精美图画这件事似乎也没有什么稀奇。
日常聊天,有人动不动就说:“你让人工智能给你画。”
这话我接不住,并且很想回怼。
你能你上呀,你让人工智能给你画。
文生图首先得会“咒语”。
这里的“咒语”是指提示词Prompt。
也许有人天生就会用“咒语”。
或者也许有人通过练习能将“咒语”用得出神入化。
很可惜,我没有天赋。
很遗憾,Midjourney的咒语我练了很久,水平依然很菜。
完了,霍格沃茨四大学院,我今年铁定考不上了。
不过,聊以自慰,在文生图的时候,让人工智能“陪你画着玩”和“按职业要求画” 完全是两回事。
后者很难。
1.风格稳定,继续画出我们已有的漫画风格;
上一张宫崎骏,下一张葫芦娃,这样不行。
2.人物稳定,主角是“同一个IP人物”。
做到这一点,意味着微调后的模型认识我们科技漫画故事里的“女主角”,这里要隆重介绍一下,她叫做“小桔子”。
实际上,我们还有配角团队,就是五仁。没错,就是五仁月饼的那个五仁。和世界上所有的配角一样,我们希望五仁能够丰富故事内容,完成特定任务,推动情节发展,以及搞笑担当。
不过,我们决定要微调模型的时候,五仁的角色还没有确定,或者说,没有完全定型。
3.质量稳定,丑图不行。
这只是三个重点,对于大部分漫画团队的来说,比较有共通性。
团队肯定有自己的审美偏好,所以,次重点也有很多:
比如,笔触力度一致,不能有的画线条粗,有的画,线条细。
比如,不要大面积使用艳丽色彩。
比如,少量着色
……
反正,有图你自己看就行了,图都在文章里。
生成的科技漫画,要把这些要求都满足,可太难了。
好在,谭老师我对人工智能的理解有点深,高低能拿得出手的文章写了二十来万字。
借机,插播一条硬广:
这时候,我判断:需要上微调模型了。
这里说的微调模型,是指,在基础大模型的基础上,使用“亲爱的数据”私有数据(漫画图片)训练出来的微调模型。
虽然不知道结果如何,但是“微调”这只“螃蟹”,我先吃为敬。
对微调后的模型效果有何期待呢?
我曾经听到一些专业的画家说,人工智能可以激发灵感。要我说,胆子再大一点。
微调模型能够生成特定风格的漫画,情况不外乎三种,
第一,能直接生成我们所需要的科技文章中的配图。这是最好的情况,拿来就用。
第二,对图画少量改动后,就能用。
第三种最糟糕,对图进行大量手工修改。
那种不能用的就直接删了,省的占用存储空间。
为了保护商业秘密和知识产权,文章中均以“我们”来模糊处理团队内部配合和分工的细节。
1.基础模型:武汉人工智能研究院的“紫东太初”国产大模型;
2.原始数据:科技科普漫画已经发布了二十多期。对“亲爱的数据”老读者而言,原始数据不需要介绍,全部来自原创漫画系列。
1. 是喜,还是悲?AI竟帮我们把Office破活干完了
2. AI算法是兄弟,AI运维不是兄弟吗?
3. 大数据的社交牛气症是怎么得的?
4. AI for Science这事,到底“科学不科学”?
5. 想帮数学家,AI算老几?
6. 给王心凌打Call的,原来是神奇的智能湖仓
7. 原来,知识图谱是“找关系”的摇钱树?
8. 为什么图计算能正面硬刚黑色产业薅羊毛?
9. AutoML:攒钱买个“调参侠机器人”?
10. AutoML:你爱吃的火锅底料,是机器人自动进货
11. 强化学习:人工智能下象棋,走一步,能看几步?
12. 时序数据库:好险,差一点没挤进工业制造的高端局
13. 主动学习:人工智能居然被PUA了?
14. 云计算Serverless:一支穿云箭,千军万马来相见
15. 数据中心网络:数据还有5纳秒抵达战场
16. 数据中心网络:迟到不可怕,可怕的是别人都没迟到
17. ChatGPT大火,如何成立一家AIGC公司,然后搞钱?
18. ChatGPT:绝不欺负文科生
19. ChatGPT触类旁通的学习能力如何而来?
不过,值得注意的是,我拿出来的私有数据都是黑白线稿.
从全部数据中挑了240张,并且都进行了标注。
标注方法就是给每个图片都给出了一句描述性的句子,我有一部分数据是彩图,但是没有拿出来训练。原因是,从实用的角度出发。黑白线稿更好修改。
风格上,追求简约,如果线稿能够把科技科普内容说清楚,就不费事复杂上色。
3.训练时间:5小时;
4.训练资源:华为昇腾910 ,2张 32G的NPU;
5.训练类型:小样本微调;
6.应用界面:开源的Gradio简单搭建,不是十分稳定,有时候也会报错;
step是引导步数,越多生成的图细节越多,会更丰富,但也可能会起到反效果;
scale是引导力度,scale越大图像内容跟语义更相关,但过大会导致图像质量下降;
seed是随机种子,改变seed会在保证语义的前提下,调整图像的构图;
旧版应用界面有些不趁手的地方,我们经过反复讨论,几轮对齐需求。(字少,事多。)
我们更新了一版应用界面,可以调的维度增多了,更能“探索”出大模型的能力。
俗称,顺手了。
7.提示词长度:55个字。
8.每次可生成张数:7张。
这部分应该是最有趣的。
借用此前的比喻,带着私有数据上门训练,好比提着自己最喜欢的独门秘方饺子馅,直接到店,向餐厅要求定制化服务。
一般说来,模型微调属于ToB服务。
但,凡事无绝对。
我们科技漫画中的女主人公,也是我们漫画的IP人物,在提示词中使用“SKS小女孩”指代“小桔子”。
让模型学习“认识”小桔子,再生成出她的相关漫画。
业务在发展,小桔子的形象也在迭代。
在训练数据中,第二代和第三代小桔子的眼睛差距比较大,所以大模型生成的眼睛的失败率非常高。可能大模型也很困惑到底学哪个。
造成这个糟糕问题的原因是,亲爱的数据团队的业务也在迅速迭代,我们需要调整小橘子的形象,迭代时期正好和训练时间相撞。
但是,业务不可能停下来。
不得不承认,想用新技术,踩坑是避免不了的。
第一代:漫画丨AI for Science这事,到底“科学不科学”?
第二代:漫画云计算Serverless:一支穿云箭,千军万马来相见
第三代:老店迎新客:向量数据库选型与押注中,没人告诉你的那些事
众所周知,基础模型非常重要。
因为是小样本训练,数据以小桔子的形象为主,样本数据中没有出现的大千世界的各种事物,比如企鹅,独角兽,龙,赑屃,只能依靠基础模型的能力。
虽然眼睛总是失败,但我们认为,小橘子的脸型和发型生成得还不错,对此,武汉人工智能研究院的专家给我的讲解是:
学习小橘子的特征既包括风格,也包括样貌。比如,学习一个女生的样貌,10张图就能学到生神态特征。
妙鸭APP生成优美艺术照片的原理也是如此,换妆的时候(场景),不需要学太多特征。
结合用文生图模型的心路历程,从经济学的角度谈谈以下几点:
1. 大模型不能代替主创思想。
如果你脑子里什么都没有,大模型也没办法代替你思考。我们的方法是,你有了想法,再去引导大模型生成。
2.文生图模型能让主创团队的工作成果变得更多。
对于创意团队来说,好作品多,自然业界影响力大。同样的团队规模,能出更多的活,紫东太初大模型可以成为我们团队劳动力的补充。
3.施咒能力是一种必备的,很值钱,很有技术含量的技能。
只要提示词这个模式没有被革命,有文生图需求的人都应该尽快学。
图文模型不像语言模型那样情商高,就算你做得不好,它也会有礼貌的安抚你。
图文模型一切用“结果”说话,图不行,就是不行。
咒语水平不行会限制模型能力的施展。上手一个新模型,对“咒语”的使用会有个“适应期”。
对模型的熟悉程度,也影响咒语水平。
不同模型,咒语手法有所不同。比如,Midjouney上的部分经验是可以用在“紫东太初”上,但不能完全照搬。
就算同一家公司的模型,不同版本(比如版本升级),也可能会让“施咒者”从熟练变得生疏。
对紫东太初大模型的评价:
本质上讲,这不是一个大模型测试。
我们甚至也无法做出横向比较,用私有数据微调过的模型,只用了这一个。
我们干这件事情的目的是希望用“紫东太初”大模型做帮手,增大产量,更快出品。
看它能从多大程度上,成为“新同事”。
以目的作为评价标准,我们认为紫东太初微调版本的模型有以下特点:
1. 和Midjourney有差距,但也有自己的特色。
2.配色水平不错,微调模型的数据是黑白线稿,所以配色能力来自于基础大模型。但是,颜色艳丽的高饱和色的配色水平容易翻车。
3.远景背景的生成水平出乎意料,尤其对四字成语或者四字形容词有一定的理解力,四字成语做提示词效果不错。比如万家灯火,深邃广袤。
4.特有的“留白”意境,给模型留下想象空间。
让模型根据学到的知识,自动完善图片。(比如,自动上色配色,比如,设计人物动作)
如有必要,我们会拿出更多的数据,进行下一次微调。
所以,这篇文章也许会出后续。
最后,还是那句话,人不会被AI取代,而是不会用AI的人才会被取代。
One More Thing
给AI工程师的悄悄话:
第一件事,整理数据。
虽然是提着“饺子馅(私有数据)”上门,但是标注好的数据,仍然需要再次清理,转化成需要的格式,去掉图片标注内容中不需要的数字。
第二件事,微调。
一般而言,小样本的微调,模型学习几遍就学会了。
过程是,手写模型训练工程代码,调整学习率等参数,调整“冻结和放开”的参数,紫东太初是多模态大模型,需要激活模型不同区域。
微调过程中,需要“平衡”模型的融合性。
既不能让模型过度训练,从而导致原有信息丧失(遗忘旧知识),也不能因训练不足够而没有学会。
多模态大模型涉及语言和视觉模型,为了保证模型均衡性,同时进行动态调整。
训练过程中,根据样本的数量,样本学习的难易程度不同等因素,需要调整语言和视觉大模型学习时间。
比如,某一领域数据量较少,学习过程中出现语义偏移,模型总在重复学习一类东西,会把之前学习的内容给忘了。我们的这次微调,语义学习的时间短,信息量在图里,所以要多学图片。语义学习的时间短,视觉学习长。
第三件事,测试。
第四件事,部署服务上线,Gradio快速生成应用。
然后,就没有然后了。
更多阅读
AI大模型与学术论文系列:
1.开源“模仿”ChatGPT,居然效果行?UC伯克利论文,劝退,还是前进?
2. 深聊王金桥丨紫东太初:造一个国产大模型,需用多少篇高质量论文?(二)
3. 深聊张家俊丨 “紫东太初”大模型背后有哪些值得细读的论文(一)