AI创作与游戏开发(二)工具方法概述

news2024/11/15 19:55:12

大家好,Generative AI Model的出现,给游戏开发带来一些新的变革.比如像stable dissfusion可以快速的生成图像,设计人物的原型,背景设定.像DreamFusion和这个Magic3D这种模型,它可以通过文本快速的建模3D对象.还有像chatgpt这种可以编写故事啊可以做模拟人物对话.AItts可以进行语音合成.

所以现在各种技术和大模型的出现,我觉得赋予了每个人这种创造力,所以说我觉得在未来的这种游戏开发当中,AI整个工具的占比,会发生一种颠覆性的提升吧.在AI的加持下,我觉得未来的这种游戏制作者,他可能会更关注的是游戏本身的设计,而这些繁琐的实现则可以丢给AI,这是一种新的游戏制作方式,在很多厂商中已经出现了.

呃关于2D图像的模型生成,其实在dissfusion model这种底层算法的革新后,并在大规模数据和这种算力的加持下
其实涌现了大批量图像算法啊,我观察下来是比较优秀的通用的模型.比如说包括的是像Dall-E2,Midjourney,Stable Dissfusion啊其实这不同底层的这个算法,其实都是大同小异的啊,都是这种dissfusion model的变种.

最大的区别就在于底层的训练数据这其实驱使了整个模型的输出风格有所差异.可以看到Midjourney
这种整体的风格,其实是比较偏影视及大作的,它的视觉效果是更震撼的,而像Stable Dissfusion的风格它其实更宽泛,而像Dall-E2这种模型,他就更适合做写实和设计类的类型的生成.

Midjourney
image.png

Stable Dissfusion

image.png

Dall-E2

image.png

这边提一下midjouney这家公司,它是在AIGC的时代下的一个比较典型的例子.AIGC必然会取代一大批人。但与此同时呢,它也会给小公司和个人带来从未有过的机遇.midjouney它没有自己的软件,没有app,没有融资,使用的是discord的UI,靠11个人自筹资金,在不到一年的时间拥有了全球千万用户,年营收上亿美金。

同样可以对比的是discord的公司,discord 同样也是一家比较优秀的公司,但是它本质上仍然是一个非常正统的互联网公司。巧的是discord的营收一年也是一亿美金,但是呢,它需要不断的融资,并且它的员工人数目前是600多人。

image.png

所以呢,AIGC的时代下,我们将会看到公司变得越来越小,但是产品的影响力却很大。互联网类型下劳动密集的公司会越来越少,几个人,十几个人的小公司将更多的出现。

好了,收,回到刚才的话题,相较于不同的这种游戏设计风格,我觉得大家可以选择不同的这种模型,来做生成啊.同时咧,也不必局限于比较哪个好就只用哪个,这些都是工具,还是要以我为主,为我所用.我们要做使用工具的人,不要做工具人.

比如说我们要创建一个游戏地图,直接生成一张地图也是没有问题的,但是不能精准的控制毎一块区域的内容,这时候就可以这种合成的方式来实现

  1. 首先,在 MidJourney和Stable Dissfusion中生成一些很酷的图像,可以通过合适的prompt来生成鸟瞰视角的地图块

image.png

2.然后把它们上传到Dall-E2上

image.png

3.删除一些图像之间重叠的部分,并使用相同的提示生成连接两张图片的细节

image.png

4.然后它们就神奇的融合在一起了

image.png

  1. 重复这个步骤,不断扩大这张图直到满意为止。

image.png

这对于制作生成D&D地图非常有用。在回合制RPG、策略游戏中这种类型的地图还是比较常见的。

同时呢也有一些国内的模型,比如像百度的文心一言啊,太乙的stable-diffusion,画宇宙啊相较于国外的模型
主要是在中文模型的语境下,做了一些优化,不用再去翻译成英文的prompt,但是对文心一言来说,我还是喜欢它之前那种桀骜不驯的样子,嗯,这边找到了一些优化前的文生图片,来玩一玩百度的报菜名吧.

https://juejin.cn/post/7215842168454627387

在二次元绘图模型上,NovalAI和nijijourney是比较不错的模型,像NovalAI是,它的训练数据主要来自于这个Danbooru这个网站,里面大部分是来自日本动画、漫画和游戏的图片,总的来说,NovelAI 就是用 Danbooru 的图片在 Stable Diffusion 的基础上做了模型的优化训练(fine-tune)。Nijijourney听这个名字大家就可能猜到和Midjourney有关,它是其实是midjourney和Spellbrush合作的一款专门针对二次元的AI生成器.但其实整体观察下来这个NovelAI相比Nijijourney,它整体的视觉是更偏向那种那种传统的漫画,Nijijourney风格比较多样化,画面更精致.

NovalAI

image.png

Nijijoruney

image.png

这与此同时啊,在在网上其实也有蛮多这些开发者,贡献了各种fine-tune的diffusion model,我这里提供两个
找模型的网站,一个是这个Civitai,另一个是这个HuggingFace,其实这两个网站,都可以比较快速的得到
你所需风格的模型啊,权重啊,然后可以加载到本地的部署的框架下,就可以使用了.比如去github上找这种开源的AUTOMATIC1111 webui现成的框架,或者懒一点的直接去B站找,弄好的一键包,比如秋叶系列哪些.

https://civitai.com/

image.png

https://huggingface.co/

image.png

当然了也可以通过自己训练模型,来获取到特定角色和特定风格的一些模型,主流方案就是三种吧

一种这个Textual Inversion,它是可以通过学习这种特定的token的编码,来锁定学习的对象
但是它整个的这附加网络的大小其实就有几十k,所以很难捕获到对象的细节,他比较适合做一些风格转换啊
简单物体的生成,由于它是不修改整个原始的模型的,所以说它的能力比较有限

Textual Inversion

根据模型引用给定的图像并选择最匹配的图像,做的迭代越多越好.通过寻找到一个latent空间来描述一个近似训练图的复杂概念,并将该空间分配给关键字

模型文件小: ~30KB

通常不能捕获物品细节,擅长风格转换,本地训练时对性能要求不高

Hypeenetwork

通过引入一个新的参数模块,来学习特定的知识,使用时可以插入该模块来引导生产.

模型文件小: ~87MB

适合学习较大的概念,如艺术风格,简单物体,在较低训练步数就能看到一些结果.本地训练时对性能要求不高,不需要大显存.

DreamBooth

重新训练整个模型,修改所有网络参数

模型文件小: 2-5GB

适合训练人脸,动物和复杂物体

显卡要求最高

它是整个训练了重新的网络参数,它整个网络都会被fine-tune,所以它的训练代价是最大的
但同时它的效果也是最好的,它是可以比较准确的捕捉到你上传的图片的这些人物特征,但是其实他也是需要一些繁
繁琐的一些调参才会出现比较惊艳的效果.这个调参,主要也就包括你输入的图像的数量和风格是否一致
然后你prompt编写是否规范,然后还有一些像学习力啊,迭代步数是否合理,所以说这个也是蛮花精力去调节的

如果不选择这个训练模型,也是有一些方法是可以来控制风格和人物的
1.比如通过prompt,这里也推荐几个我比较常用的网站lexica和画宇宙,可以通过搜索来快速的获取,想要图片的关键字,prompt,尺寸啊,以及说它具体的随机种子是什么

https://lexica.art/

image.png

2.还可以用ChatGPT,Claude这种语言模型来生成成我们想要的的prompt

比如用这个调教

1.prompts分为两个部分,positive和negative,他们分别控制你希望生成的内容,和不希望生成的内容。

2.promot可以是单词、复合词语和简单的短语,不要出现复杂的句式。

3.根据stable difussion prompt datebase,每个prompt具有不同的分类,分为画面质量(例如high quality,low detailed)、画风(例如realism)、构图(例如f/1.4,135mm焦距,vanishing point)、内容(例如black hair,constructures)。每个分类的可以输入多个prompt,他们之间用’,'隔开。

4.你可以定义每个prompt的权重,权重的范围在0~2,支持小数点后4位精度,0代表不重要,1代表普通,2代表非常重要。你可以通过’(prompt:weight)'这种直接指定的方式控制,注意括号是必须的,不可以省略。例如(black hair:1.5),(best quality:2)

5.一般来说,一份好的prompt的权重分配应该是质量>画风>构图>内容,即给与质量最高的权重,这可以控制图像生成的效果。

6.在生成prompt时,仅需要生成对应的英文,不要用中文解释。 现在,如果你了解了 ,请回复我:“我已了解。”,并生成四个质量有关的prompt作为测试

它是可以直接反馈出一个完整的prompt,个生成的语句相比于直接翻译来说,它的细节和准确度是更好的,所以说我们最后发现,结果还是AI其实是最懂AI的.

3.此外,AI绘画领域的lora和controlnet也迅速的发展了起来。lora模型的自训练和controlnet对画面的控制能力,都让文生图变得更加的落地,补全了它进入工作流的最后一块拼图

image.png

呃对于整个可控生成的话,其实也是有一些其他方案啊,比如说我们可以用人偶,来摆设出底图的layout,这里是推荐比如说像无限人偶这样的软件,它是可以通过,比如说我就摆设一些人物的具体的一些姿态,然后我再通过摆设过后的姿态,在AI中使用image to image的方式,来生成固定的姿态和色彩的人物,这种方案的话我觉得还是蛮可控的啊

image.png
http://www.pofiapp.com/

4.关于AI生成内容的身份锁定方面,有一些技巧,比如先选择一个比较大的画布,然后在这个大画布上
,可以画多个人物,就像叙事壁画一样,其实包括它的正面和侧面图,然后这样的话我在一幅画画面下
,画几个人物,它的几个人物的特征都会保持一致.

常用的一些AI处理软件吧,最主要就比如说waifu2x这种超分的软件,还有自动抠图的photo Cutter,Erase bg,clipdrop.还有自动上色的palette.fm,一些打光的像Relight,还有一些修复的工具CleanUp,这可能在零零散散的这个后续的后处理上可能都会用上

waifu2x
image.png

palette.fm
image.png

Relight
image.png

在3D模型的生成方面,比如说这个Google开发了这个文生的3D模型的DreamFusion,通过输入文本直接AI生成3D模型,是自带贴图的,但是这个效果吧比较差强人意,但是也可以勉强可以挑出一些,可以用的3D模型

remote_166994912443736.gif

还有一些像是比较有意思的,像这monstermash,它是可以通过直接很简单的像这种简笔画或者一些简单的图片,比如说你是用NovalAI生成的人物,可以快速的膨胀成一个3D模型,然后我就添加一些简单的骨骼动作,我就会做一些简单的3D动效,我觉得这还是蛮有意思的

https://monstermash.zone/

在代码生成方面呢,我推荐使用的是ChatGPT这种,它其实是可以做代码生成的,我自己实测下来感觉,它的这个代码水平已经超过了大学生了,甚至我觉得,有些地方还是超过我现在了,对所以说我觉得这个整个ChatGPT它生成代码能力还是蛮强的.在VSCode中使用ChatGPT的中文插件的体验是很不错的,填一个自己的openai key就好了,优化和解释代码的右键操作也是很方便的.

image.png

image.png

还一个我比较喜欢用的是github的copilot,其实它这个功能和字面意思也是比较像的,它叫副驾驶员嘛
所以说它主要还是做代码的辅助生成,我在写完半行代码的时候,帮我补全下一半,节省我打字的时间,生成的内容我体验下来大部分还是符合我的预期.

代码生成还有一个codex,还没体验过,你们可以去试试水

在游戏策划方面

然后在这文本生成上,我依旧还是比较首推的ChatGPT/GPT4,他的这个效果上,在整个的这个对话质量上,还有他续写的文章的一些水平上,我觉得都是目前应该是最强的,而且他的这个通用性和广泛性,也是最好的.当然也是有一系列国产的可以用啊,像阿里的通义千问,但是我都没排队到,这里就不能推荐了.这个展开太多了呢,我们还没可以专门来一期玩玩.

在游戏语音和音乐方面

mubert AI作曲,AIVA AI,声咖,腾讯智影,MoeGoe合成语音
AI生成音乐的整体的韵律和这个氛围感,我觉得差不多生成的质量已经达到了,这个游戏的基本使用的水平了吧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/693184.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试题23】MyISAM和InnoDB的区别

文章目录 一、前言二、MyISAM和InnoDB的区别2.1 存储结构和存储方式2.2 索引数据结构2.3 主键索引和非主键索引2.4 索引上存放的数据 三、MyISAM和InnoDB如何进行选择3.1 电子商务网站:3.2 博客类网站3.3 数据仓库 总结 一、前言 本文已收录于PHP全栈系列专栏&#…

Springboot 整合Camunda7

文章目录 前言一、原项目引入camunda二、直接搭建新demo 前言 camunda7文档 与springboot版本兼容组合 一、原项目引入camunda 导入maven依赖 <dependency><groupId>org.camunda.bpm.springboot</groupId><artifactId>camunda-bpm-spring-boot-sta…

【全志v3s】LicheePi-zero BSP移植开发流程

文章目录 基于全志v3s的Lichee-zero BSP移植开发流程ubuntu 系统安装下载镜像换源备份源列表修改 sources.list 文件更改为清华镜像源更新并升级安装依赖库 安装交叉编译工具链安装编译器新建 tool 文件夹并进入下载交叉编译链创建文件夹并解压配置环境变量安装其他库验证是否安…

【C++】定制删除器和特殊类设计(饿汉和懒汉~)

文章目录 定制删除器一、设计一个只能在堆上(或栈上)创建的类二、单例模式 1.饿汉模式2.懒汉模式总结 定制删除器 我们在上一篇文章中讲到了智能指针&#xff0c;相信大家都会有一个问题&#xff0c;智能指针该如何辨别我们的资源是用new int开辟的还是new int[]开辟的呢&…

通用分页【上】

一、什么是通用分页&#xff1f; 通用分页是一种常用的分页方式&#xff0c;也被称为“前端分页”。它是指在获取数据的时候&#xff0c;将大量的数据分成若干页以便于用户查看和操作。通用分页通常是在前端完成的&#xff0c;也就是在用户界面上进行处理。通用分页的优点是可…

[Flask] 初识Flask

Flask是一个使用Python编写的轻量级Web应用框架 为了更好地管理Python应用&#xff0c;通常情况下都会在虚拟环境中安装Flask框架。在虚拟环境下&#xff0c;使用如下命令安装Flask pip install flask 我们可以直接使用pycharm工具创建虚拟环境&#xff0c;只需要在创建项目的…

chatGPT AI对话聊天绘画系统开发:打开人工智能AI社交聊天系统开发新时代

人工智能技术的快速发展和普及&#xff0c;催生了众多创新应用&#xff0c;其中&#xff0c;AI社交聊天系统成为当下市场的热门话题&#xff0c;本文将详细介绍开发属于自己的ChatGPT的过程&#xff0c;并探讨当下市场因Chat AI聊天系统所带来的影响性。 AI社交聊天系统的潜力与…

Springboot Mybatis 自定义顺序排序查询,指定某个字段

前言 与本文无关 "我进去了" ....... 正文 今天要讲些什么&#xff1f; 其实很简单&#xff0c;就是查询数据的时候&#xff0c;想根据自己指定的字段的自定义顺序&#xff0c;做排序查询数据。 本篇文章会讲到的几个点 &#xff1a; 1. 单纯sql 怎么实现 排序2. …

miniconda 安装 windows+linux

虽然常用anaconda&#xff0c;但是有时候只需要管理环境的时候&#xff0c;用miniconda更方便 如果想安装anaconda&#xff0c;可以参考这篇&#xff1a;anaconda安装 一、linux下 1.下载 链接&#xff1a;miniconda文档 cd /usr/localwget https://repo.anaconda.com/mini…

分布式处理框架 MapReduce

3.2.1 什么是MapReduce 源于Google的MapReduce论文(2004年12月)Hadoop的MapReduce是Google论文的开源实现MapReduce优点: 海量数据离线处理&易开发MapReduce缺点: 实时流式计算 3.2.2 MapReduce编程模型 MapReduce分而治之的思想 数钱实例&#xff1a;一堆钞票&#xff0…

Inno Setup 安装包制作软件

推荐一个开源的安装包制作软件&#xff1a;Inno Setup   Inno Setup是一个免费的安装制作软件&#xff0c;小巧、简便、精美是其最大特点&#xff0c;支持pascal脚本&#xff0c;能快速制作出标准Windows2000风格的安装界面&#xff0c;足以完成一般安装任务。 下载地址&…

进阶接口自动化测试——认证/代理/超时配置/错误异常(详细)

目录&#xff1a;导读 前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结&#xff08;尾部小惊喜&#xff09; 前言 认证 1、基本认证…

【Android】Touch 事件分发逻辑梳理和避坑逻辑(上层设置了setOnTouchListener的事件监听但是没有起作用的原因)

背景 在项目中发现我明明在最上层的activity中的一个DrawerLayout对象设置了如下代码: /*** 超级白板的整体点击事件* 保证topBar在合适的时机出现*/binding.layoutMainDrawer.setOnTouchListener { _, event ->if (event.action MotionEvent.ACTION_DOWN) {val isVisib…

【毕业设计】爱琴海——基于HTML5的婚庆用品商城网页设计

一、内容简介 (一)背景与意义 “婚俗”是指结婚的风俗&#xff0c;各国各族人民按照自己的习俗&#xff0c;举行各具特色的婚礼&#xff0c;具有各自浓厚的民族独特风采。婚俗元素在是中国婚俗文化的媒介&#xff0c;承载了中华儿女对幸福和吉祥的追求。在中国婚俗文化的发展过…

【BI数据可视化】Docker部署metabase

开源世界从来不缺分享与馈赠&#xff0c;前一篇已经分享过【BI数据可视化】使用Docker快速部署Superset_wenchun001的博客-CSDN博客&#xff0c;今天我们继续来介绍一款开源的数据可视化系统 Metabase&#xff0c;帮助您解决数据可视化的难题。 Metabase是什么&#xff1f; 在传…

DOTA-cyclo(RGDfK),RGD肽指含有由Arg-Gly-Asp三个氨基酸组成的序列多肽,螯合剂多肽

试剂基团反应特点&#xff08;Reagent group reaction characteristics&#xff09;&#xff1a; DOTA-cyclo(RGDfK)螯合剂多肽&#xff0c;RGD肽是指含有由Arg-Gly-Asp三个氨基酸组成的序列多肽&#xff0c;有直线肽和环肽之分。它们是许多细胞外基质蛋白&#xff08;如VN、FN…

关于邮件协议的理解、实验以及java mail的实现

1、几种电子邮件系统组成 传统电子邮件系统 一个传统电子邮件系统由以下几个部分组成 UA&#xff08;用户代理&#xff09;邮箱服务器电子邮件协议 邮件发送协议&#xff08;SMTP&#xff09;与邮件接受协议&#xff08;POP3,IMAP&#xff09; 用户代理 UA (User Agent) 定…

mac上mysql启动报错问题Unable to lock ./ibdata1 error: 35

记录一次mac安装mysql启动报错问题Unable to lock ./ibdata1 error: 35。首先&#xff0c;这是第一次在公司新领的mac上面去安装mysql&#xff0c;在去年换新电脑之前&#xff0c;老电脑也安装过&#xff0c;没出现过这种问题。其次&#xff0c;自己的几台windows笔记本也安装过…

VS2019 彻底卸载、安装C\C++\C#

彻底卸载 进入“控制面板 - 程序和功能”&#xff0c;找到并选择VS2019&#xff0c;单击右键选择“卸载”。 在弹出的卸载向导中&#xff0c;我们需要选择要卸载的组件&#xff0c;如果要彻底卸载VS2019&#xff0c;则需要全部选择&#xff0c;并依次执行卸载操作。 在VS2019…

要从HTML中提取img标签的src属性(图片链接),可以使用正则表达式方式。

1. 定义提取src属性的正则表达式: const srcRegex /<img\s(?:[^>]*?\s)?src\s*\s*(["])((?:[^\1"]|\\\1|.)*?)\1/g 这个正则会匹配类似<img src"http://example.com/1.jpg">中的src属性和括号中的连接。2. 调用字符串的matchAll()方法…