AIGC工具的一点整理
- 前言
- AIGC类型
- 图像生成类
- Stable diffusion
- Midjourney
- DALL·E 2
- 三种工具比较
- DeepFloyd IF
- 文本生成
- 语音生成
- So-vits-svc 4.0
- 结尾
前言
好久没有写csdn博客了,突然不知道写点什么,最近AIGC真的很火,有一种三天不看就跟不上发展趋势的感觉,让人又激动又有点慌😂。这里我简单整理一下最近看到的AIGC的一些内容,后续如果有需要我详细描述一下如何使用。
AIGC类型
AIGC现在发展可以说是‘坐地日行八万里’了,总的来说我将目前技术较为成熟的AIGC工具大概分为三种类型,图像生成类,文本生成类,语音生成类,这三类目前均有不同程度的应用:
- 图像生成类 : Stable diffusion,Midjourney,DALL·E 2,DeepFloyd IF等;
- 文本生成类:Chat GPT,auto-GPT,GPT-4等;
- 语音生成类:So-vits-svc 4.0;
下面就每一类工具,我大概描述一下他们的功能及优势劣势的比较,如有大家有兴趣我会详细讲解。
图像生成类
Stable diffusion
Stable Diffusion是一个文本到图像的潜在扩散模型,由CompVis、Stability AI和LAION的研究人员和工程师创建。它使用来自LAION-5B数据库子集的512x512图像进行训练。目前已有大神将SD打包为本地可直接使用的工具(绘世 sd-webui),通过这个工具我们可以通过网页可视化,便捷使用文生图,图生图。
这就是启动界面,只需要输入正向及反向prompt,调整类似图像大小,迭代步数等就可以生成各种不同类型的图像。同时还可以通过加载不同的lora及controlnet等模型来进行微调,生成自己需要的图案。
Midjourney
MidJourney 是一个文本到图像的在线服务AI,创始人是David Holz,它可以根据您的文本提示生成华丽的视觉效果。MidJourney 更喜欢用互补的颜色、光影的艺术运用、清晰的细节以及具有令人满意的对称性或透视性的构图来创建图像。
![在这里插入图片描述](https://img-blog.csdnimg.cn/155dbdd8918b4e669c1abcefd68d8b78.png
#pic_center)
DALL·E 2
DALL-E 2由OpenAI开发,它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型,能够解释自然语言输入并生成相应的图像。
三种工具比较
以上比较为个人观点,如有补充会进行修改。
DeepFloyd IF
这个是stability.ai/团队最新作品,据官方介绍,DeepFloyd IF 是最新最先进的开源文本-图像模型,拥有强大的语言理解能力,生成的图像具有高度真实感。从其官网展示了图像来看,DeepFloyd IF 生成的图像质量非常不错,也能处理多种不同的风格效果。能在图像中生成连贯清晰的文本,以及理解不同对象的属性和空间关系。比如它可以正确地将文字呈现在路牌、纸片、包装外壳等规定的媒介内;能理解文本之间的连续关系,将不同的字母或数字按顺序呈现在不同的物体上;以及分清圆球是金属的,三角形是毛茸茸的,不会将不同物体的属性弄混。
文本生成
文本生成领域现在chatgpt、autogpt和gpt4目前正在大热。目前针对chat gpt及gpt-4网络上已经有很多相关体验结果及解析,这里对三个gpt模型进行一下对比。
chat GPT和GPT-4均为OpenAI公司开发的自然语言处理模型,gpt4和chatgpt的区别在于gpt4可以处理图像内容,可以更正确的理解信息和处理问题,且回复的准确性提高不少;chatgpt不支持图像内容处理,有时还会出现错误或者矛盾的回答。此外,GPT-4支持图文语义化的解读,以及更好的回答组织能力,而chatgpt则带来了AI对语义理解的突破。
Auto-GPT 的运作方式与 ChatGPT 相同,但增加了运动功能。它将大型语言模型指令链接在一起,以实现指定的结果。该工具具有一定的决策权,可以让AI自我提示。
语音生成
So-vits-svc 4.0
B站大佬已经将该算法工具化,类似于sd-webui,通过可视化就可以完成语音训练及推理。
具体效果大家可以看B站很多AI翻唱,很让人惊艳,后续我会将各个工具的具体用法进行介绍。
结尾
以上是我的一点总结,目前AIGC工具及算法日新月异,发展很快,我总结的一些东西在我下笔的那一刻可能就已经过时了。学无止尽,能亲身经历人工智能的发展,真的是幸事。另外,给自己打个广告,有没有做这个的一起玩儿啊😂。
下面是一些工具链接
Stable diffusion,Midjourney,DALL·E 2,DeepFloyd IF等;
2. 文本生成类:Chat GPT,auto-GPT,GPT-4等;
3. 语音生成类:So-vits-svc 4.0;
[1]: sd-webui :https://www.bilibili.com/read/cv22661198
[2]: Midjourney:https://www.midjourney.com/home/
[3]: DALL·E 2:https://labs.openai.com/
[4]:DeepFloyd IF:https://deepfloyd.ai/deepfloyd-if
[5]:Chat GPT:https://chat.openai.com/
[6]:auto-GPT:https://github.com/Significant-Gravitas/Auto-GPT
[7]:GPT-4:https://openai.com/product/gpt-4
[8]: So-vits-svc 4.0:https://github.com/voicepaw/so-vits-svc-fork/blob/main/README_zh_CN.md