昆仑万维的AI作画简直就是业界天花板

news2024/12/25 15:38:48

AI作画的业界天花板被我找到了,AIGC模型揭秘 | 昆仑万维

一、前景

1、AI和AIGC的关系

人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

AIGC是继 UGC、PGC 之后新型利用AI技术自动生成内容的生产方式。

img

2、AIGC的市场目前分类有哪些

目前市场上AIGC一般可分为文本类、代码类、绘画类等等,那目前市场上有哪些公司在AIGC的绘画和文本和代码这些方向做得非常顶尖水平呢?当然有,那就是昆仑万维,让我们看下他们的AIGC能力怎么样。

二、昆仑万维的AI作画简单体验

​ 电脑PC端体验地址:https://sky-paint.singularity-ai.com/index.html#/

​ 都让我们也可以用小程序,功能和PC效果一样。

​ 小程序:天工巧绘SkyPaint

1、使用系统自带的关键字绘制

在主页,我们可以直接明了的看到 “生成画作”按钮,我们选一个“童话时间 白雪皑皑 圣诞节”的主题来进行AI绘制。

img

图片生成中

img

效果如下:

img

出现了4张圣诞节图片,非常清晰、操作也非常简单,最关键的是生成图片速度非常快,非常丝滑,一点也不卡,直接惊艳到我了。

2、输入中文关键字绘制

我们输入“水天一色”这4个字,绘制效果如下。

img

3、输入英文关键字绘制

我们输入"red sky”英文,绘制效果如下。

img

小结:从体验上讲,生成图片的速度非常快,并且能很好的支持中英双语提示词输入实现文字生成图像。

三、昆仑万维的AI作画的核心竞争力

1、基于Stable Diffusion 模型

Model:Latent Diffusion

Paper:High-Resolution Image Synthesis with Latent Diffusion Models

训练集:LAION-high-resolution 和 LAION-Aesthetics

模型结构图:

img

模型原理

img

模型训练

训练目标:一步步对随机的高斯噪声降噪(denoise)

img

优势:Latent diffusion 之所以是 “latent”,是因为模型是在低维的潜空间(latent space)上进行扩散过程,而不是在实际的像素空间,从而降低了内存消耗和计算复杂度(比如输入shape是(3,512,512),下采样因子是8,潜空间中变成了(3,64,64),节省了8×8=64倍的内存)。训练完之后的模型就能把一张图表示成一个低维的潜特征。

模型推理

如图(假设batch size是1),用户输入的 prompt 被 CLIP Text encoder 编码为 77×768 的潜特征,随机噪声被表示成 64×64 的潜特征;然后 U-Net 以 prompt 的特征为条件,逐步迭代计算。U-Net 输出的噪声残差,会通过调度算法(scheduler algorithm),根据先前的噪声表示和预测的噪声残差,计算最终去噪的图像潜表示。Stable Diffusion 建议的调度算法有三种:

PNDM scheduler(Pseudo Numerical Methods for Diffusion Models on Manifolds,默认)

DDIM scheduler

K-LMS scheduler

得到图像潜表示后,就可以送到 VAE 的 decoder 解码成图像了。

img

2、Stable Diffusion 算法模型的绝对优势在哪里?

• Stable Diffsuion能压缩率更高,清晰度超越JPEG等算法。

• 与纯粹基于transformer的方法相比,本文方法更适合高维数据;还可以高效地应用于百万像素图像的高分辨率合成。

• 显著降低计算成本,在多个任务(无条件图像合成、inpainting、超分辨率)和数据集上实现了具有竞争力的性能。与基于像素的扩散方法相比,显著降低了推理成本。

• 与之前的工作(同时学习编码器/解码器架构和score-based的先验)相比,方法不需要对重构和生成能力进行精确的权衡。这确保了仅需非常少的潜空间正则化下,即可有较合理的重建效果。

• 对于超分辨率、图像修复和语义合成等条件密集输入型的任务,模型能以卷积的方式应用,并输出高达1024分辨率的图像。

• 基于交叉注意力的通用条件机制,实现了多模态训练。用它来训练类条件模型、文本到图像模型和布局到图像模型。

• Stable Diffsuion制作图片速度非常快。

总之只需训练一次通用的自动编码阶段,就可以用于多次DM训练或探索可能完全不同的任务,比如各种图像到图像、文本到图像任务。对于后者,设计了一个将transformers连接到DM的UNet骨干的结构,并支持任意类型的基于token的条件机制,就像有人已经投入了上百万的资金帮你训练了一个,你又何必重新花钱训练一个压缩模型呢?

3、昆仑万维在AI绘画上的其它技术优势

1)、在增加中文提示词输入能力的同时兼容原版stable_diffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在我们的模型上使用

2)、使用1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合

3)、 训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练"

我们可以看下文字生成图片模型指标评估数据

评估背景:

  1. 评估benchmark:采用Chinese-CLIP(CN_CLIP),先根据模型的encoder得到text和image的embedding,再经过统一的KNN检索,Recall,从而计算出检索任务的Recall@1/5/10和mean recall(Recall@1/5/10的平均数),得到如上结果

  2. 评估数据集:Flickr30K-CN的test数据集

  3. 采用同级别image encoder模型:ViT-L/14"

img

未来的模型优化

为了让体验和算法模型变得更加强大,后续我们会针对下面4点去完善,希望能保持业界最高端水平。

• 更多语言的提示词输入支持

• 更强大的语言生成模型指导图像生成

• 风格更加多样,增加更多艺术风格的支持

• 支持用户对生成的图像进行二次提示词编辑图像功能

五、昆仑万维的文本和代码创造

1、昆仑万维的文本创造

1)、基于GTP-3模型

img

昆仑万维模型针对中文领域构建了千亿级别的高质量数据集,通过高性能 a100-GPU 集群训练得到了百亿

参数量的 GTP-3 生成模型,其几乎可以用于任何涉及理解或生成自然语言或代码的任务,同时提供了一

系列具有不同参数级别的模型,根据同任务进行适配,同时,也可以微调模型的得到适合需求的生成模

型。

文本模型指标评估

img

2)、GTP-3模型的绝对优势在哪里?

• GPT-3模型像人类一样对词语做出自己的理解

• GPT-3模型根据用户的喜好创作文学作品

• GPT-3模型根据用户的需求编写代码

• GPT-3比GPT-2有更好的文字质量,比GPT-2功能更加强大

• GPT-3模型可以进行创造性写作,展示了诗歌,对话文体,双关语使用,文学模仿和小说是其它模型不可比拟的

• GPT-3模型不是以传统的方式来使用已经存在的文本进行训练从而模仿文本,而可以通过对话方式告诉GPT-3用户想要什么样的内容。

总之通过了大部分课程的写作测试,而且仅仅需要 3-20 分钟,并且其中大部分时间用于对文本的输出长度和重复文本进行编辑。模型拥有多样的下游能力,包括续写,对话,中英翻译,内容风格生成,推理,诗词对联等。并在各项专业性领域的任务中(例如分类,匹配,填空,识别,识别)表现突出,与现有大模型的比试中排列前茅。

3)、昆仑万维丰富的使用场景分类

我们可以点击这个这里体验:https://openapi.singularity-ai.com/index.html#/examplesIndex

img

支持多种语言,这里我们使用 “内容续写” 使用下面的接口请求就行了,使用非常方便。

JSON{ “model_version”: “模型版本”, “prompt”: “写一篇小文章。\n今天的天气不错,我的心情”, “param”: { “generate_length”: 500, “top_p”: 0.9, “top_k”: 50, “repetition_penalty”: 1.3, “length_penalty”: 1, “min_len”: 10, “temperature”: 1, “end_words”: [ “[EOS]” ] }}

2、昆仑万维的代码创造

我们可以点击下面的地址进行体验

https://sky-code.singularity-ai.com/index.html#/

1)、Sky-cod3 代码生成工具介绍

昆仑万维开发了全球第一款多语言开源编程大模型 Sky-code 代码生成工具,其支持各种主流编程语言,包括 java 、 javascript 、 c 、 c++ 、 python 、 go 和 shell 等编程语言,可以帮助开发人员更快更好的编码,甚至模型每秒可以输出百字以上的代码量,并且 Sky-code模型的代码质量非常高,下表对比了 Sky-code 模型与其他代码生成模型的性能:

img

轻松上手

我们可以把sky-code安装到各个代码平台的编译器里面去,通过插件方式进行扩展,比如Visual Studio Code等。

img

2)、Sky-code的绝对优势

Sky-code 是 SingularityAI 研发的一款AI代码生成工具,支持各种主流编程语言,助力开发人员更快更好的编码。Sky-code 可以直接集成到编辑器中,无缝衔接在开发环境,在键入代码的同时,智能高效补全代码,提升工作效率,节省开发时间。 Sky-code 目前已经集成在了 Visual Studio Code 中,未来会支持更多平台和工具,如 Neovim、JetBrains IDE、Visual Studio 等。致力于为开发者解决琐碎的、重复性的代码工作,从而专注于更高价值的研发工作,这是其它工具不可代替的。

六、总结

通过上面的介绍,我们知道昆仑万维的AIGC无论是绘画还是文本还是代码生成,都拥有着非常强大和快而精准的算法模型,同时支持多语言进行绘画、和文本以及代码处理,简直就是业界的天花板, 强烈推荐大家使用。

昆仑天工开源地址:

Github https://github.com/SkyWorkAIGC

Huggingface https://huggingface.co/SkyWork

相关网站:
天工巧绘SkyPaint:
https://sky-paint.singularity-ai.com
天工智码SkyCode:
https://sky-code.singularity-ai.com
天工妙笔SkyText:
https://openapi.singularity-ai.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/100434.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringMVC入门到实战------ 十一 拦截器的使用

1、拦截器的配置 拦截器用于拦截控制器方法的执行 拦截器需要实现HandlerInterceptor 拦截器必须在SpringMVC的配置文件中进行配置 1.1 和1.2 是对所有的请求进行拦截;1.3 对排出的请求不在拦截 1.1 不使用注解的情况 创建拦截器类 /*** 拦截器* author zyz* ve…

牛客竞赛每日俩题 - Day11

目录 错排问题 有理数运算 错排问题 年会抽奖__牛客网 全部都不获奖的概率必定是由 n个人都拿错的情况种数 除 n个人拿出的所有排列情况数。n个人拿出的所有排列情况数显然是n的阶乘。 假设a的名字没有被a拿到,其他n - 1个人都有可能拿到,即有n - 1种…

JavaScript 中的设计模式

目录 1. 单例模式 2. 策略模式 3. 代理模式 4. 装饰者模式 5. 组合模式 6. 工厂模式 7. 访问者模式 8. 发布订阅模式 9. 观察者模式 10. 参考链接 设计模式(Design Pattern)是从许多优秀的软件系统中,总结出的成功的、能够实现可维…

CentOS 7安装及使用MobaXterm连接

1、 下载centos7映像文件地址:http://mirrors.aliyun.com/centos/7/isos/x86_64 选择CentOS-7.0-x86_64-DVD-2009.iso 标准安装版或者CentOS-7-x86_64-Everything-1908.iso下载 2、安装centos7 2.1、右击以管理员身份运行 2.2、点击创建新的虚拟机 2.3、选择…

c++ - 第18节 - 哈希

1.unordered系列关联式容器 在C98中,STL提供了底层为红黑树结构的一系列关联式容器,在查询时效率可达到,即最差情况下需要比较红黑树的高度次,当树中的节点非常多时,查询效率也不理想。最好的查询是,进行很…

MockServer 服务框架设计

大部分现有的 mock 工具只能满足 HTTP 协议下简单业务场景的使用。但是面对一些复杂的业务场景就显得捉襟见肘,比如对 socket 协议的应用进行 mock,或者对于支付接口的失败重试的定制化 mock 场景。 为解决上述问题,霍格沃兹测试学院设计并研…

【Redis -String、List介绍和应用场景】

String String 是最基本的 key-value 结构,key 是唯一标识,value 是具体的值,value其实不仅是字符串, 也可以是数字(整数或浮点数),value 最多可以容纳的数据长度是 512M。 内部实现 String 类…

万字解析,带你深入掌握多种排序算法!-C语言

今天我们来看排序,排序在生活中经常使用,非常重要,是必学的内容。 目录 1.插入排序 1.1直接插入排序 1.2希尔排序 2.选择排序 2.1直接选择排序 2.2堆排序 3.交换排序 3.1冒泡排序 3.2快速排序 3.2.1挖坑法 3.2.2左右指针法 3.2.3…

【驯服野生verilog-mode全记录】day4 —— 对循环展开语法的python脚本外挂支持

我们的目标是┏ (゜ω゜)☞芯片前端全栈工程师~喵! 系列文章目录 【驯服野生verilog-mode全记录】day3 —— 基于vim自动生成verilog-mode格式初始文件模板_尼德兰的喵的博客-CSDN博客 【驯服野生verilog-mode全记录】day2 —— 模块的例化_尼德兰的喵的博客-CSDN…

微服务框架 SpringCloud微服务架构 服务异步通讯 53 MQ 集群 53.4 仲裁队列【RabbitMQ控制台搭建】

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 服务异步通讯 文章目录微服务框架服务异步通讯53 MQ 集群53.4 仲裁队列【RabbitMQ控制台搭建】53.4.1 仲裁队列53.4.2 搭建仲裁队列53 MQ 集…

10. 注解开发Bean作用范围和生命周期管理

1. bean作用范围注解配置 使用Scope注解定义bean作用范围 1.1. singleton为单例 1.1.1 在bean头上使用Scope注解,singleton package com.lin.dao.impl;import com.lin.dao.BookDao; import org.springframework.context.annotation.Scope; import org.springfra…

企业档案管理实务:档案的检索方法知多少

在鸿翼档案的企业档案系统设计中,企业档案常用的检索实际上包括两个行为:企业档案信息的贮存和企业档案信息的查找。档案检索工具一方面是整个企业档案检索体系中贮存结果的最终体现,直接反映贮存的质量和水平;另一方面又是各项业…

Redis 哈希(Hash)方法使用详解

目录一、简介二、常用方法2.1、HSET2.2、HSETNX2.3、HGET2.4、HINCRBY、HINCRBYFLOAT2.5、HSTRLEN2.6、HEXISTS2.7、HDEL2.8、HLEN2.9、HMSET、HMGET2.10、HKEYS、HVALS、HGETALL2.11、HSCAN一、简介 本文今天主要是讲哈希(Hash)的方法的使用&#xff0c…

毕业设计 单片机手势检测识别系统 - arduino 物联网 嵌入式

文章目录0 前言1 简介2 主要器件3 实现效果4 设计原理5 部分核心代码6 最后0 前言 🔥 这两年开始毕业设计和毕业答辩的要求和难度不断提升,传统的毕设题目缺少创新和亮点,往往达不到毕业答辩的要求,这两年不断有学弟学妹告诉学长…

uniapp中video层级太高(或者在页面中不跟随页面滚动)解决方案

我觉得这个问题有必要记录一下。最近项目中遇到的问题:项目是uniapp开发,有一个商品详情的页面和一个视频竖向轮播的页面。 问题描述 1、商品详情页上面是图片轮播(包含视频),下面是商品详情,当页面上下滑动时,如果当…

微服务框架 SpringCloud微服务架构 服务异步通讯 52 惰性队列 52.2 惰性队列

微服务框架 【SpringCloudRabbitMQDockerRedis搜索分布式,系统详解springcloud微服务技术栈课程|黑马程序员Java微服务】 服务异步通讯 文章目录微服务框架服务异步通讯52 惰性队列52.2 惰性队列52.2.1 惰性队列52.2.2 总结52 惰性队列 52.2 惰性队列 52.2.1 惰…

【BTC】Fork

区块链中fork的分类: state fork: 两个节点差不多同一个时候挖到了矿,就会出现一个临时性的分叉。 forking attack(deliberate fork):也是属于对比特币这个区块链当前的状态产生的意见分歧,只不…