刷屏的AI 绘画,你成功驯服了吗?其背后的AIGC模型你可能还不知道

news2025/3/13 6:37:31

文章目录

    • 前言
    • 基于 CLIP Latents 的条件文本图像生成
    • BLIP
    • Hugging Face
    • 奇点智源
    • 中文-CLIP
    • 百度
    • 昆仑万维之AI绘画

前言

随着人工智能技术的发展与完善,AIGC(AI generated content)在内容的创作上为人们的工作和生活带来前所未有的帮助,具体表现在能够帮助人类提高内容生产的效率,丰富内容生产的多样性、提供更加动态且可交互的内容。在这两年AIGC在AI作画、AI 作曲、AI 作诗等领域持续大放异彩。

2022,是 AI 绘画逐渐走向舞台中央的一年。

文本生成图像(AI 绘画)是根据文本生成图像的的新型生产方式,相比于人类创作者,文本生成图像展现出了创作成本低、速度快且易于批量化生产的优势。

近一年来,该领域迅猛发展,国际科技巨头和初创企业争相涌入,国内也出现了不少文本生成图像的产品。这些产品背后主要使用基于扩散生成算法的 dall-e-2 和 stable diffusion 等模型。

就在几年前,计算机能否从这样的文本描述中生成图像还是一件难以预测的事情。当下 AI 已经开始能够完成一部分创造性的工作,而非只是机械重复的工作。

最近昆仑万维、百度、美图等着力借助AI技术赋能生态业务的公司也纷纷推出了中文版的文本生成图像算法,整体来看该领域还处于迅猛发展阶段。

本文旨在带领读者一览 当前众多出色的文本引导图像生成模型相关发展以及一些目前广受关注的文本图像生成在线API体验:包括 OpenAI、Hugging Face、百度以及致力于AIGC和游戏业务的昆仑万维等有着雄厚 AI 技术投入和生态发展的公司。

基于 CLIP Latents 的条件文本图像生成

  • Hierarchical Text-Conditional Image Generation with CLIP Latents
  • 像CLIP这样的对比模型已经证明可以很好学习到图像 representations,这些 representations 既能捕捉语义又能捕捉风格。
  • 作者提出了一个两阶段模型:先验模型在给定文本标题的情况下生成CLIP图像特征,然后把图像特征送给解码器生成得到图像;

文章链接如下

  • https://cdn.openai.com/papers/dall-e-2.pdf

1-0

1-1

BLIP


论文基础信息如下

  • BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation
  • 论文地址:https://arxiv.org/pdf/2201.12086.pdf
  • 代码地址:https://github.com/salesforce/BLIP
  • 试玩地址:https://huggingface.co/spaces/akhaliq/BLIP

视觉语言理解和生成、试玩流程如下

  1. 上传心仪图像
  2. 点击下方的提交按钮
  3. 等待几秒,右侧即可生成对应的:图像内容描述

1-1

网络结构采用多个编码器-解码器

2-1

模型架构

研究者将一个视觉 transformer 用作图像编码器,该编码器将输入图像分解为 patch,然后将这些 patch 编码为序列嵌入,并使用一个额外的[CLS] token 表征全局图像特征。相较于将预训练目标检测器用于视觉特征提取的方法,使用 ViT 在计算上更友好,并且已被最近很多方法所采用。

为了预训练一个具备理解和生成能力的统一模型,研究者提出了多任务模型 MED(mixture of encoder-decoder),它可以执行以下三种功能的任意一种:

  • 单峰编码器
  • 基于图像的文本编码器
  • 基于图像的文本解码器

预训练目标

研究者在预训练过程中共同优化了三个目标,分别是两个基于理解的目标和一个基于生成的目标。每个图像文本对只需要一个前向传播通过计算更重(computational-heavier)的视觉 transformer,需要三个前向传播通过文本 transformer,其中激活不同的功能以计算以下 3 个损失,分别是:

  • 图像文本对比损失(image-text contrastive loss, ITC),激活单峰编码器,旨在通过鼓励正图像文本对(而非负对)具有相似的表征来对齐视觉与文本 transformer 的特征空间;

  • 图像文本匹配损失(image-text matching loss, ITM),激活基于图像的文本编码器,旨在学习捕获视觉与语言之间细粒度对齐的图像文本多模态表征;

  • 语言建模损失(language modeling loss, LM),激活基于图像的文本解码器,旨在给定一张图像时生成文本描述。

为了在利用多任务学习的同时实现高效的预训练,文本编码器和解码器必须共享除自注意力(self-attention, SA)层之外的所有参数。具体地,编码器使用双向自注意力为当前输入 token 构建表征,同时解码器使用因果自注意力预测接下来的 token。

另外,嵌入层、交叉注意力(cross attention, CA)层和 FFN 在编码和解码任务之间功能类似,因此共享这些层可以提升训练效率并能从多任务学习中获益

实验结果

研究者在 PyTorch 中实现模型,并在两个 16-GPU 节点上预训练模型。其中,图像 transformer 源于在 ImageNet 上预训练的 ViT,文本 transformer 源于 BERT_base。

  • 主流数据集:COCO 、 Flickr
    2-2

Hugging Face

Hugging 官方提供了很多有趣的基于 自然语言处理和计算机视觉的AI应用在线体验API,还有非常多高star的开源项目收到很多开发者的持续关注

  • https://huggingface.co/spaces/stabilityai/stable-diffusion

1-2

奇点智源

奇点智源 开放了 非常多有趣的 AI 应用 API 接口,大家有兴趣可以去体验试用

  • https://openapi.singularity-ai.com/index.html#/examplesIndex

3-1

中文-CLIP

该项目为CLIP模型的中文版本,使用大规模中文数据进行训练(~2亿图文对),旨在帮助用户快速实现中文领域的图文特征&相似度计算、跨模态检索、零样本图片分类等任务。该项目代码基于open_clip project建设,并针对中文领域数据以及在中文数据上实现更好的效果做了优化。

  • https://github.com/OFA-Sys/Chinese-CLIP

国内也有很多科技公司开放了 AIGC(AI generated content)众多体验或者支持商用的 API 试用接口,接下来主要以全面展现强大AI能力的百度 、 游戏和AIGC业务蓬勃发展的昆仑万维 两家行业内 AI 技术积累深厚的公司 AI 绘画展开介绍和试用体验

百度

前不久百度也上线了 基于文本的风格图像生成技术的文心作画体验链接:

  • 基于文本的图像生成技术体验链接:https://wenxin.baidu.com/ernie-vilg

打开链接之后,简单输入目标词汇、选择想要的风格,即可完成别具一格的画作,并且可以看到百度官方提供的在线API体验目前已经支持十多种风格的文本到图像的生成。

示例图像如下,的确强大哇

5-0
可以看到,百度的API体验生成效果也还是不错的,百度的文本提供是多个关键词的形式,不知道当前提供的模型对长文本语义的理解是否也能很好,小伙伴有兴趣可去体验,另外一个明显的感觉就是目前的算法模型生成耗时还是比较久的;

昆仑万维之AI绘画

随着人工智能技术的发展与完善,AIGC在内容的创作上为人类带来前所未有的帮助,具体表现在能够帮助人类提高内容生产的效率,丰富内容生产的多样性、提供更加动态且可交互的内容。

昆仑万维 AI绘画 继 StarX系列产产品 AI 作曲后 又一次 AIGC 的绘画实践, 标志着昆仑万维在 AI 绘画领域构建方面实现质的突破。

作为一个庞大的概念,虚拟技术横跨AI、游戏、社交等多领域的庞大产业链条。中长期来看,有望带来虚拟世界的创新,推动产业链上的各环节共荣,进而带来新增量。

该技术发展不仅需要技术的推动,更需要内容端的支持。昆仑万维在2021年完成布局及AI技术在社交娱乐、信息分发等领域的应用。随着AIGC的逐步成熟和推进,该技术也将成为昆仑万维取得“幂次增长”的突破口之一。

昆仑万维的AI作画模型研发人员针对中文领域构建了千亿级别的高质量数据集,通过高性能 a100-gpu集群,训练(200张显卡,训练了4周,后续优化合计2周)得到百亿参数量的大生成模型;

昆仑万维AI绘画模型在模型训练过程中主要采取了如下策略

  1. 在增加中文提示词输入能力的同时兼容原版stable_diffusion的英文提示词模型,之前用户积累的英文提示词手册依然可以在我们的模型上使用;
  2. 使用1.5亿级别的平行语料优化提示词模型实现中英文对照,不仅涉及翻译任务语料,还包括了用户使用频率高的提示词中英语料,古诗词中英语料,字幕语料,百科语料,图片文字描述语料等多场景多任务的海量语料集合;
  3. 训练时采用模型蒸馏方案和双语对齐方案,使用教师模型对学生模型蒸馏的同时辅以解码器语言对齐任务辅助模型训练。

体验昆仑万维之AI绘画小程序,惊艳到我

  • 输入内容:穿着红衣服的女生在阳光下看书
  • 输出图像如下,不知道有没有惊艳各位读者大大哈

9-7

昆仑万维官网链接如下,感兴趣的小伙伴,去下载他家产品进行体验AIGC强大生产力吧

  • http://www.kunlun.com/

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/90514.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringCloud(7)— ElasticSearch基础

SpringCloud(7)— Elasticsearch基础 一 初识Elasticsearch elasticserach是一个强大的开源搜索引擎,可以从海量数据中迅速找到想要的内容。 elasticsearch结合了 Kibana, Logstach, Beats,也就是 elastic stack。主要应用于日志数据分析&…

【信管4.1】范围与需求

范围与需求范围其实说白了就是我们要做的东西都包括哪些内容,这些内容的边界在哪里,范围其实从另一个角度来说的话,也可以看成是一个产品的约束。为什么要有一个约束呢?你见过一个即是电商,又是社交,还能兼…

Python还好就业吗?30多岁转行晚吗?

最近不少人在微信问我现在Python还好就业不好就业?发展前景怎么样?我30多岁了,还能不能转行编程?Python该怎么学?如果做Python到底该做爬虫还是数据分析还是web?…等等这样的问题,现在逐一谈下我…

将市场部与整个组织联系起来,协调每个人的利益,来达成业务目标

让我们来谈谈业务目标,以及这些目标如何将营销部门与整个组织联系起来,并帮助协调每个人的利益。什么是有效的目标,什么是无效的目标?举一两个例子就好了。 当然。我们目前在高管层看到的情况是——甚至在新冠疫情之前我们就已经看到了——首…

【软件测试】你遇到的随机的bug?出现的原因......

目录:导读前言一、Python编程入门到精通二、接口自动化项目实战三、Web自动化项目实战四、App自动化项目实战五、一线大厂简历六、测试开发DevOps体系七、常用自动化测试工具八、JMeter性能测试九、总结(尾部小惊喜)前言 随机性bug? 为什么…

学习过程中遇到的问题总结(持续更新~~~)

问题总结问题1:Access denied for user 1234localhost (using password: YES)问题2:启动tomcat问题,报错Failed to execute goal org.apache.tomcat.maven:tomcat7-maven-plugin:2.2:run (default-cli) on project springMvc_03_request_mapp…

Linux 6.2:华为代码加速核心功能 715 倍!

整理 | 王启隆出品 | CSDN(ID:CSDNnews)作为送给全球开发者的圣诞礼物,Linux 在前日发布了 Linux 6.1 内核的稳定版,并开启了 Linux 6.2 的合并窗口。这次更新不仅为广大用户带来了不少新功能与改进,还让许…

竣达技术 | 智能机房动力环境监控主机、多功能监控服务器

专为现代各类计算机及网络通信机房、通信行业基站而设计的远程多功能监控服务器,系统具备3个RS485通讯接口可监控机房环境温湿度、门禁、烟雾、漏水、市电断电等各类传感器检测对应的告警状态,同时支持15个开关量检测。6路继电器输出控制,支持…

MySQL——表数据删了一半了,表文件大小还是不变

本篇文章针对 InnoDB 引擎展开讨论。一个 InnoDB 表包含两部分,即:表结构定义和数据。在 MySQL 8.0 版本以前,表结构是存在以.frm 为后缀的文件里。而 MySQL 8.0 版本,则已经允许把表结构定义放在系统数据表中了。因为表结构定义占…

Windows安装Jenkins

文章目录1.下载Jenkins2.安装Jenkins1.下载Jenkins 进入jenkins官网下载 https://www.jenkins.io/download/ 要下载不同版本的话可以去下面链接看看 https://mirrors.tuna.tsinghua.edu.cn/jenkins/ 2.安装Jenkins 1.点击下载下来的 jenkins.msi 文件 进行安装 2.选择第…

【Python爬虫实战】找工作太难?职场套路太深?来来来小编教你做人啊—这里的老板都跑到街上招人了,月薪1万够不够?

导语 哈喽大家好!我是木子吖~ 上一期给大家已经介绍了爬虫的一些功能步骤等等,这一期想着还是给大家更新一些爬虫的案 例吧!这里有我给大家准备的精心准备的爬虫案例代码,当然如果基础有点儿差的小伙伴儿也 不用担心哈&#x…

【Spring】——15、使用@PropertySource加载配置文件

📫作者简介:zhz小白 公众号:小白的Java进阶之路 专业技能: 1、Java基础,并精通多线程的开发,熟悉JVM原理 2、熟悉Java基础,并精通多线程的开发,熟悉JVM原理,具备⼀定的线…

【Java】Java异常Exception和Error有什么区别?

异常处理Exception 和 Error 的区别try-catch代码块总结写程序就需要考虑程序中是否有异常,如果存在异常应该如何处理比较友好。Java 语言在设计之初就提供了相对完善的异常处理机制,这也是 Java 得以大行其道的原因之一,因为这种机制大大降低…

三方线上美食城|基于Springboot的三方线上美食商城系统

作者主页:编程指南针 作者简介:Java领域优质创作者、CSDN博客专家 、掘金特邀作者、多年架构师设计经验、腾讯课堂常驻讲师 主要内容:Java项目、毕业设计、简历模板、学习资料、面试题库、技术互助 收藏点赞不迷路 关注作者有好处 文末获取源…

Neo4j 实战(一)-- Mac neo4j 安装与配置

前言 Neo4j是一个高性能的,Nosql图形数据库。Nosql =no sql,即与传统的将数据结构化并存储在表中的数据库不一样。Neo4j将数据存储在网络上,我们也可以把Neo4j视为一个图引擎。我们打交道的是一个面对对象的、灵活的网络结构而不是…

【消息中间件】RocketMQ底层如何实现生产者发送消息

目录 一、前言 二、实现生产者发送消息 1、启动生产者 1.1、RocketMQTemplate消息发送模板 1.2、afterPropertiesSet()逻辑 1.3、DefaultMQProducer#start()逻辑 2、DefaultMQProducer#start()启动逻辑 2.1、更新路由信息到本地 2.2、从本地获取主题Topic信息 2.3、数…

flink on yarn

文章目录flink sql client on yarnsession 模式Per-Job Cluster 模式flink run安装完hadoop 3.3.4之后,启动hadoop、yarn 将flink 1.14.6上传到各个服务器节点,解压 flink sql client on yarn https://nightlies.apache.org/flink/flink-docs-release…

SQL注入

目录 一、SQL注入原理 二、SQL注入的危害 三、SQL注入的分类 四、SQL注入的流程 五、总结 一、SQL注入原理 1.SQL注入产生的原因: 当Web应用向后台数据库传递SQL语句进行数据库操作时。如果对用户输入的参数没有经过严格的过滤处理,那么攻击者就可以构造…

面试真题 | 需求评审中从几个方面发现问题

面试官问题 在需求评审会议中,你会发现什么问题? 在需求评审时,是通过哪几个角度来进行考虑及发现问题的? 考察点 是否参加过需求评审 在需求评审过程中是否能提出有效的问题 4个角度发现问题 在需求评审的过程中通过以下4个…

【Vue 快速入门系列】一文透彻vue中使用axios及跨域问题的解决

文章目录一、什么是Axios?1.前置知识2.vue中使用axios3.Axios两种请求方式①.调用接口②.传入对象3.Axios支持的请求类型①.get请求②.post请求③.put请求④.patch请求⑤.delete请求二、跨域问题解决方案1.什么是跨域问题?2.解决方案一:在Vue…