AI-多模态-2021:DALL-E模型【文本生成图像工具】【OpenAI】

news2024/10/7 12:18:52

Dall-e:从拟物文字到图片的创造

人类不断地从五种感官接收和整合信息,通过视觉、听觉、触觉、嗅觉和味觉等生物信息来理解文字和图片。然而文字和图片属于符号,Dall-e模型在理解符号的含义时并不能通过生物信息的传递。通过将对自然语言的理解与生成相应视觉表现的能力结合起来——换句话说,通过“读”和“看”的能力——DALL-E有力地展示了多模态AI的潜力。

DALL-E生成的图像未曾存在于世界上或任何人的想象中。它们不是对互联网上现有图像进行操作的结果——它们是新颖的效果图,有时因其聪明和独创性而令人惊叹。这些图像是DALL-E的人类创造者在很多情况下没有预料到的,也不可能预料到的。

功能一,创造拟人的器具

它不仅能够准确执行,而且能进行创造,举个例子(其结果的默认排序是越靠前越接近文本描述):

功能二,Dall-E能够很聪明地捕捉到每个事物的特性,并且合理地组织在了一起。

比如,“一个用长得像奇美拉的乌龟做的长颈鹿”

功能三,根据文本自动渲染真实场景图片,其仿真程度与真实照片十分接近。

举例,“一个写着open ai的广告牌”

功能四,根据文本指令改变和转换现有图片风格。

比如,“把这张照片里的猫转换成手绘草图”

不同于GAN(生成式对抗网络)的一点是,虽然GAN能够替换视频里的人脸,但其仅仅限制于人脸的范畴,而Dalle是将概念和概念之间做了关联,这在以往也是从未被实现过的。

应用前景设想

以服装设计为例,达利具备了细节属性操控能力,这一点是GAN(生成式对抗网络)所缺乏的能力,在模特图生成上,具备完全自动化属性。

再看室内设计,一个带有拱门和意大利元素且带壁炉的客厅,这样的要求描述不仅符合甲方的思路,而且在满足要求前提下,给出了非常多的合理布局设计。假如室内设计师已经穷尽了创意,用达利来寻找灵感也未尝不可。

对于不同物体之间的合理结合,在启发式设计上Dall-e也可以大开脑洞,将不同物体合理结合,帮助创意突破一般认知。

DALL-E的意义

DALL·E不是一个架空的作品,Openai在去年发布了GPT-3和Image GPT两个模型,各自分别能完成多种类的文本任务以及补全图像中的空缺部分。

DALL·E的模型在技术上来讲和GPT-3应该是大同小异的,同样采用了Transformer模型。它预示着一种被称为“多模态AI”的新型AI范式的到来,这种范式似乎注定了人工智能的未来。多模态AI系统能够在多种信息模态之间进行解释、综合和翻译——在DALL-E的例子中,是语言和图像。毫无疑问,DALL-E虽然并不是第一个多模态AI的例子,但它是迄今为止最有创造能力的。

面对无限的可能,我们只需充满期待。

本期内容来自品览上期「AI论技」直播。

【AI论技】系列直播是品览致力于为AI行业从业者打造的免费线上分享课,目前已经成功进行了6期,内容涵盖了目标检测模型、文本检测模型、3D视觉、目标跟踪、AI图像修复等业界经典模型教学,欢迎前往官网扫码加入品览AI交流群,免费看「AI论技」系列直播。

OpenAI的DALL·E迎来升级,不止文本生成图像,还可二次创作

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/51992.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Ambari-yarn-timeline 内置 HBase数据表清理

HDP 集群 timeline 内置的 HBase 数据表持续增大,我们将默认TTL30改 为7 天。 ambari界面YARN 服务中 的 timeline v2.0 timeline 内置 HBase数据HDFS路径 : 表在HDFS上的大小 使用如下命令进入 Hbase shell [hdfswinner-backup-hdp root]$ hbase -…

网站变灰代码如何让网页变灰

1.网站变灰代码应用场景 一般在清明节,全国哀悼日,大地震的日子,以及一些影响力很大的伟人逝世或纪念日的时候,身为站长的我们都会让自己的网站的全部网页变成灰色(黑白色),以表示我们对逝者的…

数据分析之人力资源管理驾驶舱

驾驶舱是数据分析报表中用于展示关键分析指标和综合展示数据情况的,因此需要展示的内容多,需要做的内容甄选也多。 一 前言 人力资源作为企业的关键生产力,是一个企业成长发展的根本。随着“知识经济”时代的到来、市场竞争的加剧&#xff…

Shiro-全面详解(学习总结---从入门到深化)

Shiro介绍_Shiro简介 Shiro是apache旗下的一个开源安全框架,它可以帮助我们完成身 份认证,授权、加密、会话管理等功能。它有如下特点: 1、易于理解的API 简单的身份认证,支持多种数据源 2、简单的授权和鉴权 3、简单的加密API 4、…

《机器学习实战》11.Apriori算法进行关联分析

目录 使用Apriori算法进行关联分析 1 关联分析 2 Apriori原理 3 使用Apriori算法来发现频繁集 3.1 生成候选项集 3.2 组织完整的Apriori算法 4 从频繁项集中挖掘关联规则 5 示例:发现国会投票中的模式 6 示例:发现毒蘑菇的相似特征 7 本章小结…

线上服务Java进程假死快速排查、分析

线上服务Java进程假死快速排查、分析 最近我们有一台服务器上的Java进程总是在运行个两三天后就无法响应请求了,具体现象如下: 请求业务返回状态码502,查看进程还在,意味着Java进程假死,无法响应请求了;该…

React18 基础入门API、JSX语法糖

文章目录一、react的一次使用react.development.jsreact-dom.development.jsReact.createElement()二、三个APIReact.createElement()ReactDOM.createRoot()root.render() 渲染页面三、JSX(JavaScript Syntax Extension)、babelbabelJSX使用注意事项一、…

mysql与磁盘的关系

1.如今一直在说mysql存储方式和磁盘的关系,但是现在都是硬盘存储啊 磁盘分为硬盘和软盘 硬盘结构(机械硬盘和固态硬盘)详解 硬盘的大小是使用"磁头数 x 柱面数 x 扇区数 x 每个扇区的大小 如下: 每个扇区的大小是固定的…

javaEE高阶---Spring MVC

一 : 什么是Spring MVC ? 1.1 概述 Spring MVC全称Spring Web MVC,又称为Spring Web,它是一个原始的基于Servlet API 的 web 框架.Q : 经典问题 : Spring/Spring Boot/Spring MVC 有什么区别 ? A : Spring,一般指代的是Spring Framework,它是一个开源…

业务数据分析-常见业务指标

目录 1、什么是指标? 2、以互联网电商数据为例分析常用的指标 3、如何选择指标 4、电商指标体系详细介绍 1、什么是指标? 我们说过分析的最终目的就是为了通过客观的数据去发现公司业务存在的问题,那怎么通过什么数据呢?业务…

连接MySQL问题的错题小集

目录 一. 连接不上数据库 踩坑 解决过程 二. Can‘t connect to MySQL server on ‘localhost:3306‘ (10061) 排查1:数据库没有启动 排查2:判断数据库是否存在 排查3:数据库没有启动 ​编辑 过程: 报错了,排…

12.Java 技术栈中间件优雅停机方案设计与实现全景图

Java 技术栈中间件优雅停机方案设计与实现全景图 本系列 Netty 源码解析文章基于 4.1.56.Final 版本 本文概要 在上篇文章 中笔者为大家详细介绍了 Netty 在处理连接关闭时的完整过程,并详细介绍了 Netty 如何应对 TCP 连接在关闭时会遇到的各种场景。 在连接关闭…

软件压力测试有哪些测试流程?软件测试报告收费情况

软件压力测试是一种基本的质量保证行为,它是每个重要软件测试工作的一部分。通过给软件系统不断施压,强制其在极限条件下运行,以观察软件系统可运行到哪种程度,从而发现系统性能缺陷。测试人员根据测试过程进行总结和分析&#xf…

[附源码]Python计算机毕业设计Django个性化产品服务管理系统论文

项目运行 环境配置: Pychram社区版 python3.7.7 Mysql5.7 HBuilderXlist pipNavicat11Djangonodejs。 项目技术: django python Vue 等等组成,B/S模式 pychram管理等等。 环境需要 1.运行环境:最好是python3.7.7,…

电脑重装系统后序列号怎么查

最近很多网友都在问怎么看桌面操作系统序列号,我们安装系统的时候是需要知道,其实想要知道自己电脑的序列号非常简单的,网友们看看下面操作就知道了。 工具/原料: 系统版本:win10 型号:联想小新Air 13 Pro…

【矩阵论】4. 矩阵运算——广义逆——减号逆

4.5 减号逆 若 AAmnAA_{m\times n}AAmn​ 与 XXnmXX_{n\times m}XXnm​ ,有 AXAAAXAAAXAA ,则称 XXnmXX_{n\times m}XXnm​ 为A的减号逆(一号逆),记为 XA−A(1)XA^{-}A^{(1)}XA−A(1) 全体 A−A^{-}A− 的集合记为 A{1}{X∣AXAA}A^{\{1\}}\…

【自然语言处理概述】百度百科数据爬取

【自然语言处理概述】百度百科数据爬取 作者简介:在校大学生一枚,华为云享专家,阿里云专家博主,腾云先锋(TDP)成员,云曦智划项目总负责人,全国高等学校计算机教学与产业实践资源建设…

氮化镓(GaN)功率半导体之预测

前言 氮化镓(GaN)是一种非常坚硬且在机械方面非常稳定的宽带隙半导体材料。由于具有更高的击穿强度、更快的开关速度,更高的热导率和更低的导通电阻,氮化镓基功率器件明显比硅基器件更优越。 氮化镓晶体可以在各种衬底上生长&…

充分利用自动化测试的 10 个最佳实践

你试过吃带壳的坚果吗?如果是,我想这不是一次非常成功的经历。 虽然大家都知道坚果是非常健康和有营养的。矛盾的是,许多公司在实施测试自动化时没有考虑细微差别。每个人都知道它对身体有好处(就像吃坚果对我们健康有益一样&…

线上环境不要使用console.log,会导致页面卡顿,内存泄漏的原因

在我的这篇文章中分享了一个经验,就是vite打包之后会自动屏蔽所有的console.log打印的日志。 那么,在线上环境中不要使用 console.log 打印日志,已经成为共识,你知道是为什么么? 原因当然在于这个罪魁祸首 console 方…