隐藏在Microsoft Designer背后的新科技,让人人都是设计师

news2024/11/16 11:44:07

编者按:在视觉图像设计中,用户的需求与最终的设计成品往往是“想象很美好,现实很骨感”。这通常是因为用户在与设计师沟通时,双方理解不一致,导致最终设计结果不尽如人意。但是,如果能够“自给自足”,借助人工智能技术为每个人赋予设计能力,是否会更容易让自己脑海中的画面变为现实?智能化设计工具 Microsoft Designer 就是一个能辅助用户成为设计师的好帮手。

2022年10月,微软在 Ignite 大会上发布了 Microsoft Designer 内测版,为 Microsoft 365 家族再添一个视觉生产力工具。2023年4月27日,经过半年的迭代和改进,微软宣布推出 Microsoft Designer 公开预览版。利用人工智能技术“猜想”用户的想法,智能辅助生成文字提示和视觉图像,Microsoft Designer 大大降低了设计难度,让人人都能成为视觉设计师。


如今,市场上充斥着各种各样视觉的设计工具,然而这些专业软件有很高的技术门槛且操作复杂,非专业人员难以熟练使用。也有一些工具提供了海量的模板库,用户可以基于模板进行修改,虽然这简化了部分操作,但其呈现效果与用户的设想仍有不小的差距。Microsoft Designer 则能够智能理解用户的需求,自动生成文字表述,实现从文字到视觉图像的自动化创造,并将这些素材用于设计项目。

Microsoft Designer

作为智能化的设计工具,Microsoft Designer 将先进的科研成果快速吸纳并转化为生产力,其中包括来自微软亚洲研究院视觉计算组的 Provence、Swin Transformer 模型,自然语言计算组与微软图灵团队合作的图灵通用语言表示模型,系统研究组的 SPANN(存储器-磁盘混合索引和搜索系统)算法等众多前沿技术。

厚积薄发:Provence多模态内容推荐模型助力实现“一键式”设计配图

微软亚洲研究院很早就开始研究通过自然语言生成图像或视频的技术。2018年,正值短视频发展的上升时期,研究员们意识到视频化的传播形态将成为未来互联网主要的沟通交流方式。然而视频内容的制作流程繁杂,高质量视频的拍摄更需要专业人员的参与,那么是否可以通过技术创新创造出一个简化视频制作和生成的工具?在这一目标的驱动下,视觉计算组开始了文字到图像和视觉的生成技术的研究。

经过一年多的潜心钻研,2020年视觉计算组推出了第一代基于检索的文字到视频的生成模型 Provence(Retrieval-based text-to-video generation)。Provence 模型能够根据文本描述搜索相匹配的视频或图像,同时确保跨模态对应具有较高的准确率,达到了“一键式(即检索到的第一个图像推荐就是用户所需)”的水平。

Provence 模型的潜力很快就被微软 Microsoft 365 产品部门发现,并将其引入到了 PowerPoint Design Ideas(PowerPoint 设计器)功能中。为了更好地满足产品端的工程化需求,微软多个研究组的研究员们将 Provence 与 Swin Transformer、图灵通用语言表示模型和 SPANN 算法结合,在 Design Ideas 功能的底层构建了零样本多模态的内容检索引擎,让用户在几秒钟内就能通过文字自动检索出最适合于当前幻灯片的配图,并给出布局设计建议,良好的使用体验让 Design Ideas 功能的用户使用率提升了20%以上。

图1:Provence 模型分别应用于 PowerPoint Design Ideas,Microsoft Designer 及其生态系统中

2021年3月,在微软内部的骇客松(Hackathon)活动期间,Microsoft 365 产品团队通过与研究员们的思想碰撞,更加深入地了解了机器学习领域的前沿技术趋势,不仅看到了走向成熟的 Provence 检索技术,也看到了更多创新的机器学习算法的应用潜力。由此,双方共同发起了 Designer in Edge 的 Hackathon 项目,此后这一项目进入产品化迭代过程,也形成了如今的 Microsoft Designer 和 Designer Platform 这两款由人工智能驱动的产品。

微软 Microsoft 365 产品部副总裁张大川表示,“在与微软亚洲研究院多个研究组的交流中,我们看到了 Provence、Swin Transformer、图灵通用语言表示模型等诸多超前的 AI 技术理念,这些前沿技术完全满足 Microsoft Designer 及其生态系统的需求。双方的紧密合作,不仅大大加速了产品的创新周期,而且还革新了传统设计的流程。下一步,我们将共同致力于创新技术的落地应用,为全球用户提供更加便捷易用的视觉设计工具,更好地激发人们的创造力和创新力。”

“很高兴看到微软亚洲研究院越来越多的创新研究成果走向了实际应用,成为支持产品开发的核心技术。以 Microsoft Designer 为例,它的关键技术始于研究院五年前的创新突破,正是因为微软亚洲研究院持续致力于探索计算机领域前瞻性的基础研究,才使得这种拿来即用的技术转化成为可能。未来,微软亚洲研究院将一如既往地着眼于下一代革命性技术的研究,并将科研成果快速转化到微软的产品中,赋能更多用户。”微软亚洲研究院常务副院长郭百宁表示。

Microsoft Designer:从多模态推荐走向具有“创作”能力的AI

生成式视觉设计的一个关键环节是用语言或者文字将用户脑海中想象的画面清晰地表达出来。因此,微软亚洲研究院视觉计算组的研究员们进一步对 Provence 模型进行了升级,让 Microsoft Designer 在从文字描述中精准检索出用户所需图像的基础上,又实现了根据用户意图智能输出文字提示的功能。

其核心思想是基于学习到的自动模板为不同的输入文本创建不同的提示,具体包括三个步骤:

  • 首先,将用户原始输入的文本与一组字符(token)结合,这些字符是对用户所需要的设计图像的视角、样式、氛围、用途等的描述。
  • 然后,根据美术设计的评分,使用学习到的自动模板找到与不同字符匹配的最佳组合。
  • 最后,将输入文本和自动模板提示的组合返回给用户,并使用评分指标对结果进行排序,再从中检索出最佳的图像。

智能输出提示文字,为用户原始的输入文本添加了更多的描述和细节,从而激励视觉模型“创作”出更符合用户需求的结果。如图2所示:用户输入“a cat hacker wearing a VR headset”后,Microsoft Designer 自动输出了相关的提示与图像。

图2:智能输出提示文字的流程

另外,研究员们还提出了一种检索增强提示的推荐方法,通过使用提示数据库来增强自动提示的结果。随着用户对 Microsoft Designer 的频繁使用,模型会学习到更多的提示,而这些数据将能进一步提高提示质量。如图3所示,对于用户输入,Microsoft Designer 会先使用语言模型从提示数据库中检索最相似的提示文本,然后通过评估分数对检索结果排序,再将自动提示与排序检索提示结合,以获得更好的结果。由于模型具有持续学习的特性,最终将有越来越多的用户数据纳入到提示数据库中来增强提示。

图3:检索增强提示

借助智能输出文字提示和智能图像生成的双重加持,用户可以更好地用文字描述出脑海中的画面,让 Microsoft Designer “创作”更符合需求的视觉图像,并从推荐的图像中选择出最匹配需求的用于后续的定制化设计。

由人工智能技术驱动的 Microsoft Designer 极大地降低了设计工作的专业门槛,让设计更加大众化,人人都能成为设计师。未来,Microsoft Designer 还将引入更多的人工智能算法,比如个性化的智能修图、借助大模型实现平面布局等等,以此丰富 Microsoft Designer 的功能,为更多用户带来更高水平的创意和创造力生产工具。

现在就来试用 Microsoft Designer,开启属于你的 AI 设计之旅吧!https://designer.microsoft.com/

随着人工智能技术的快速发展,确保相关技术能被人们信赖是一个需要攻坚的问题。微软主动采取了一系列措施来预判和降低人工智能技术所带来的风险。微软致力于依照以人为本的伦理原则推进人工智能的发展,早在2018年就发布了“公平、包容、可靠与安全、透明、隐私与保障、负责”六个负责任的人工智能原则(Responsible AI Principles),随后又发布了负责任的人工智能标准(Responsible AI Standards)将各项原则实施落地,并设置了治理架构确保各团队把各项原则和标准落实到日常工作中。微软也持续与全球的研究人员和学术机构合作,不断推进负责任的人工智能的实践和技术。

相关论文链接:

Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

BEiT: BERT Pre-Training of Image Transformers

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/593193.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

COMSOL晶体取向多晶材料Voronoi泰森多边形力学模拟

多晶材料几何模型模型构建采用的CAD Voronoi V2.3版本,可分图层对晶格进行绘制,分别导入有限元软件后实现三种晶体取向的差异性。 将构建好的Voronoi多晶体几何模型文件导入到COMSOL内,构建好晶体结构模型后,进行材料赋值操作&am…

Oracle常用傻瓜问题100问

大家在应用ORACLE的时候可能会遇到很多看起来不难的问题, 特别对新手来说, 今天我简单把它总结一下, 发布给大家, 希望对大家有帮助! 和大家一起探讨, 共同进步! 对ORACLE高手来说是不用看的. 1. Oracle安装完成后的初始口令? internal/oracle sys/change_on_install system/m…

Spring6《学习笔记(22版尚硅谷)》

Spring6 1、概述 1.1、Spring是什么? Spring 是一款主流的 Java EE 轻量级开源框架 ,Spring 由“Spring 之父”Rod Johnson 提出并创立,其目的是用于简化 Java 企业级应用的开发难度和开发周期。Spring的用途不仅限于服务器端的开发。从简单…

io之socket编程

写在前面 本文通过socket编程来实现一个简单的HttpServer。 1:单线程版本 我们使用单线程来实现一个HttpServer,如下: package dongshi.daddy.io.httpserver;import java.io.PrintWriter; import java.net.ServerSocket; import java.net.…

何为儒家的四书五经?

中国古代的四书五经是儒家经典之一,是中国古代最为重要的经典之一。它们包括了四书:《大学》、《中庸》、《论语》、《孟子》以及五经:《诗经》、《尚书》、《礼记》、《周易》、《春秋》,被誉为“经国之宝”、“德育之本”。 四书…

java服务接入SkyWalking时生成TraceId信息(基于logback)

java服务生成TraceId 一、背景二、配置2.1 pom文件引入依赖2.2 logback-spring.xml配置 三、启动项目 一、背景 springboot服务接入SkyWalking时,想要在控制台输出TraceId信息,如下图的效果: 二、配置 参考文章: https://juej…

2023最全性能测试学习指南【建议收藏】

浅谈软件测试中的性能测试 很多时候,我们都知道软件有黑白盒测试,但往往还遗漏掉了一个性能测试。 在下面的这篇文章中,就带领大家来了解性能测试。一起来学习吧~ 学习目录 一、 性能测试概念 二、 性能测试指标 三、 性能测试种类 四、 性能…

“政会银企”齐聚纵目科技,探索四方合作新模式

近日,纵目科技携手浦东新区工商业联合会、浦东新区金融工作局、上海市人工智能行业协会、交通银行张江支行、招商银行上海分行外滩支行、中信银行上海漕河泾支行、中国建设银行张江分行举办了一场别开生面的“政会银企”座谈会,深入交流、探讨了推动四方…

并发编程学习(十四):tomcat线程池

1、Tomcat 功能组件结构 Tomcat 的核心功能有两个,分别是负责接收和反馈外部请求的连接器 Connector,和负责处理请求的容器 Container。 其中连接器和容器相辅相成,一起构成了基本的 web 服务 Service。每个 Tomcat 服务器可以管理多个 Servi…

同声传译方法有哪些?我来给你介绍三个同声传译的好方法

假设有一场国际性的会议,参会者来自不同的国家和语言背景。在会议中,主要的演讲和讨论都是以主持人或演讲者的母语进行,这个时候场中的其他人很可能因为语言不通而无法理解演讲的内容,而翻译人员人数不足的时候,就更难…

Nmap常用基础命令详解

阅读目录 Nmap 主机发现扫描 Nmap 使用扫描脚本 Nmap 内网服务扫描 Nmap 是免费开放源代码实用程序,用于网络发现和安全审核。许多系统和网络管理员还发现它对于诸如网络清单,管理服务升级计划以及监视主机或服务正常运行时间之类的任务很有用。Nmap以…

2023全国科技工作者日——回顾2023小蛮腰科技大会暨AIGC人工智能峰会,致敬全国科技工作者

文章目录 一、前言二、2023全国科技工作者日三、回顾2023小蛮腰科技大会暨AIGC人工智能峰会3.1 关于小蛮腰科技大会暨AIGC人工智能峰会的背景3.2 2023小蛮腰科技大会:探寻AIGC新未来3.2.1 开幕式暨主论坛3.2.2 平行论坛1&6:迈向智能时代,…

Linux系统下imx6ull QT编程—— C++构造函数、析构函数、this指针(四)

Linux QT编程 文章目录 Linux QT编程一、什么是构造函数?二、什么是析构函数?三、示例四、this指针 一、什么是构造函数? 构造函数在对象实例化时被系统自动调用,仅且调用一次。前面我们学过类,实际上定义类时&#x…

普源DG1062Z函数/任意波形发生器产品介绍

DG1000Z系列函数/任意波形发生器是一款集函数发生器、任意波形发生器、噪声发生器、脉冲发生器、谐波发生器、模拟/数字调制器、频率计等功能于一身的多功能信号发生器。该系列所有型号皆具有2个功能*相同的通道,通道间相位可调。 产品特性 SiFi(Signal Fidelity)…

Android UEvent事件分析

1.背景概述 众所周知,在安卓系统中有状态栏,在插入外设的时候,会在顶部状态栏显示小图标。 比如,camera设备,耳机设备,U盘,以及电池等等。这些都需要在状态栏动态显示。 从上面这张图片可以看出这些设备都有自己的服务一直在跑,并且都是继承了UEventObserver.java这个…

自学网络安全/Web安全,一般人真的不行

本人之前写了不少网络安全技术相关的文章,不少读者朋友知道我是从事网络安全相关的工作,于是经常有人私信问我: 我刚入门网络安全,该怎么学? 要学哪些东西? 有哪些方向? 怎么选&#xf…

Windows和Linux服务器给图片添加水印两种方法,引用字体库和自带字体库

文章目录 一、效果展示二、前提说明三、Windows自带字体库实现方法四、引入字体库实现方法 一、效果展示 水印123如下图 1.可以自定义(类型:汉字、数字都支持) 2.可以定位指定位置 二、前提说明 实现添加水印功能中Windows服务器和Linux服…

系统日志管理

什么是系统日志 系统日志由 Linux/Unix 和其他网络设备(如交换机、路由器和防火墙)生成。系统日志包含有价值的信息,有助于保护网络和解决操作问题。因此,收集和分析系统日志至关重要。 系统日志包含什么 系统日志标准包含三个不…

Linux:MBR 扇区故障处理 (备份|恢复)

大概思路: 我们准备一个硬盘,并分出一个分区用于单独存放MBR备份文件 或者 和别的文件放在一起也可以(前提是不怕乱) 然后将分区挂载 然后进行MBR备份 把备份文件放到分区里 然后对MBR进行破坏(仅供实验参考&…

选择好的自动化测试工具影响会很大

根据当前项目和QA团队的人员能力,选择的自动化测试工具除具有使用的广泛性外,还必须考虑许多不同方面兼容性,例如项目迭代范围和需求变更。最佳工具并不能保证最佳的测试使用结果。 测试自动化的意义 随着自动化测试的普及,有关…