2023 Unite 大会关于“Muse“ AI 大模型训练

news2024/11/17 23:45:11

Unity Muse 借助强大的 AI 能力帮助你探索、构思和迭代,其中包括纹理和精灵两项功能,可将自然语言和视觉输入转化为可用资产。

将 AI 引入 Unity Editor 中的 Muse 提供了更快将想法转化为实物的选项。您可以调整并使用文本提示、图案、颜色和草图,将其转化为真实且项目准备就绪的输出。

为了提供有用、负责任和尊重其他创作者版权的输出,我们挑战自己在 Muse 的精灵和纹理生成 AI 模型训练方法上进行创新。

在本文中,我们分享了 Muse 如何生成结果,解构我们的模型训练方法,并介绍我们的两个新基础模型。

训练AI模型

在我们推出Muse的Texture和Sprite功能的同时,我们还创新了两个专有的扩散模型,每个模型都从零开始,在Unity拥有或授权的专用数据上进行训练。

扩展我们的自有内容库

为了增强我们数据集的规模和多样性,我们采用了一种关键技术——数据增强,使我们能够从原始 Unity 拥有的数据样本中产生许多变异。这极大地丰富了我们的训练集,并提高了模型从有限样本中进行泛化的能力。我们还使用了一些技术,如几何变换、色彩空间调整、噪声注入和生成模型(如稳定扩散)的样本变异,以人工扩展我们的数据集。

最近,稳定扩散模型因为最初是在从互联网上抓取的数据上进行训练而引发了伦理担忧。在构建 Muse 的纹理和精灵功能过程中,我们尽量减少对预训练模型的依赖,从零开始在 Unity 拥有并负责任地策展的原始数据集上训练潜在的扩散模型架构。通过将稳定扩散模型作为数据增强技术的一部分,我们能够安全地利用这个模型,将原始的 Unity 拥有的资产库扩展为一个强大且多样化的输出库,这些输出具有独特性、原创性,且不包含任何受版权保护的艺术风格。在此基础上,我们还采取了额外的缓解措施,如下所述。支撑 Muse 纹理和精灵功能的潜在扩散模型的训练数据集并未包含从互联网上抓取的任何数据。

以下是一些通过上述增强技术扩展的内容示例。

一个原始数据样本(左上角)以及通过混合多种增强技术获得的结果合成变异,包括基于扰动的技术(从上到下:色彩空间调整)和基于生成的技术(从左到右)

在增强现有数据后,我们仍在许多主题上发现了空白,需要填补。为了实现这一目标,我们在自己的内容上训练了稳定扩散模型,直到其行为发生显著变化。然后,我们使用这些派生模型,根据预过滤的主题列表创建了全新的合成数据。这个主题列表经过人类审查和额外的大型语言模型(LLM)自动过滤,以确保我们不会试图创建任何违反我们指导原则和目标的合成图像:一个完全不含可识别的艺术风格、受版权保护的材料和潜在有害内容的数据集。

结果是两个大型数据集,包括增强和完全合成的图像,我们对此有很高的信心,认为这两个数据集中不会包含不想要的概念。然而,尽管我们非常有信心,但我们仍然希望添加更多的过滤以确保模型的安全性。

额外的数据过滤以确保安全且有用的输出

由于我们的主要任务是确保安全、隐私和使我们的工具不会产生负面影响,因此我们开发了四个独立的分类器模型,它们负责对数据集进行额外的过滤。这些模型有助于确保数据集中的所有内容都符合我们的人工智能指导原则,以及对图像质量的额外检查。

这四个评审模型共同负责确定合成图像:

  • 不包含任何可识别的人类特征
  • 不包含任何非通用的艺术风格
  • 不包含任何知识产权的人物或标志
  • 质量可以达到可接受水平

如果一张图像没有通过四个评审模型中的任何一个所要求的高置信度阈值,那么它将被丢弃在我们的数据集中。我们决定采取谨慎的立场,并使我们的模型倾向于拒绝,以便只有具有最高置信度的图像才能通过过滤器并进入最终数据集。

Muse Modle:Photo-Real-Unity-Texture-1 和 Photo-Real-Unity-Sprite-1

在 2023 Unite 活动中,我们宣布了 Muse 的纹理和精灵功能的早期访问。驱动这些工具的第一个模型的内部版本分别称为 Photo-Real-Unity-Texture-1 和 Photo-Real-Unity-Sprite-1。这些模型仅具有基本的装饰理解,主要专注于照片写实风格。

此外,如果您想让模型匹配您项目中现有的风格,可以通过向我们风格训练系统提供少量您自己的参考资产来教导我们的模型以创建特定艺术风格的内容。这将创建一个与主模型协同工作的较小二次模型,以引导其输出。这个小二次模型对于您或您组织来说是私有的,因为它是由训练师训练的,我们永远不会使用这个内容来训练我们的主模型。

由于我们的模型专注于照片写实风格,因此我们无需在无数不同的风格上训练主模型。这种架构使我们在保持对负责任的人工智能承诺的同时,为您提供了深入的艺术控制。

今天,这些模型只是开始。我们期望 Muse 能够继续变得更聪明,并提供更好的输出,我们将通过模型改进路线图来引导这些模型走上这一道路。

Photo-Real-Unity-Texture-1 roadmap

目前,我们的纹理模型在各个方面都非常出色。它掌握了许多概念,您可以在纹理模型中自由混合完全无关的概念,并获得美丽的结果,如“金属史莱姆”或“蓝色水晶玻璃岩石”,如上所示。

尽管模型在当前状态下非常出色,但在学习它对不同提示和输入方式的反应后,我们发现使用单个单词提示可能难以实现高级材料概念。除了基本的提示准确性外,我们还计划通过添加新的指导模型方式来为您提供更多控制。

在未来,我们计划添加颜色选择器、额外的预制指导图案、改进的自定义指导图案创建系统,以及其他新的视觉输入方法,我们目前正在实验。

展望未来,我们 Photo-Real-Unity-Texture-1 的主要关注点是确定任何弱的材料概念,并通过频繁的模型重训练来继续提高整体质量和能力。您通过内置评分系统提供的反馈对于帮助我们构建最好的工具至关重要,因为它可以帮助我们确定模型能力的薄弱环节。结合我们频繁的训练计划,我们正在快速改进模型,使其更易于使用并对材料世界更加了解。

Photo-Real-Unity-Sprite-1 roadmap

类似于 Photo-Real-Unity-Texture-1,我们的基础精灵模型整体上非常出色,并知道许多概念。由于该工具目前尚未具备内置动画功能,我们选择将初期努力集中在最常见静态精灵概念的质量最大化上。您可以在上面的图片中看到基础模型的原始输出。在正常使用中,这些输出将由用户训练的模型引导,以匹配特定的艺术风格。

虽然静态物体已经非常可靠,但我们仍在努力改进动物和人类的解剖学准确性。在这些类型的主题上,您可能会获得很好的结果,但可能会遇到四肢过多或缺失,或者面部扭曲的情况。这是我们对负责任的人工智能的承诺和严格限制可使用数据所导致的结果。我们非常重视隐私和安全,即使这意味着在初期早期访问版本中某些主题的质量会受到影响。

这是我们致力于负责任的人工智能并对可用数据设置严格限制所导致的结果。我们非常重视隐私和安全,即使在初期早期访问版本中某些主题的质量受到影响,也在所不惜。

您可能会遇到生成的Sprite完全空白的情况。这是因为我们的视觉内容审核过滤器。在 Photo-Real-Unity-Sprite-1 的输出过滤方面,我们选择在初期启动时过于谨慎,因此,某些艺术风格可能会引发审核过滤器的误报。我们计划随着时间的推移,在收到您的反馈并改进内容过滤后,放宽限制。

我们期待着在获取反馈并继续负责任地收集更多数据后,所有主题的质量都会迅速提高。我们打算对 Photo-Real-Unity-Sprite-1 进行与 Photo-Real-Unity-Texture-1 类似的严格训练计划。

统一负责任的AI开发之路

Unity Muse 是我们在负责任和尊重的方式下,利用生成式AI为社区带来更大创意控制的第一步。我们以用户为中心打造这个产品,并计划根据您的反馈不断进行改进和优化。

我们认识到生成式AI对创意行业可能产生的影响,并对此非常重视。我们花费了很长时间开发这些工具,以确保我们不是在取代创作者,而是提升他们的能力。我们相信,世界上有越多创作者,世界就会变得越好,而 Unity Muse 和其背后驱动的模型,正是我们支持这一使命的持续努力。

请关注未来关于 Unity Muse 和 AI 开发的更多信息。如果您对这些产品有任何疑问,请查看我们网站上的 FAQ,或访问 Discussions与我们直接交流。

如果您是从 Unite 2023 过来的,我们将在未来几周内分享活动的录像。您可以在这里找到完整的报道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1247119.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

全面预算管理,帮助企业财务团队冲破市场挑战

在实现企业财务发展的必经之路上,大多数财务专业人士会通过实施全面预算管理策略,为部门乃至整个组织建立一个用于数据管理和预测分析的财务模型,旨在影响和监控业务决策和变化趋势。全面预算管理通常包括历史数据分析和关于未来走向更详细的…

加入华为云鲲鹏极简开发创造营,激活创造力,探索无限可能!

数字经济时代,速度、效率、质量安全已成为各行业告诉拓新发展的关键,华为云不断打磨敏捷安全开发的软件平台,为更高效率的生产力变革积蓄能量。 在刚刚过去不久的2023华为全联接大会上,华为最新发布了华为云CodeArts与鲲鹏DevKit…

鸿蒙开发之android开发人员指南《基础知识》

基于华为鸿蒙未来可能不再兼容android应用,推出鸿蒙开发系列文档,帮助android开发人员快速上手鸿蒙应用开发。 1. 鸿蒙使用什么基础语言开发? ArkTS是鸿蒙生态的应用开发语言。它在保持TypeScript(简称TS)基本语法风…

别再为仓库库存损耗头疼了!掌握6S必备装备管理轻松降低损失!

仓库库存损耗是很多装配制造企业头疼的问题,不仅会导致企业资产流失,还可能会对企业的生产和运营产生严重影响,因此,企业应认真分析导致损耗的原因,并有针对性地采取策略,降低库存损耗,提高企业…

JS 中的随机数方法 Math.random()

有时候项目中遇到一个功能需要随机返回多条不重复的数据,也可以是拿了就用,下次再需要时已经忘记如何使用了。 js中的生成随机数操作是基于 Math 方法下的 random() 方法 Math.random() : 随机获取范围内的一个数 ( 精确到小数点…

Mac系统-tomcat部署war包指定jdk版本步骤

背景: 因本机jdk安装了好几个版本, 有 1.8、 11 、17 , 现在想要启动tomcat的时候指定11版本 步骤如下: 1、 在官网下载了“apache-tomcat-9.0.83.tar.gz” 这个包. 官网地址: Apache Tomcat - Apache Tomcat 9 Software Downloads 2、解压缩, 得到tomcat目录: /Users/..…

三菱PLC定时中断应用编程(计数器+比较器)

三菱PLC如何开启定时中断可以查看下面文章链接: PLC定时中断程序应用注意事项(西门子三菱信捷)_plc设置断点之后会怎样_RXXW_Dor的博客-CSDN博客文章浏览阅读2.5k次,点赞5次,收藏6次。首先我们了解下什么是中断。中断(打断的意思),在PLC执行当前程序时,由于系统出现了…

Maxwell安装部署消费到kafka集群

1.上传安装包到linux系统上面 2.解压安装包到安装目录下,并且重命名 [rootVM-4-10-centos package]# tar -zxvf maxwell-1.29.2.tar.gz -C /opt/software/3.配置mysql 增加以下配置 #数据库id server-id 1 #启动binlog,该参数的值会作为binlog的文件…

【JavaEE】认识多线程

作者主页:paper jie_博客 本文作者:大家好,我是paper jie,感谢你阅读本文,欢迎一建三连哦。 本文录入于《vaEE》专栏,本专栏是针对于大学生,编程小白精心打造的。笔者用重金(时间和精力)打造&am…

葡萄采收时节分类,其中大有学问

葡萄在酿造葡萄酒的时候有一个关键的因素那就是葡萄的采收期,符合采收时节的葡萄大部分属于成熟好的葡萄,那么,云仓酒庄的品牌雷盛红酒分享这样的葡萄酿出来的酒自然优质。正是因为采收时分不同,根据采摘的不同,给不同…

Elasticsearch知识

目录 Elasticsearch逻辑设计和物理设计 逻辑设计物理设计Elasticsearch原理 倒排索引文档的分析过程保存文档搜索文档写数据的底层原理 数据刷新(fresh)事务日志的写入ES在大数据量下的性能优化 文件系统缓存优化数据预热文档(Document&…

Java计算两个时间的相差年,日,小时,分,秒

主函数 public static int dateDiff(char flag, Calendar calSrc, Calendar calDes) {long millisDiff getMillis(calSrc) - getMillis(calDes);if (flag y) {return (calSrc.get(Calendar.YEAR) - calDes.get(Calendar.YEAR));}if (flag d) {return (int) (millisDiff / D…

FANUC机器人到达某个点位时,为什么不显示@符号?

FANUC机器人到达某个点位时,为什么不显示@符号? 该功能由变量$MNDSP_POSCF = 0(不显示)/1(显示)/2(光标移动该行显示) 控制,该变量设置为不同的值,则启用对应的功能。 如下图所示,为该变量设置不同的值时的对比, 其他常用的系统变量可参考以下内容: 在R寄存器指定速度…

NX二次开发UF_CSYS_map_point 函数介绍

文章作者:里海 来源网站:https://blog.csdn.net/WangPaiFeiXingYuan UF_CSYS_map_point Defined in: uf_csys.h int UF_CSYS_map_point(int input_csys, double input_point [ 3 ] , int output_csys, double output_point [ 3 ] ) overview 概述 Ma…

小白一文搞懂正则表达式

大学的时候学过,没搞明白,工作的时候学了几次,还是懵逼的状态,写篇入门文字记录下如何快速搞懂正则表达式 首先写几个常用的正则表达式: 1.匹配手机号 1[34578]\d{9} 2.QQ号,第一位不能是0,5位…

如何用Python+Appium实现精准元素定位?教你拥有高效自动化测试技能!

在使用appium做app自动化测试的过程中,可能会遇到元素的属性值不是唯一的情况,导致不能通过find_element_bi_xx()方法定位元素,这个时候我们就可以通过坐标来定位元素。 1,通过绝对坐标定位(不推荐) 在手…

【数据分享】2023年我国省市县三级的瞪羚企业数量(免费获取/Excel/Shp格式)

企业是经济活动的参与主体。一个城市的企业数量决定了这个城市的经济发展水平!比如一个城市的金融企业较多,那这个城市的金融产业肯定比较发达;一个城市的制造业企业较多,那这个城市的制造业肯定比较发达。 之前我们给大家分享了…

【采坑分享】导出文件流responseType:“blob“如何提示报错信息

目录 前言: 采坑之路 总结: 前言: 近日,项目中踩了一个坑分享一下经验,也避免下次遇到方便解决。项目基于vue2axioselement-ui,业务中导出按钮需要直接下载接口中的文件流。正常是没有问题,但…

【分布式】分布式中的时钟

一、物理时钟 vs 逻辑时钟 时钟的存在主要是为了标识事件的发生顺序。 分布式系统不使用物理时钟记录事件,分布式系统中每个节点记录的时间并不一样,即使设置了 NTP 时间同步节点间也存在毫秒级别的偏差 所以需要有另外的方法记录事件顺序关系&#x…

Spring Web MVC

目录 一.简介 二.建立连接(客户端和服务器) 三.请求 1.传递单个参数 2.传递多个参数 3.对象 4.数组/集合 5.JSON 6.URL参数 7.上传文件 8.获取cookie和session (1)获取cookie (2)获取session …