AI生图美学在淘宝的实践应用

news2024/11/19 8:36:51

36cccf4fe4ae88f966ea10537eb32a0c.gif

本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。

58297cef8f97218c9d728d472d2d6508.png

美学的定义与分析

  1. 图像质量标准:现代设计框架下,定义的图像质量标准基本是统一的。侧重技能和技法的定义,也由此延伸出对图、画、照片、影像的质量评判,再此基础上对成图手段的特性会有所要求和侧重。

  2. 图像内容标准:意识形态下的表达好坏要求是广泛的,图像质量的标准会被打破,服务于内容表达的需要。业内通常由评论家或评委等权威人士进行定义和解读。

    8ee367fe7e4e032f9c909bf0b86b99bc.png

9f54a5f8456976359bbf0f61f1b37d16.png

美学项目的目标

  1. 第一步-制定美学标准:制定AI生图标准与AI风格标准,联合中国美院与教授一起共研。突出专业性、针对性、客观性、权威性。

  2. 第二步-训练美学模型:基于AI美学标准培育美学判定模型,使机器能自动判定打分。

  3. 第三步-应用美学模型:基于美学模型能力指导淘宝AI生图模型调优升级。

  4. 第四步-升级淘宝风格模型:基于风格标准建立淘宝风格模型库,使商家具备丰富多样的风格模型可供选择。打造淘宝特色风格模型。

    4501ad3ffdacf414e2ee1e09360f0fcd.png

aea38def737f436dcaa8ecdc1544f16f.png

第一步:制定美学标准

基于「图像」的构成要素进行准则框架的定义,同时侧重「AI生成的特性」构建美学的标准:

图像构成:物形/环境/构图/光影/质感

AI生成特性:元素真实性&场景合理性

AI美学标准:5项准则,19项标准

619bde6d881bd70fc5bd9ae3142fe296.png

b70162ba0d21711bd5c2c6336ed263cb.png

051f98cde22a25bbbc6df0bb8a9fa513.jpeg

第二步:训练美学模型

  1. 美学模型目标:机器对图片自动打分判定的准确率提升。

  2. 准确率:相同图片进行美学AI打分与人工打分,取人与机器分数的重叠率。

  沉浸式体验

a24874a0c7f9862b78b253f971580424.png

我们的AI美学评价模型采用多模态美学预训练与多任务微调学习方式。这样做的优点如下:

  1. 我们的模型参数较少,可快速训练迭代,推理速度快,可快速筛选高美学图像,也可测评不同生成模型的生成效果,减少人工标注与审核成本;

  2. 相比于只输出美学分的模型,我们模型可以输出生成图像异常属性,可解释性较高;

  3. 我们的模型输出的异常属性既可以作为生图修复的前置判别器,也可以为异常生成图像打标优化生成模型;

  训练过程

基于美学标准制定评分规范,建立5分制的评分规则,由设计师进行打标沉淀优质AI训练数据:

  1. 制定评分规则:用于AI生图的评分规范(5档),以及用于原图筛选的评分规则(3档)。

    42f7b6b8fe13e8ab283d991be62fbd20.jpeg

  2. 人模图原图美学评价能力:根据对人模、环境、构图、光影、质感等图像品质的偏好,训练专门的人模图原图美学模型,用于美学分层。可过滤的低美学类型包括图像模糊、白边图或贴图,人面部不完整或裁切,人体被遮挡多,背景差或者整体美感差等。

  3. AIGC生图美学评价能力:我们的AIGC生图美学评价主要针对于含有人物的生图,从关注画面合理性与关注画面融合度两大方面出发,基于5大准则、19项标准要求,制定评分规则,同时针对生图异常属性进行标注。目前我们的模型已支持的异常属性包括人与背景融合度异常(人物悬空、背景质感差等)、手部异常、面部异常、肢体异常、其他异常等,输出的美学分范围1到5分。

    6e2e0771d1b6060933a22728c73ba3f1.png

图:AIGC生图美学评价预测的不同美学分数的图片

合理训练:人与机器多轮匹配校验,保证数据优质。

  1. 1轮打分校验: 取3人平均分来累积数据,保障打分客观。有分差部分重新解读差异具体呈现的问题点。再进行校验重打。确保不同人对准则的解读能保持理解一致和稳定(5分制度)。

  2. 2轮AI打分校验:取3人平均分与机器进行校对,有分差部分重新解读差异具体呈现的问题点,明确是人的问题还是机器的问题,确保两者能逐步一致,保障机器理解的准确性。(有初版AI判定模型后开始进行)。

    bbea6a6165d476e1dc8130df61339dcc.png

技术框架

  1. AIGC生图美学评价:根据设计师定义的5分美学准则,映射到五大质量等级。同时,我们对生成数据进行归纳分析,总结出五大属性,正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词,作为多模态预训练模型的输入,损失函数采用美学分回归损失与属性原因多标签分类损失。

  2. 人模图原图美学评价:CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此,在预训练阶段,我们通过蒸馏CLIP的image encoder,提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权,来提高模型的性能和鲁棒性。模型训练完成后,通过选取不同的阈值,能分层出不同美感级别的人模图片。


  测试阶段 

基于测试情况,分析当前机器问题或者人的问题,可持续调优模型的准确率。在这个过程中不断进化调优。

  1. 调优通用性:在千牛平台上测试淘宝内部的【千牛智能模型】与淘宝外部第三方的模型。同类型的人模评测可兼容,但发现有较大的浮动。通过抓取具体图片问题时发现,上传的原图质量会对于准确率有影响。为保障公平需要制定测试图集的标准。

  2. 机器打分的真实性测试:准确率会每周产生一定的上下浮动,基于模型情况进行标准测试集的建设。运用1200张标准测试集进行AI与人工打分(考虑原图难易情况会对AI判断造成影响,测试集分为简单、中等、困难三个等级,占比1:1:1)。

  3. 机器打分的严谨性测试:调优后的打分模型,会对新全新生成的图片进行自动打分,并和人的打分进行比对。

    2eb172e87297f52736253846a71b1424.png

411acaab6c0b434abb6c336b3e379ecd.jpeg

第三步:应用美学模型

目标:运用美学模型,提升淘宝AI大模型的良图率。

d2605456b65c7e826f4f6f060bfe3269.png

  美学模型1.0版本-应用AI生图评测能力:
  1. 目标:通过美学模型评测淘宝生成模型,对图片评分与画面问题的判定,对判定的图片问题进行修复。

  2. 判定能力:可针对图片进行(1-5分)打分,筛选良图与差图,指导模型后续的优化建议。

  3. 识别能力:目前可反馈5个关键画面属性。(1. 手部异常。2. 人与背景不融合。3. 脸部异常。4. 身体异常。5. 其他)。

  4. 修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:

aadc9cab63345a656ea402feb11f88e2.png

59b9d1771a0aab191fafe095c7feeed4.png

  美学模型2.0版本-应用原图评测能力
  1. 目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。

  2. 背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
    视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。

    da710b8e20f8f480c81e5039dbcaea1d.png

  3. 筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
    收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。

  4. 1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。

afb4d5d4e709558e51639d0bf984e3c8.jpeg

第四步:升级淘宝风格模型

目标:打造淘宝特色风格模型。

风格标准的归纳:风格框架已经设定完成,内容量较大,将联动校企合作研究生,根据我们的要求逐步填充风格内容。

  风格的背景情况
  1. 目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。

  2. 因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。

  3. 因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。

  风格的框架设定
  1. 对应美学标准的五大原则。进行细分的穷举,作为组合因子。

  2. 风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。

  3. 基于风格趋向进行因子组合。形成风格的多元组合。

d34acdcd4ad8d4f27c6df48985b4df1c.png

  风格标准的运用

基于前台AI产品进行风格应用。通过用户使用数据反馈,进行风格的排序与汰换。逐步累积商家需要的风格。

b60c891015b7c61cb214fa35b161d04d.png

  后续计划
  1. 美学标准:发布淘宝AI美学标准,联动中国美术学院完成。

  2. 风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。

  3. 产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1610201.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

类和对象【二】this指针,构造函数和成员初始化列表【超详细】

文章目录 this指针this指针的定义this指针的“工作”原理this指针的作用this指针的特点 构造函数构造函数的定义构造函数的作用构造函数的特点构造函数的调用方式括号法无参构造或者全缺省构造需要传参才能调用的构造函数 隐式类型转换法是只传一个参数就能调用的构造函数是要传…

HCIE-Shell实验1

要求: 判断当前磁盘剩余空间是否有20G,如果小于20G,则将报警邮件发送给管理员,每天检查一次磁盘剩余空间。判断web服务是否运行(1、査看进程的方式判断该程序是否运行,2、通过查看端口的方式判断该程序是否运行)&…

大模型应用开发基础

AGI 时代,AI 无处不在,形成新的社会分层: AI 使用者,使用别人开发的 AI 产品AI 产品开发者,设计和开发 AI 产品基础模型相关,训练基础大模型,或为大模型提供基础设施 越向下层,重要…

Leetcode-168.Excel表列名称

题目描述 给你一个整数 columnNumber ,返回它在 Excel 表中相对应的列名称。 例如: A -> 1 B -> 2 C -> 3 ... Z -> 26 AA -> 27 AB -> 28 ...示例 1: 输入:columnNumber 1 输出:"A"…

ROS2学习笔记(一) 基本概念

1. Node 节点 节点: 完成具体功能的模块 相关命令 #运行命令 ros2 run <package_name> <executable_name>#当前节点查询查询 ros2 node list#重映射 Remapping ros2 run <package_name> <executable_name> --ros-args --remap __node:<node_na…

揭开ChatGPT面纱(一):准备工作(搭建开发环境运行OpenAI Demo)

文章目录 序言&#xff1a;探索人工智能的新篇章一、搭建开发环境二、编写并运行demo1.代码2.解析3.执行结果 本博客的gitlab仓库&#xff1a;地址&#xff0c;本博客对应01文件夹。 序言&#xff1a;探索人工智能的新篇章 随着人工智能技术的飞速发展&#xff0c;ChatGPT作为…

虚拟ip地址怎么弄到手机上

在当下的社会&#xff0c;手机已经变得至关重要&#xff0c;它融入了我们的日常生活&#xff0c;无论是上网冲浪、社交互动&#xff0c;还是工作学习&#xff0c;都离不开它。但有时候&#xff0c;由于某些限制&#xff0c;我们可能无法充分享受网络带来的便利。这时&#xff0…

《苍穹外卖》Day02部分知识点记录

一、属性的拷贝以及密码的加密 使用org.springframework.beans中的BeanUtils.copyProperties()方法时&#xff0c;二者的属性名必须要一致。 /*** 新增员工* param employeeDTO*/Overridepublic void save(EmployeeDTO employeeDTO) {Employee employee new Employee();// 对…

spring webflux 小结

一、WebFlux 简介 WebFlux 是 Spring Framework5.0 中引入的一种新的反应式Web框架。通过Reactor项目实现Reactive Streams规范&#xff0c;完全异步和非阻塞框架。本身不会加快程序执行速度&#xff0c;但在高并发情况下借助异步IO能够以少量而稳定的线程处理更高的吞吐&…

COIN++: Neural Compression Across Modalities 论文阅读笔记

1. 论文基本信息 发布于&#xff1a; TMLR 2022 2. 创新点 使用元学习将编码时间减少了两个数量级以上&#xff0c;将编码共享结构进行编码&#xff0c;并对该网络应用调制来编码实例特定信息。量化和熵编码调制。虽然我们的方法在压缩和速度方面都大大超过了 COIN&#xff0…

Navicat导入sql文件图文教程

本文使用的MySQL工具为:Navicat.默认已经连接数据库!! 步骤: 1.右键自己的数据库,选择新建数据库. 2.输入数据库名称&#xff0c;字符集选择“utf8”&#xff0c;排序规则选择“ utf8_general_ci”,确定. 3.双击新建好的“数据库”。右键点击“运行SQL文件”。 4.选择本地的s…

Linux上的uname

2024年4月19日&#xff0c;周五上午 这是我第一篇用CSDN上的markdown编辑器写的博客&#xff0c;感觉还不错 uname 是一个常用的命令行工具&#xff0c;uname 的全称是 “Unix Name”&#xff0c;它是一个 Unix 和类 Unix 操作系统上的命令行工具&#xff0c;用于获取操作系统相…

同旺科技 USB TO SPI / I2C适配器读写24LC256--页写

所需设备&#xff1a; 1、USB 转 SPI I2C 适配器&#xff1b;内附链接 2、24LC256芯片 适应于同旺科技 USB TO SPI / I2C适配器升级版、专业版&#xff1b; 从00地址开始写入64个字节&#xff0c;然后再将64个字节读回&#xff1b; 页写时序&#xff1a; 读时序&#xff1a…

【不看后悔】AGI时代,这些工具真的能让你收入翻倍!

引言 在数字化浪潮中&#xff0c;AIGC已经成为不可或缺的一部分 无论你是一名内容创作者&#xff0c;还是简单的社交媒体用户&#xff0c;免费的AI工具都能在多个层面助你一臂之力。这些工具涵盖从文本创作到图像设计&#xff0c;再到视频制作等多个方面&#xff0c;不仅可以…

Python全栈开发前端与后端的完美融合

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 在当今互联网时代&#xff0c;全栈开发已经成为了一种趋势。全栈开发者具备前端和后端开发的…

基于java+springboot+vue实现的校园一卡通系统(文末源码+Lw+ppt)23-26

摘 要 近些年来&#xff0c;随着科技的飞速发展&#xff0c;互联网的普及逐渐延伸到各行各业中&#xff0c;给人们生活带来了十分的便利&#xff0c;校园一卡通利用计算机网络实现信息化管理&#xff0c;使整个校园一卡通管理的发展和服务水平有显著提升。 本文拟采用java技…

圣地亚哥 Toler 小学利用School AI帮助每个学生都有自己的聊天机器人,提高学习兴趣和效率

圣地亚哥 Toler 小学利用 AI 程序 SchoolAI 平台为学生创建个性化的聊天机器人&#xff0c;帮助他们更好地学习和提问。这个 AI 程序让学生可以在几秒钟内得到问题的答案&#xff0c;激发了他们提出更多问题的好奇心。 管理、调节和指导学生如何通过任务控制使用人工智能。 当…

Python性能优化技巧

Python作为一种高级编程语言&#xff0c;凭借其简洁易读、开发效率高的特点&#xff0c;受到了广大开发者的喜爱。然而&#xff0c;在追求开发效率的同时&#xff0c;我们也不能忽视Python代码的性能问题。在大数据处理、机器学习等场景下&#xff0c;Python代码的性能往往成为…

SQLite数据库中JSON 函数和运算符(二十七)

返回&#xff1a;SQLite—系列文章目录 上一篇:维护SQLite的私有分支&#xff08;二十六&#xff09; 下一篇&#xff1a;SQLite—系列文章目录 ​1. 概述 默认情况下&#xff0c;SQLite 支持 29 个函数和 2 个运算符 处理 JSON 值。还有两个表值函数可用于分解 JSON 字…

Golang | Leetcode Golang题解之第37题解数独

题目&#xff1a; 题解&#xff1a; func solveSudoku(board [][]byte) {var line, column [9][9]boolvar block [3][3][9]boolvar spaces [][2]intfor i, row : range board {for j, b : range row {if b . {spaces append(spaces, [2]int{i, j})} else {digit : b - 1line…