成立 15 年的美图分享,AI 视觉大模型的核心能力是什么?

news2025/2/23 22:35:38

出品 | CSDN 云计算

国民级美颜修图软件美图秀秀,从移动互联网时代火到现在,而它背后的美图公司也走过了十五年的发展,旗下拥有众多的专业影像与设计产品。最近,美图公司举办 15 周年生日会,生日会上美图还发布了自研 AI 视觉大模型 MiracleVision(奇想智能)的 3.0 版本,以及 3.0 版本的最新进展与对视觉大模型的深刻洞察。

AI 视觉大模型的成熟,还有多久?

今年初 AIGC 爆火,语言与视觉大模型纷纷涌现。视觉大模型对生产与交付效率的提升,已经成为包括设计在内的全行业共识。不过所有精美的 AI 图片背后,生成图片视频的效果、模型的可控性,以及部署和运行使用大模型的成本,可能并不像业界想象中的那么轻松简单。

美图公司创始人、董事长兼首席执行官吴欣鸿分享了目前 AI 视觉大模型在生产端的三个待解决的问题是:垂直领域的极致效果、工作流整合、变现能力。想要实现垂直领域极致的效果,需要高质量的行业数据,以及对模型进行领域内的进一步定向训练。而将大模型整合进工作流,需要大模型可以支持高精度调节,以及上下游协同。当然,模型的变现更需要对商业场景的摸索和理解,以及如何去提升极致效果之后的商业转化率。吴欣鸿提到,随着 AI 视觉大模型和生产端的磨合,这三个问题都将被逐步解决。

美图与吴欣鸿还分享了另一个观察,任务视觉大模型应用普及将经历三个阶段。现在 2023 年为探索期,因此大模型生成的作品效果可能平均只有及格水准,而且仅能单任务运行。2024-2025 年为高速发展期,AI 视觉的作品效果将提升,工作流升级,应用场景也更加明确。2026-2030 年或将是 AI 视觉大模型的成熟期,普及率可能达到 80%。随着视觉大模型在生产端的应用走向成熟,视觉大模型将助力千万设计场景,引领美学的升级与社会经济增长。

美图自研 AI 视觉大模型 MiracleVision 3.0 已经可以做什么

从移动开发时代就深耕影像视觉技术的美图在今年 6 月推出了自研的视觉大模型 MiracleVision。在十五周年生日会上,美图推出了 MiracleVision 的 3.0 版本,MiracleVision 3.0 将全面应用于美图旗下影像与设计产品,并将助力电商、广告、游戏、动漫、影视五大行业。

美图公司将自研 AI 视觉大模型 MiracleVision(奇想智能)的核心能力拆解为“奇思妙想”和“智能创作”两大特性。在“奇思妙想”层面,MiracleVision 通过“提示词智能联想”功能降低大众的使用门槛,当用户输入关键词,MiracleVision 可自动补充相关表述,如光影效果、质感、风格、图片质量等,推动创作平权。此外,MiracleVision 通过“提示词精准控制”功能来满足更加专业的设计要求,如使用“近景”、“远景”、“顺光”、“逆光”等描述控制最终生成效果。在“智能创作”层面,MiracleVision 通过“深化创作”功能,可以进一步丰富作品细节和提升表现力。通过“AI 画面扩展”功能让作品尺寸更大、细节更丰富。通过“局部修改”功能,对部分画面进行精准修改与调整。通过“分辨率提升”功能生成高清大图,让细节表现、色彩展示、物体辨识更加的精准和生动。

三个月迭代到 3.0 版本,已经是非常快的速度。美图公司技术副总裁、美图影像研究院(MT Lab)负责人刘洛麒在采访时表示,在 1.0 阶段,团队搭建了 MiracleVision 大模型的架构与基础平台,2.0 阶段则开始体现美图视觉大模型的独特优势,那就是美学的倾向性与评估体系,美图团队与外部设计师、艺术院校共同构建了高质量的数据集。现在的 3.0 阶段,大模型将更强调模型的可控性,让用户不论是在细节控制还是局部编辑,所需的作品质量与效果,都能在 MiracleVision 大模型技术层面实现。

具体的行业与场景方面,在电商行业,从涂鸦生成线稿、线稿上色、商品图、模特试穿图,再到电商物料输出,全程可通过 MiracleVision 实现。在广告行业,MiracleVision 覆盖创意脑暴、创意深化、平面排版、多尺寸延展、线下投放预览的全工作流,助力客户在广告物料制作环节提效。在游戏行业,MiracleVision 可以包揽场景设计、角色设计、道具设计、UI 图标、宣发物料等流程,拓宽设计师想象空间的同时助力游戏行业降本。在动漫行业,MiracleVision 打通了概念设计、故事板生成、线稿上色、动漫补帧、视频转动漫等流程,支持创意到物料成品的快速落地。在影视行业,MiracleVision 的高可控性可充分满足概念场景设计、分镜设计、人物造型、道具设计、宣发物料的效果要求,极大提升影视行业设计环节的效率。

除了重磅的 MiracleVision 3.0,在生日会上,美图公司也公布了 6 月 19 日发布的影像生产力工具最新数据:AI 视觉创作工具“WHEE”的优质 AI 效果生成数已超过 550 万张,打造的设计师生态也初见成效;AI 口播视频工具“开拍”月活跃用户数已突破 35 万;桌面端 AI 视频编辑工具“WinkStudio”已累计服务近 10 万名视频创作者;主打 AI 商业设计的“美图设计室”正助力近百万中小电商卖家降本增效;美图 AI 助手“RoboNeo”每天帮助近万名用户自动修图,比传统修图效率提升 35%;AI 数字人生成工具“DreamAvatar”于 8 月底上线并主打“AI 演员”数字人服务。

我们能看到,从机器学习到大模型,美图在视觉 AI 技术上的探索已经初见成效。美图对于 AI 视觉大模型的技术与产品的思考、分享,也推荐对 AI 视觉技术感兴趣的开发者重点关注。CSDN 将持续报道大模型的最近技术趋势与实践。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1088234.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

深度学习基础知识数据 数据预处理transforms流程讲解

深度学习基础知识数据 数据预处理transforms流程讲解 1、数据预处理2、使用节点2、transform.RandomResizedCrop 随机尺寸裁剪缩放3、水平翻转 与 垂直翻转4、ColorJitter变换5、ToTensor6、Normalization 归一化7、transforms.Compose8、重写transforms1、分类任务2、目标检测…

“Jwt认证在前后端分离架构中的应用与优化“

目录 引言1. JWT的简介1.1 什么是JWT1.2 JWT的优势 2. JWT工具类2.1 JWT生成与解析2.2 JWT与安全性 3. JWT案例演示后台改动前台改动 总结 引言 在当今互联网应用开发中,前后端分离架构已经成为一种主流的开发模式。而身份验证和授权是保证系统安全性的重要环节之一…

Unity 快捷键的一些记录

1.Unity Prefab Apply All 设置快捷键,修改预设体之后快捷键应用 打包会出问题:The type or namespace name ‘EditorWindow‘ could not be found EditorWindow类无法打包出EXE 添加unity关键字定义如下文所示: #if UNITY_EDITOR using Uni…

「五度情报站」网罗全量企业情报,找客户、查竞品、寻商机!

在当下严峻的市场经济环境下,准确、及时的情报信息,就如同指引企业前行的明灯,能够让企业在风起云涌的市场大潮中保持敏锐的洞察力,掌握最新的市场动态,洞悉竞争对手的一举一动,先知先动,保持竞…

多域名SSL数字证书是什么呢

多域名SSL数字证书是众多SSL数字证书中最灵活的一款SSL证书产品。一般一张SSL证书只能保护一个域名,即使能保护多个域名站点,证书保护的域名类型也有限制(通配符SSL数字证书)。多域名SSL数字证书既能用一张SSL证书保护多个域名网站,又不限制域…

时序数据库InfluxDB了解

参考:https://blog.csdn.net/u014265785/article/details/126951221

【分享】如何让压缩包里的文件“限制编辑”?

在压缩文件的时候,有时候希望压缩包里的文件,只可以查看,不能修改,那要怎么实现呢?这里有两种方法可以试试,来看看具体怎么用吧! 方法1: 在压缩文件之前,给需要压缩的文…

蓝桥杯每日一题2023.10.13

组队 - 蓝桥云课 (lanqiao.cn) 题目描述 方法一:由肉眼观察找到在一至五号位的不同编号成员的最大的值 #include<bits/stdc.h> using namespace std; int main() {cout << 98 99 98 97 98;return 0; } 方法二&#xff1a;由dfs一一找寻 #include<bits/st…

保护您的Shopify站点免受封禁和关联

Shopify是一种流行的电商平台&#xff0c;但要确保您的Shopify站点不被封禁和关联&#xff0c;需要采取一些预防措施。本文将介绍一些方法&#xff0c;帮助您保护和维护您的Shopify站点的稳定性和安全性。 一、避免被封禁的方法 遵守平台政策&#xff1a;Shopify有一系列规定和…

python可视化分析之印度中国人口分析

前言 印度和中国是世界上人口最多的两个国家&#xff0c;它们的人口变化对全球经济、社会和环境都有重要影响。根据联合国《2022 年世界人口展望》报告&#xff0c;印度人口将在今年4月中旬超过中国&#xff0c;增至14.1亿&#xff0c;成为全球人口第一大国。到2023年底&#…

drone如何发布docker服务

上篇主要实现了drone在物理机上进行发布程序&#xff0c;这次介绍drone如何发布docker类型的服务。 一 drone.yml文件配置 前提&#xff1a;需要提前在drone里添加文件里面所引用的密钥 kind: pipeline # 定义对象类型&#xff0c;还有secret和signature两种类型 type: dock…

联盟链学习笔记-网络的创建

联盟链学习笔记 初始网络 下图是初始网络网络N的参考图 排序服务 在定义 网络 N 的时候&#xff0c;第一件事情就是定义一个 排序服务O4。O4 最初被配置并且由组织 R4 的一个管理员来启动&#xff0c;并且由 R4 管理。配置 NC4 包含了描述网络管理能力初始集合的规则。最初…

计算机专业学生实习的一条明路

当计算机专业的学生毕业后学习嵌入式开发优势也会非常的明显。计算机专业提供了坚实的编程基础、数据结构和算法知识&#xff0c;这些都是嵌入式开发所需要的基本技能。视频后方有免费的嵌入式学习资料&#xff0c;按需自取。此外&#xff0c;对操作系统和系统编程的了解也为嵌…

大语言模型之十七-QA-LoRA

由于基座模型通常需要海量的数据和算力内存&#xff0c;这一巨大的成本往往只有巨头公司会投入&#xff0c;所以一些优秀的大语言模型要么是大公司开源的&#xff0c;要么是背后有大公司身影公司开源的&#xff0c;如何从优秀的开源基座模型针对特定场景fine-tune模型具有广大的…

python 如何获取url的名称

一、使用os模块 os模块是Python内置的一个操作系统接口模块&#xff0c;提供了许多与操作系统相关的函数和变量。其中&#xff0c;os.path模块用于处理路径相关的操作&#xff0c;包括文件名、目录名等。 os.path.basename()函数可以用来获取路径中的文件名部分 imp…

【考研数学】概率论与数理统计 —— 第四章 | 随机变量的数字特征

文章目录 一、随机变量的数学期望1.1 概念1. 一维离散型随机变量的数学期望2. 一维连续型随机变量的数学期望3. 二维离散型随机变量的数学期望4. 二维连续型随机变量的数学期望 1.2 数学期望的性质 二、随机变量的方差2.1 概念2.2 计算公式2.3 方差的性质2.4 常见随机变量的数学…

自己动手写PBR

下面的shader参照博客修改而成:改动的地方用此颜色表示 代码参照: unity build-in管线中的PBR材质Shader分析研究_郭大钦的博客-CSDN博客_shader 支持pbr材质以及cubemap unity build-in管线中的PBR材质Shader分析研究_bulit-in pbr-CSDN博客 最终效果如下:左边是手写的,右…

多个扇形元素绕圆旋转

效果图 这种效果有很多方案&#xff0c;最后选择了一个比较简单的方案&#xff0c;就是一个position: relative;的 div 。包裹5个position: absolute;的div。 通过旋转&#xff0c;调整5个div的 top 与 left&#xff0c;而产生弧度&#xff0c;并使中心点都指向圆心。 黄色扇形…

实施运维03(在虚拟机上安装winServer2008系统)

新建虚拟机&#xff08;一直下一步&#xff09; 新建成功后选择镜像&#xff08;右键设置&#xff0c;选择CD/DVD,选择使用IOS镜像文件&#xff0c;浏览选择2008镜像打开&#xff09; 安装2008版本系统&#xff08;一直下一步&#xff09; 修改密码---设置密码 与电脑远程连…

简易LDO设计(包含原理图、PCB和实验)

一、前置知识 ①该电路是通过三极管&#xff08;BJT&#xff09;来实现的&#xff0c;所以需要知晓三极管的工作原理和特性。 ②三极管有三种状态&#xff1a;放大、饱和、截止。本文是利用三极管的放大状态来模拟LDO芯片的功能。 二、原理图 ①稳压二极管要想稳定到某个电压范…