生成模型的三个挑战:成功部署或吓跑用户?

news2025/1/12 1:09:04

一、说明

        目前在文本和图像领域中,统治江湖的有六大门派,他们是:OpenAI,Google,Microsoft,Midjounery,StabilityAI,CharecterAI. 每个人都在竞相为文本到文本,文本到图像,图像到图像和图像到文本模型带来最佳解决方案。然而,如何扎根于客户,那将是另一个棘手问题。

OpenAI,Google,Microsoft,Midjourney,StabilityAI,CharacterAI

        原因很简单——空间提供了广阔的机会;毕竟,解锁的不仅是娱乐,还有实用性。从更好的搜索引擎到更令人印象深刻和个性化的广告活动和聊天机器人,如 Snap 的 MyAI。

        虽然这个空间非常不稳定,每隔几天就会发布许多活动部件和模型检查点,但每个使用生成式人工智能的公司都在寻求解决挑战。

        在这里,我将讨论在生产中部署生成模型时的主要挑战以及如何解决这些挑战。虽然有许多不同类型的生成模型,但在本文中,我将重点介绍扩散和基于 GPT 的模型的最新进展。但是,此处讨论的许多主题也适用于其他模型。

二、什么是生成式 AI?

        生成式 AI 广泛描述了一组可以生成新内容的模型。广为人知的生成对抗网络通过学习真实数据的分布并从增加的噪声中产生可变性来实现这一点。

        最近生成式人工智能的繁荣来自大规模达到人类水平质量的模型。解锁这种转变的原因很简单——我们现在才有足够的计算能力(因此 NVIDIA 股价暴涨)来训练和维护具有足够容量的模型,以实现高质量的结果。当前的进步是由两个基本架构推动的——变压器和扩散模型。

        也许最近一年最重要的突破是OpenAI的ChatGPT——一个基于文本的生成模型,最新的ChatGPT-175.3版本之一有5亿个,它有一个足够的知识库来维持各种主题的对话。虽然 ChatGPT 是一个单一模态模型,因为它只能支持文本,但多模态模型可以将多种输入作为输入和输出,例如文本和图像。

        图像到文本和文本到图像的多模式架构在文本和图像概念共享的潜在空间中运行。潜在空间是通过对需要两个概念(例如,图像标题)的任务进行训练而获得的,方法是惩罚两种不同模态中同一概念之间潜在空间中的距离。一旦获得这个潜在空间,就可以将其重新用于其他任务。

图像到文本模型的示例。图片由作者提供。

        今年发布的值得注意的生成模型是DALLE / Stable-Diffusion(文本到图像/图像到图像)和BLIP(图像到文本实现)。DALLE模型将提示或图像作为输入,提示生成图像作为响应,而基于BLIP的模型可以回答有关图片内容的问题。

三、挑战与解决方案

        不幸的是,在机器学习方面没有免费的午餐,大规模生成模型在生产中部署时偶然发现了一些挑战——大小和延迟、偏见和公平性,以及生成结果的质量。

3.1 挑战1:模型大小和延迟

模型大小趋势。数据来自P. Villalobos。 

        最先进的GenAI模型是巨大的。例如,文本到文本 Meta 的 LLaMA 模型范围在 7 到 65 亿个参数之间,而 ChatGPT-3.5 是 175B 参数。这些数字是合理的——在简化的世界中,经验法则是模型越大,用于训练的数据越多,质量就越好。

        文本到图像模型虽然较小,但仍然比它们的生成对抗网络前辈大得多——稳定扩散 1.5 检查点略低于 1B 参数(占用超过 2GB 的空间),而 DALLE 0.3 具有 5.<>B 参数。很少有 GPU 有足够的内存来维护这些模型,通常您需要一个队列来维护单个大型模型,这可能很快就会变得非常昂贵,更不用说在移动设备上部署这些模型了。

        生成模型需要时间来生成输出。对于某些人来说,延迟是由于它们的大小——即使在一组 GPU 上,通过数十亿个参数传播信号也需要时间,而对于其他人来说,这是由于产生高质量结果的迭代性质。扩散模型在其默认配置中需要 50 个步骤来生成图像,步骤数越少会降低输出图像的质量。

        解决 方案: 使模型变小通常有助于使其更快 - 提炼,压缩和量化模型也可以减少延迟。高通公司通过压缩稳定的扩散模型来铺平道路,足以部署在移动设备上。最近发布了更小,蒸馏和更快的稳定扩散版本(微小和小型)。

特定于模型的优化也有助于加快推理速度——对于扩散模型;一个人可能会生成低分辨率输出,然后对其进行放大,或者使用较少的步骤和不同的调度程序,因为有些步骤在步骤数较少的情况下效果最好,而另一些则为更多的迭代生成卓越的质量。例如,Snap 最近表明,八个步骤足以在训练时采用各种优化,使用 Stable Diffusion 1.5 创建高质量的结果。

3.2 挑战2:偏见、公平和安全

        你有没有尝试过打破ChatGPT?许多人已经成功地发现了偏见和公平问题,而OpenAI在解决这些问题方面做得很好。如果没有大规模的修复,聊天机器人可以通过传播有害和不安全的想法和行为来制造现实世界的问题。

        人们设法打破模式的例子,是在政治中;例如,ChatGPT拒绝创作关于特朗普的诗歌,但会创作一首关于拜登、性别平等和就业的诗歌——这意味着有些职业是男性的,有些是女性和种族的。

        与文本到文本模型一样,文本到图像和图像到文本模型也包含偏见和公平性问题。当要求生成医生和护士的图像时,稳定扩散2.1模型为前者生成白人男性,为后者生成白人女性。有趣的是,这种偏见取决于提示中指定的国家 - 例如,日本医生或巴西护士。

要求稳定扩散模型生成医生图像和护士图像。由作者使用 SD 2.1 界面生成的图像。

        玩弄 BLIP 图像到文本模型并输入超重者和男性和女性医生的图像,我得到了判断和偏见的图像描述——“一个胖子”、“一个男医生”、“一个穿着实验室外套拿着听诊器的女人”。

作者使用稳定扩散 2.1 生成的图像和从左到右使用 BLIP 模型生成的标题 [1] 一个胖子吃冰淇淋甜筒;[2] 一名身穿白大褂和领带的男医生;[3] 一个穿着白色实验室外套的女人,脖子上戴着听诊器。图像由作者使用 SD 2.1 接口生成,并通过 BLIP 传递。

        如何测试问题: 这是一个相当难以诊断的问题——在许多情况下,您需要知道要寻找什么。拥有一个单独的基准数据集,其中包含各种各样的提示,其中可能会或可能不会出错,我们将检测到的每个答案的模板响应和危险信号,以及来自不同背景和多个场景的人的数据集存储有关图片中人的所有可能属性会有所帮助。这些数据集需要有数十万个条目才能获得可靠的统计数据。

        溶液:几乎所有的偏见、公平性和安全问题都来自训练数据。我喜欢这样的类比,即人工智能模型是人类的一面镜子,加剧了我们所有的偏见。对干净、公正的数据进行训练将极大地改善结果。然而,即使有这些,模型也会犯错误。

        结果后处理和过滤是另一种可能的解决方案;例如,在包含裸体图像的数据上训练的稳定扩散具有NSFW内容检测器来捕获潜在问题。类似的筛选器可以应用于文本到文本模型的输出。

3.3 挑战3:输出质量、相关性和正确性

        生成模型在解释用户请求方面可以非常有创意,虽然最近的大型模型达到了人类水平的质量,但对于每个用例,它们不会开箱即用,需要额外的调整和及时的工程。

        在早期非常有限的图像到文本和文本到文本模型中评估质量相对简单 - 毕竟,对胡言乱语的改进是显而易见的。高质量的生成模型开始表现出更难检测的行为;例如,文本到文本模型可能会变得回避,自信地吐出不正确和过时的信息。

        扩散模型在其他方面表现出输出缺陷。基于图像的模型的典型问题是几何形状损坏、解剖结构突变、提示与图像结果不匹配、图像传输情况下的肤色和性别不匹配。美学和现实主义的自动评估滞后,典型的指标(如 FID)无法捕获这些变化。

从左到右:[1]两个人拥抱;[2] 一个竖起大拇指的男人;[3] 一只狗在公园里奔跑。作者生成的稳定扩散 1.5 中的图像

        如何测试问题:测试生成模型的质量具有挑战性;毕竟,这些模型没有基本事实——它们是为了提供新颖的输出而制作的。因此,到目前为止,没有任何指标能够可靠地捕获质量方面。最可靠的指标是人工评估。

        就像在偏见和公平性评估中一样,最好的方法是拥有一个大型的提示和图像数据集来测试质量。随着文本到文本模型变得更加个性化并针对每个用户进行调整,除了对话的连贯性、正确性和相关性之外,我们还希望评估他们记住对话信息的能力。

        溶液: 许多质量问题可以归因于模型的训练数据和大小;它们可能有点太小了,无法实现另一个质量飞跃(想想 GPT-3.5 与 GPT-4)——当前的潜在空间是一种抽象,并不是为了存储精确的信息而设计的。 许多问题可以通过更好的提示工程来解决 - 文本到文本和文本到图像的提示增强以及文本到图像模型的负面提示。

        文本到图像和图像到图像模型可以有额外的工具来提高质量 - 图像增强,无论是通过传统的深度学习方法还是基于扩散的精简程序。像ControlNet这样的附加模块以及与扩散架构正交的模块可以帮助对生成的结果进行额外的控制。用于微调特定应用程序的模型的Dreambooth技术也将有助于在结果中获得优势。使用其他参数(如调度程序、CFG 和扩散步骤的数量)会极大地影响质量。

四、总结

        生成模型开辟了新的应用范围,既有有趣的,如人工智能镜头,也有商业的,如更好的搜索引擎、副驾驶和广告。与此同时,公司急于推出产品,消费者对新功能的兴奋有时会使技术中的明显流动被忽视。

        虽然人们普遍推动通过发布大规模开源数据集、训练代码和评估结果来提高模型基准测试的透明度,但也有人推动对大规模人工智能模型进行更严格的监管。在一个理想的世界里,两者都不会走向极端,并且会互相帮助,使人工智能更安全、更有趣。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/877835.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

万物识别RAM:图像识别模型,Zero-Shot超越有监督

文章目录 RAM的优势RAM的创新点总结与展望参考文献大语言模型(Large Language Models)已经给自然语言处理(NLP)领域带来了新的革命。在计算机视觉(CV)领域,Facebook近期推出的Segment Anything Model(SAM)工作,在视觉定位(Localization)任务上取得了令人振奋的结果…

怎么对视频进行压缩?

怎么对视频进行压缩&#xff1f;视频压缩&#xff0c;我们都知道是将视频文件进行压缩变小的过程&#xff0c;是我们日常办公中较为常用的手段。现如今&#xff0c;在视频技术不断发展与创新的基础上&#xff0c;视频分辨率也在不断提高&#xff0c;进而导致文件占有量也非常大…

vue-cli前端工程化——创建vue-cli工程 router版本的创建 目录结构 案例初步

目录 引出创建vue-cli前端工程vue-cli是什么自动构建创建vue-cli项目选择Vue的版本号 手动安装进行选择创建成功 手动创建router版多了一个router 运行测试bug解决 Vue项目结构main.jspackage.jsonvue.config.js Vue项目初步hello案例 总结 引出 1.vue-cli是啥&#xff0c;创建…

Docker中部署Nginx

1.Nginx部署需求 2.操作教程 3.实际步骤 把配置粘过来。

什么是伪类选择器?

聚沙成塔每天进步一点点 ⭐ 专栏简介⭐ 伪类选择器⭐ 一些常见的伪类选择器示例&#xff1a;:hover:active:focus:nth-child(n):first-child 和 :last-child ⭐ 写在最后 ⭐ 专栏简介 前端入门之旅&#xff1a;探索Web开发的奇妙世界 记得点击上方或者右侧链接订阅本专栏哦 几何…

深入了解 Rancher Desktop 设置

Rancher Desktop 设置的全面概述 Rancher Desktop 拥有方便、强大的功能&#xff0c;是最佳的开发者工具之一&#xff0c;也是在本地构建和部署 Kubernetes 的最快捷方式。 本文将介绍 Rancher Desktop 的功能和特性&#xff0c;以及 Rancher Desktop 作为容器管理平台和本地…

HTML5+CSS3查缺补漏

浏览器的渲染过程 JS加载执行 普通js/sync&#xff1a;阻塞 DOM加载解析 async&#xff1a;下载完就执行&#xff0c;无依赖 <script type"text/javascript" src"x.min.js" async"async"></script> defer&#xff1a;渲染完再执行…

【从零学习python 】19. 循环遍历列表和列表嵌套的应用

文章目录 列表的循环遍历1. 使用while循环2. 使用for循环3. 交换2个变量的值1. 列表嵌套2. 应用 进阶案例 列表的循环遍历 1. 使用while循环 为了更有效率的输出列表的每个数据&#xff0c;可以使用循环来完成 namesList [xiaoWang,xiaoZhang,xiaoHua] length len(namesLi…

【奶奶看了都会】2分钟学会制作最近特火的ikun幻术图

1.效果展示 最近ikun幻术图特别火啊&#xff0c;在网上能找到各种各样的ikun姿势图片&#xff0c;这些图片都是AI绘制的&#xff0c;能和风景完美融合在一起&#xff0c;今天小卷就来教大家怎么做这种图片 先看看图片效果 视频链接&#xff1a; 仿佛见到一位故人&#xff0c;…

安装 MySQL phpMyAdmin cpolar实现远程访问连接

文章目录 1. 安装Mysql2. 安装phpMyAdmin3. 修改User 表4. 本地测试连接5. 安装cpolar6. 配置公网访问地址7. 固定连接公网地址 群晖安装MySQL具有高效、安全、可靠、灵活等优势&#xff0c;可以为用户提供一个优秀的数据管理和分析环境。同时具有良好的硬件性能和稳定性&#…

牛客网华为OD前端岗位,面试题库练习记录01

题目一 质数因子 功能:输入一个正整数&#xff0c;按照从小到大的顺序输出它的所有质因子&#xff08;重复的也要列举&#xff09;&#xff08;如180的质因子为2 2 3 3 5 &#xff09; JavaScript Node ACM模式 const rl require("readline").createInterface({ i…

【需求输出】用户故事方法

文章目录 1、初识用户故事2、用户故事是描述需求的最好方式3、创建用户故事4、用户故事的分层管理5、编写用户故事的工具 1、初识用户故事 2、用户故事是描述需求的最好方式 3、创建用户故事 4、用户故事的分层管理 5、编写用户故事的工具

0101xss入门及pikachu靶场-xss-web安全-网络安全

文章目录 0 概述1 环境准备2 反射型xss2.1 概述2.1 靶场-反射型xss&#xff08;get&#xff09; 3 存储型xss3.1 概述3.2 靶场-存储型xss 4 DOM型xss4.1 概述4.2 靶场-DOM型xss 5 问题总结6.1 再次启动pikachu容器报错 结语 0 概述 学习路线&#xff0c;如如下图所示&#xff…

基于架构的软件开发方法

基于架构的软件开发方法 基于架构的软件开发方法是由架构驱动的&#xff0c;即指由构成体系结构的商业、质量和功能需求的组合驱动的。使用ABSD 方法&#xff0c;设计活动可以从项目总体功能框架明确就开始&#xff0c;这意味着需求抽取和分析还没有完成(甚至远远没有完成)&am…

ComponentOne Studio ASP.NET MVC Crack

ComponentOne Studio ASP.NET MVC Crack FlexReport增强功能 添加了对在Microsoft Windows上部署Microsoft Azure的支持。 添加了对显示嵌入字体的支持。 .NET标准版的经典C1PDF(Beta版) GrapeCity的经典C1Pdf库现在提供了基于Microsoft.NET标准的版本。在任何.NET应用程序(包括…

Linux常用有关目录的基本命令

一、目录管理 1、绝对路径和相对路径&#xff1a; 绝对路径&#xff1a; 路径的写法&#xff0c;由跟目录 / 写起&#xff0c;例如&#xff1a;/usr/share/doc这个目录。 相对路径&#xff1a; 路径的写法&#xff0c;不是由 / 写起&#xff0c;例如由 /usr/share/doc 要到 /u…

如何求解粘聚力和内摩擦角?

1.直接由莫尔应力圆及包络线得到 由于三轴条件下&#xff0c;试样以宏观破裂面破坏&#xff0c;所以试件是以剪切的方式破坏的&#xff0c;根据库伦强度准则&#xff0c;其抗剪强度 τ m \tau_m τm​ 可以通过粘聚力 c c c 和内摩擦角 φ \varphi φ 确定&#xff0c;表示为…

一百五十四、Kettle——Linux上安装Kettle9.3(踩坑,亲测有效,附截图)

一、目的 由于kettle8.2在Linux上安装后&#xff0c;共享资源库创建遇到一系列问题&#xff0c;所以就换成kettle9.3 二、kettle版本以及安装包网盘链接 kettle9.3.0安装包网盘链接 链接&#xff1a;https://pan.baidu.com/s/1MS8QBhv9ukpqlVQKEMMHQA?pwddqm0 提取码&…

【Sklearn】基于决策树算法的数据分类预测(Excel可直接替换数据)

【Sklearn】基于决策树算法的数据分类预测&#xff08;Excel可直接替换数据&#xff09; 1.模型原理1.1 模型原理1.2 数学模型 2.模型参数3.文件结构4.Excel数据5.下载地址6.完整代码7.运行结果 1.模型原理 决策树是一种基于树状结构的分类和回归模型&#xff0c;它通过一系列…

Kotlin开发笔记:类层次结构和继承

Kotlin开发笔记&#xff1a;类层次结构和继承 简介 面向对象编程的语言中&#xff0c;关于对象层次的抽象是很重要的&#xff0c;这会涉及到类层次的结构&#xff0c;接口和继承等内容&#xff0c;本篇文章将会介绍与之相关的内容&#xff0c;包括&#xff1a; 接口的相关内容…