我们需要提高人工智能产品经理的标准

news2025/1/11 14:22:26

如何停止指责“模型”并开始构建成功的人工智能产品

产品经理负责决定开发什么,并对决策结果负责。这适用于所有类型的产品,包括由人工智能驱动的产品。然而,在过去十年中,产品经理将人工智能模型视为黑匣子是一种常见做法,将不良结果的责任推给模型开发人员

PM:我不知道模型为什么会这样做,请询问模型开发人员。

这种行为就像在网站重新设计后将注册人数不佳归咎于设计师一样毫无道理。科技公司认为,从事消费产品工作的项目经理有直觉,能够对设计变更做出明智的决定,并对结果负责。

那么为什么这种对人工智能不干预的态度会成为常态呢?

问题:PM 倾向于远离模型开发过程。

亲自动手与不亲自动手的 AI 产品管理——概述

这种更为严格的实践方法有助于确保模型成功落地并为用户提供最佳体验。

实践方法需要:

  • 更多的技术知识和理解。
  • 对发布时存在的任何已知问题或权衡承担更多风险和责任。
  • 花费 2 到 3 倍的时间和精力——创建评估数据集来系统地测量模型行为可能需要花费数小时到数周的时间。

不确定评估是什么?请查看我的帖子“评估”到底是什么以及产品经理为什么要关心它?”。

十有八九,当模型发布失败时,公司会采取放任不管的策略。Netflix、Google、Meta 和 Amazon 等在产品中部署 AI 已有多年历史的大公司则较少采取这种策略,但本文不适合他们。

然而,克服放手式做法的惯性可能颇具挑战性。当公司领导层不再期待更多时尤其如此,而 PM 甚至可能因采用亲力亲为的做法而面临“减慢”开发周期的阻力。

亲自动手与放手不管的产品管理——模型开发流程

想象一下,亚马逊等市场的一名产品经理负责为父母开发产品包推荐系统。考虑两种方法。

放手式人工智能项目经理——模型要求

目标:增加购买量。

评估:模型开发人员认为最好的。

指标:使用 A/B 测试来决定是否向 100% 的用户推出,以查看购买率是否有统计意义的提高。

实践 AI PM - 模型要求

目标:帮助父母发现他们没有意识到需要的优质产品,让他们的育儿之旅变得更加轻松。

指标:主要指标是推动幼儿父母购买产品。我们将监测的次要长期指标是首次在捆绑产品中发现的品牌的重复购买率以及市场上品牌的长期多样性。

评估:除了运行 A/B 测试外,我们的离线评估集还将查看多个样本用户的样本推荐,这些样本用户来自父母的关键阶段(优先考虑孕妇、新生儿、大龄婴儿、幼儿、幼儿)和四个收入阶层。如果我们在这里发现任何意外情况(例如:向低收入父母推荐最昂贵的产品),我们需要更仔细地研究训练数据和模型设计。

在我们的评估集中,我们将考虑:

  • 个性化——看看有多少人购买了相同的产品。我们预计收入和儿童年龄组之间存在差异
  • 避免冗余——如果捆绑包中已经有一个耐用品(婴儿床、奶瓶加热器)的重复推荐,或者用户已经从我们这里购买了这种类型的物品,则对重复推荐进行惩罚(不要对尿布等消耗品或玩具等收藏品进行惩罚)
  • 一致性——不同阶段的产品不应该混合在一起(例如:婴儿奶瓶和 2 岁儿童的衣服)
  • 凝聚力——避免混合截然不同的产品,例如:超级昂贵的手工木制玩具与非常便宜的塑料玩具,带有授权角色的鲜艳印花与柔和的粉彩。

次要目标的可能驱动因素

  • 考虑尝试对重复购买产品设置奖励权重。即使我们预先销售的捆绑包数量略少,但如果这意味着这样做的人将来更有可能购买更多产品,那么这也是一个不错的权衡。
  • 为了长期支持市场健康,我们不想只偏向畅销品。在坚持质量检查的同时,争取至少 10% 的推荐中包含非同类品牌。如果从一开始就没有做到这一点,该模型可能会默认采用“最低公分母”行为,并且很可能没有进行适当的个性化

实践 AI产品管理— 模型开发人员协作

具体的模型架构应该由模型开发人员决定,但 PM 应该在以下方面有很大的发言权:

  • 该模型的优化目标是什么(这应该比“更多购买”或“更多点击”更深一到两层)
  • 如何评估模型性能。
  • 用什么例子来评价。

客观地说,亲自动手的方法需要做更多的工作!而且这是假设 PM 从一开始就参与到模型开发过程中。有时模型开发人员具有良好的 PM 直觉,可以在模型设计中考虑用户体验。然而,公司不应该指望这一点,因为在实践中,精通 UX 的模型开发人员是千里挑一的独角兽。

此外,放手不管的方法有时可能仍然有效。然而在实践中,这通常会导致:

  • 模型性能不理想,可能会导致项目失败(例如:高管认为捆绑销售是个坏主意)。
  • 错失了重大改进的机会(例如:提升 3% 而不是 15%)。
  • 不受监控的对生态系统的长期影响(例如:小品牌离开平台,增加对少数大参与者的依赖)。

亲自动手与放手不管的产品管理——产品回顾

除了前期工作量增加之外,亲自动手的方法还可以从根本上改变产品评审的流程。

免提 AI PM 产品评论

Leader:为父母提供捆绑服务似乎是个好主意。让我们看看它在 A/B 测试中的表现如何。

亲身体验 AI PM 产品评论

领导:我读了你的提案。如果畅销产品是最好的产品,那么只推荐畅销产品有什么问题?我们难道不应该做对用户最有利的事情吗?

[半小时后辩论]

PM:正如你所见,畅销书不太可能真正适合所有人。以尿布为例。低收入的父母应该知道亚马逊品牌的尿布,其价格是畅销书的一半。高收入的父母应该知道富裕客户喜欢的新昂贵品牌,因为它感觉像云一样。此外,如果我们总是青睐某一类别中的现有赢家,那么从长远来看,更新但更好的产品将很难出现。

领导:好的。我只是想确保我们不会无意中推荐劣质产品。您建议采用哪些质量控制指标来确保这种情况不会发生?

模型开发者:为了确保只展示高质量的产品,我们使用以下信号……

放手式人工智能产品管理的隐性成本

上述对比场景说明了 AI 产品管理中的一个关键时刻。虽然亲力亲为的 PM 成功地进行了一场具有挑战性的对话,但这种方法并非没有风险。许多 PM 面临着快速交付的压力,他们可能会选择阻力最小的路径。

毕竟,放手不管的做法可以保证产品审核更顺畅、审批更迅速,而且如果出现问题,还可以方便地找到替罪羊(模型开发人员)。然而,这种短期的轻松会带来高昂的长期成本,对产品和整个组织来说都是如此。

当项目经理不再深​​入参与 AI 开发时,显而易见的问题和关键的权衡仍然隐藏着,从而导致几个重大后果,包括:

  1. 目标不一致:如果 PM 不能洞察用户需求和业务目标,模型开发人员可能会优化易于衡量的指标(如点击率),而不是真正的用户价值。
  2. 意想不到的生态系统效应:孤立优化的模型可能会产生深远的影响。例如,总是推荐畅销产品可能会逐渐将小品牌挤出市场,减少多样性,并可能损害平台的长期健康。
  3. 责任分散:当决策“由模型决定”时,就会产生危险的责任真空。项目经理和领导者不能为他们从未明确考虑或批准的结果负责。这种缺乏明确责任的现象可能会导致一种文化,即没有人觉得自己有权主动解决问题,这可能会导致小问题演变成重大危机。
  4. 低水平模型的延续:如果不从产品角度仔细检查模型的缺点,就无法确定和优先考虑影响最大的改进。承认并承认这些缺点对于团队在发布时做出正确的权衡决策是必要的。没有这一点,表现不佳的模型将成为常态。这种回避循环阻碍了模型的发展,浪费了人工智能推动真正用户和商业价值的潜力。

PM 可以采取的第一步是变得更加亲力亲为吗?询问您的模型开发人员如何帮助进行评估!有很多很棒的免费工具可以帮助完成此过程,例如promptfoo(Shopify 首席执行官的最爱)。

领导力的当务之急:重新定义期望

产品领导力在提升 AI 产品标准方面发挥着关键作用。正如 UI 更改需要经过多次审核一样,AI 模型也需要同样甚至更严格的审核,因为它们对用户体验和长期产品结果有着深远的影响。

促进 PM 更深入地参与模型开发的第一步是让他们了解他们所运送的东西。

问以下问题:

  • 您使用的是什么评估方法?您如何获取示例?我可以查看示例结果吗?
  • 您认为在第一个版本中支持哪些用例最为重要?我们是否需要做出任何权衡以促进这一点?

认真考虑在何处使用哪种类型的评估:

  • 对于部署在高风险表面上的模型,请考虑将使用评估集作为一项要求。这还应与尽可能严格的发布后影响和行为分析相结合。
  • 对于部署在较低风险表面上的模型,请考虑允许以不太严格的评估进行更快的首次启动,但在收集到有关用户行为的数据后推动快速的发布后迭代。
  • 调查模型训练和评分中的反馈回路,确保人工监督不仅仅是精确度/召回率指标。

请记住,迭代是关键。交付的初始模型很少是最终模型。确保有资源可用于后续工作。

最终,人工智能的广泛采用既带来了巨大的希望,也为产品所有权带来了重大变化。为了充分发挥其潜力,我们必须超越常常导致次优结果的放任态度。产品负责人在这一转变中发挥着关键作用。通过要求 PM 更深入地了解人工智能模型并培养责任文化,我们可以确保人工智能产品经过深思熟虑的设计、严格的测试,并真正造福用户。这需要许多团队提高技能,但资源随时可用。人工智能的未来取决于它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1994572.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何在 CI/CD 过程中实施高效的自动化测试和部署

文章目录 摘要引言选择适合的 CI/CD 工具常见 CI/CD 工具选择依据 配置自动化构建和测试流程Jenkins示例 制定测试策略单元测试集成测试系统测试 确保部署环境的稳定性蓝绿部署 未来展望总结参考资料 摘要 在持续集成(CI)和持续交付(CD&…

SemanticKernel/C#:实现接口,接入本地嵌入模型

前言 本文通过Codeblaze.SemanticKernel这个项目,学习如何实现ITextEmbeddingGenerationService接口,接入本地嵌入模型。 项目地址:https://github.com/BLaZeKiLL/Codeblaze.SemanticKernel 实践 SemanticKernel初看以为只支持OpenAI的各…

(24)(24.2) Minim OSD快速安装指南(一)

文章目录 前言 1 概述 2 基本接线图 3 关键冷却条件的可选设置 4 固件可用于MinimOSD 5 MWOSD 前言 MinimOSD “屏幕显示”是一个小型电路板,它从你的自动驾驶仪中提取遥测数据,并将其覆盖在你的第一人称视图监视器上(First Person View)。Minim …

发布包到npm

目录 注册npm账号 创建包 登录npm 上架包 更新包 删除包 注册npm账号 首先注册npm账号:npm | Sign Up (npmjs.com) 创建包 可以在桌面上新建一个文件夹:文件夹名随便起,但是别跟npm已经上架的包名重复了 可以通过下面的指令查看&…

【小记】这也算是经验分享了吧~

最近在进行跳槽的一些准备,从简历制作、投递简历、准备面试、视频面试、线下面试、接受录取、辞职准备,每一个过程都超级紧张刺激 大学的时候就有一些制作PPT的经验,靠这个收入了一点点,进而对于office这一系列的操作还是比较熟悉…

韶音Open Fir Air好用吗?南卡、韶音、漫步者三款开放式耳机无广避坑测评!

近期,我注意到后台有许多小伙伴向我咨询如何挑选合适的开放式耳机。市场上开放式耳机品牌琳琅满目,它们在音质表现、佩戴舒适度以及综合性能上均展现出各自的独特魅力与差异。对于追求耳朵极致舒适体验的朋友而言,选择一款合适的开放式耳机显…

从零开始搭建监控系统 (三) 指标采集

从零开始搭建监控系统 (三) 指标采集 背景 Node Exporter就可以用来采集机器的各项指标,从而监控机器的状态。 如果机器上运行了一些小脚本,想要对其进行监控但又不想用上一些在代码里做信息采集的SDK那么重,比如只是单纯想要监控该脚本是…

【C语言】红黑树

红黑树 1.二叉查找树 首先要了解的是二叉查找树,也称为二叉排序树,优点是在节点均匀分布的情况下,查找效率更高,缺点是,如果节点分布在一侧,查找时间就会约等于数组从头到尾的去查找。 二叉查找树的子树…

24/8/8算法笔记 决策回归树

from sklearn.tree import DecisionTreeRegressor from sklearn import tree import numpy as np import matplotlib.pyplot as plt 创建数据 X_train np.linspace(0,2*np.pi,40).reshape(-1,1)#训练数据就是符合要求的二维数据 #二维:[[样本一].[样本二]&#x…

服务器数据恢复—Raid5阵列热备盘上线过程中断导致阵列崩溃的数据恢复案例

服务器数据恢复环境&故障: 两组分别由4块SAS硬盘组建的raid5磁盘阵列,ext3文件系统lvm结构。 磁盘阵列中一块硬盘离线,热备盘自动上线替换离线硬盘并开始同步数据。在热备盘同步数据的过程中该组raid中另外一块硬盘出现故障掉线&#xff…

Docker最佳实践(六):安装Nacos

大家好,欢迎各位工友。 本篇呢我们就来演示一下如何在Docker中部署nacos容器,市面上的教程多多少少都有点小坑,博主磕磕绊绊测试了好几次,才算解决此问题。 1. 拉取Nacos镜像 首先,拉取对应版本的Nacos镜像文件。可以…

【ACM出版,EI稳定检索】第四届信号处理与通信技术国际学术会议(SPCT 2024)

第四届信号处理与通信技术国际学术会议(SPCT 2024) 2024 4th International Conference on Signal Processing and Communication Technology 重要信息 大会官网:www.icspct.com 大会时间:2024年12月27-29日 大会地点&#xff1a…

Nodejs实现图片加水印 【使用jimp】

Nodejs实现图片加水印 【使用jimp】 先看效果 我们将使用jimp实现图片加上水印,可以结合路由进行用户上传后处理该图片生成带水印的图片返回个用户 const path require("path"); const jimp require("jimp");/*** 给一张图片加水印* para…

【C语言篇】自定义类型:联合体和枚举详细介绍

文章目录 联合体联合体类型的声明联合体的特点联合体和结构体对比联合体大小的计算判断大小端 枚举枚举类型的声明枚举类型的优点枚举的使用 联合体 联合体类型的声明 像结构体⼀样,联合体也是由⼀个或者多个成员构成,这些成员可以不同的类型。 但是编…

第10章 无持久存储的文件系统 (1)

目录 前言 10.1 proc文件系统 10.1.1 /proc 内容 本专栏文章将有70篇左右,欢迎关注,查看后续文章。 前言 即存在于内存中的文件系统。如: proc: sysfs: 即/sys目录。 内容不一定是ASCII文本,可能是二进…

Delaunay三角化重要性质,最小角最大化

欢迎关注更多精彩 关注我,学习常用算法与数据结构,一题多解,降维打击。 最大化最小角 推论 有点集P是一般点集(没有多点共线,没有4点共圆),那么该点集的delauney三角后的最小角不小于其他非de…

HTML5+CSS3笔记(Xmind格式):第五天

Xmind鸟瞰图: 简单文字总结: HTML5CSS3知识总结: canvas坐标: 画图的基本步骤: 1.创建画布 2.获取画布 3.开始路径规划 4.规定画笔颜色 5.规定画笔粗细 6.开始作…

OLAP与OLTP:数据处理系统的两种核心架构

目录 一、什么是OLAP? 二、什么是OLTP? 三、OLAP与OLTP的主要区别 四、结论 在数据管理和分析的领域中,OLAP(在线分析处理)和OLTP(在线事务处理)代表了两种重要的数据处理模式。它们在功能、目标…

MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

发表时间:6 Jul 2024 论文链接:https://arxiv.org/pdf/2401.15947 作者单位:Peking University Motivation:最近的进展表明,扩展大型视觉语言模型 (LVLM) 有效地提高了下游任务的性能。然而,现有的缩放方…

uniapp版本更新除了plus.runtime.getProperty的解决办法

以下是展示图 带尺寸的图片: 首先把以下代码放到想要更新弹出的页面 //template部分<uni-popup ref"popup" background-color"#fff"><versionUp handleCloseVersion"closeVersion"></versionUp></uni-popup>//script…