AI产品经理需要懂的技术全景图

news2026/5/15 22:58:12

AI产品经理需要懂技术，以便与算法工程师同频沟通，以及合理管控AI项目进度。

项目	掌握内容	掌握边界
数学统计学基础概念	常见概念	知道、了解
模型构建	模型构建流程涉及角色每个角色工作内容	清楚知道每个角色该做什么，需要花费多少成本，用于项目管控
算法知识	常见算法算法原理适用场景	知道什么场景下，可以通过什么算法技术来解决问题，能够解决到什么程度
模型相关技术名词	偏差与方差、过拟合欠拟合、特征清洗与数据变换、训练集、测试集、验证集、跨时间测试与回归测试、联合建模与联邦学习	知道相关概念
模型验收	模型类型、什么类型的模型使用哪些评估指标、指标如何计算	精通、能够自己去测试模型某些评估指标

一、数学统计学基础概念

对于AI产品经理来说，虽然不需要了解数学公式，以及公式背后的逻辑，但我们需要知道数学统计学的基本概念，以及概念的落地应用。

1.线性代数

标量：单独一个整数、实数或者复数。

向量：标量按照一定顺序组成一个序列数，如{x1、x2、x3，...xn}

矩阵：给原始向量增加一个维度，成为一个二维数组

2.概率统计

概率分布是用来评估特征数据和模型结果的武器。首先，我们要掌握常用的概率分布的类型，其次，我们要知道哪些业务场景下的特征数据和模型结果的分布，以及他们应该符合哪种分布类型，这样，产品经理就可以把概率分布应用于日常的工作中。

概率分布类型如下：

类型	定义	举例
伯努利分布	又称零一分布，如果我们只进行一次实验，并且这个实验只有两个结果，分别记为0、1	电商场景下，涉及一个抽奖游戏，某个用户有没有中奖，这个结果就符合伯努利分布
二项分布	重复多次伯努利实验，并且让每个实验都相互独立，让结果只有0、1这两种，那n次伯努利实验中，结果为0的次数的离散概率分布	抛n次硬币，出现正面次数的概率分布
泊松分布	单位时间内，随机事件发生的次数	频道页平均每分钟有2000次访问，如果计算出下一分钟有4000次访问的概率
高斯分布	正态分布，曲线特点是两头低、中间高、左右对称	/

二、模型构建、算法知识以及模型验收

一个模型构建的整体流程，包含模型设计、特征工程、模型训练、模型验证、模型融合五个阶段，完成之后，模型就会交付到产品端。

建模的过程实际上就是应用某个算法技术来实现一个模型的过程，这其中最重要的就是我们选择的是什么算法。作为AI产品经理，要知道目前的技术现状能解决什么问题，在什么场景下有哪些机器学习算法，以及每种算法适合解决哪类问题。

模型验收涉及评估手段和指标，评估指标背后的计算逻辑，以及怎么选择合适样本进行测试的方法，这些都是AI产品经理所必须要精通的。

三、模型相关技术名词

名词	释义
偏差	模型的预测结果和实际的结果的偏离程度。如果偏差比较大，就说明模型的拟合程度比较差，也就是欠拟合（高偏差），说的直白一些就是模型预测不准。造成欠拟合的原因可能是特征少或者模型训练不足。
方差	模型在不同测试样本上表现的稳定程度。假设一个分类模型，在不同样本上测试，得到的 KS 值有时候是 20，有时候是 40，这就说明这个模型方差偏大，模型效果不稳定，在一部分数据上表现好，在另一部分数据上表现差，也就是过拟合（高方差）。造成过拟合的原因可能是特征过多或者训练集不够。
特征清洗	对数据进行清洗去掉重复值、干扰数据，以及填充缺失值。一般来说，数据清洗需要反复进行很多次，也会持续很多天，当然具体的工作量也要视数据质量和量级决定。
数据变换	数据处理成方便模型使用的数据形式。举个例子，我们需要使用用户的身高作为模型特征，但是有的数据是用厘米作单位，有的数据会使用米作单位。这个时候，我们就需要使用归一化，把数据的单位统一成米或者厘米。归一化也是数据变换最主要的手段。
训练集	让机器学习的样本集合，用来拟合模型。
验证集	模型训练过程中，用来对模型性能做初步的评估，用于模型参数调优。
测试集	最终用来评估模型效果的
跨时间测试	也叫OOT测试，是测量模型在时间上的稳定性
回塑测试	用真实的、过去一段时间的数据，构造出一个模拟的环境（回溯环境），让模型在历史的那段环境中运行，得到历史某个时间点的模型结果。回溯测试在量化投资中的应用比较广泛。
联合建模	使用三方公司（如银联、运营商、电商）的数据，在对方的环境下部署一个模型，然后我们通过接口调用这个模型的结果，再把结果融合到我们自己的模型上。通过这种方式，可以弥补我们自有业务中数据不足的问题。
联邦学习	特殊的联合建模，或者一种分布式的模型部署方式。使用联邦学习之后，我们调用部署在第三方模型的时候，输入的就不是具体的业务数据而是模型参数，这样就不会有个人信息外传的风险了。