AI产品经理需要懂技术,以便与算法工程师同频沟通,以及合理管控AI项目进度。
项目 | 掌握内容 | 掌握边界 |
数学统计学基础概念 | 常见概念 | 知道、了解 |
模型构建 |
| 清楚知道每个角色该做什么,需要花费多少成本,用于项目管控 |
算法知识 |
| 知道什么场景下,可以通过什么算法技术来解决问题,能够解决到什么程度 |
模型相关技术名词 | 偏差与方差、过拟合欠拟合、特征清洗与数据变换、训练集、测试集、验证集、跨时间测试与回归测试、联合建模与联邦学习 | 知道相关概念 |
模型验收 | 模型类型、什么类型的模型使用哪些评估指标、指标如何计算 | 精通、能够自己去测试模型某些评估指标 |
一、数学统计学基础概念
对于AI产品经理来说,虽然不需要了解数学公式,以及公式背后的逻辑,但我们需要知道数学统计学的基本概念,以及概念的落地应用。
1.线性代数
标量:单独一个整数、实数或者复数。
向量:标量按照一定顺序组成一个序列数,如{x1、x2、x3,...xn}
矩阵:给原始向量增加一个维度,成为一个二维数组
2.概率统计
概率分布是用来评估特征数据和模型结果的武器。首先,我们要掌握常用的概率分布的类型,其次,我们要知道哪些业务场景下的特征数据和模型结果的分布,以及他们应该符合哪种分布类型,这样,产品经理就可以把概率分布应用于日常的工作中。
概率分布类型如下:
类型 | 定义 | 举例 |
伯努利分布 | 又称零一分布,如果我们只进行一次实验,并且这个实验只有两个结果,分别记为0、1 | 电商场景下,涉及一个抽奖游戏,某个用户有没有中奖,这个结果就符合伯努利分布 |
二项分布 | 重复多次伯努利实验,并且让每个实验都相互独立,让结果只有0、1这两种,那n次伯努利实验中,结果为0的次数的离散概率分布 | 抛n次硬币,出现正面次数的概率分布 |
泊松分布 | 单位时间内,随机事件发生的次数 | 频道页平均每分钟有2000次访问,如果计算出下一分钟有4000次访问的概率 |
高斯分布 | 正态分布,曲线特点是两头低、中间高、左右对称 | / |
二、模型构建、算法知识以及模型验收
一个模型构建的整体流程,包含模型设计、特征工程、模型训练、模型验证、模型融合五个阶段,完成之后,模型就会交付到产品端。
建模的过程实际上就是应用某个算法技术来实现一个模型的过程,这其中最重要的就是我们选择的是什么算法。作为AI产品经理,要知道目前的技术现状能解决什么问题,在什么场景下有哪些机器学习算法,以及每种算法适合解决哪类问题。
模型验收涉及评估手段和指标,评估指标背后的计算逻辑,以及怎么选择合适样本进行测试的方法,这些都是AI产品经理所必须要精通的。
三、模型相关技术名词
名词 | 释义 |
偏差 | 模型的预测结果和实际的结果的偏离程度。如果偏差比较大,就说明模型的拟合程度比较差,也就是欠拟合(高偏差),说的直白一些就是模型预测不准。造成欠拟合的原因可能是特征少或者模型训练不足。 |
方差 | 模型在不同测试样本上表现的稳定程度。假设一个分类模型,在不同样本上测试,得到的 KS 值有时候是 20,有时候是 40,这就说明这个模型方差偏大,模型效果不稳定,在一部分数据上表现好,在另一部分数据上表现差,也就是过拟合(高方差)。造成过拟合的原因可能是特征过多或者训练集不够。 |
特征清洗 | 对数据进行清洗去掉重复值、干扰数据,以及填充缺失值。一般来说,数据清洗需要反复进行很多次,也会持续很多天,当然具体的工作量也要视数据质量和量级决定。 |
数据变换 | 数据处理成方便模型使用的数据形式。举个例子,我们需要使用用户的身高作为模型特征,但是有的数据是用厘米作单位,有的数据会使用米作单位。这个时候,我们就需要使用归一化,把数据的单位统一成米或者厘米。归一化也是数据变换最主要的手段。 |
训练集 | 让机器学习的样本集合,用来拟合模型。 |
验证集 | 模型训练过程中,用来对模型性能做初步的评估,用于模型参数调优。 |
测试集 | 最终用来评估模型效果的 |
跨时间测试 | 也叫OOT测试,是测量模型在时间上的稳定性 |
回塑测试 | 用真实的、过去一段时间的数据,构造出一个模拟的环境(回溯环境),让模型在历史的那段环境中运行,得到历史某个时间点的模型结果。回溯测试在量化投资中的应用比较广泛。 |
联合建模 | 使用三方公司(如银联、运营商、电商)的数据,在对方的环境下部署一个模型,然后我们通过接口调用这个模型的结果,再把结果融合到我们自己的模型上。通过 这种方式,可以弥补我们自有业务中数据不足的问题。 |
联邦学习 | 特殊的联合建模,或者一种分布式的模型部署方式。使用联邦学习之后,我们调用部署在第三方模型的时候,输入的就不是具体的业务数据而是模型参数,这样就不会有个人信息外传的风险了。 |