文章目录
- 四大特征
- 用户特征
- 物品特征
- 统计特征
- 场景特征
- 训练过程中会遇到的问题
四大特征
ID相当于是人拥有的身份证,能够唯一确定出一个人
用户特征
主要指的是用户ID和用户画像
物品特征
主要是指物品ID和物品画像以及物品持有人。
统计特征
统计特征既包括对用户的统计,也包括了对物品的统计(该物品的购买量,转发量等等)。
场景特征
购买者所在的城市等等。
预估是指通过已有数据训练得到的模型,从而能够预测某一用户对某篇文章的行为。
而在已有数据训练过程中,可以让模型不断去逼近/拟合目标。
多目标的单个目标可用01来代表是否进行转发/收藏/点赞。
所以可以采用交叉熵来作为损失函数。
由于每一个目标对应一个交叉熵,所以多个目标对应多个交叉熵,所以可以考虑将多个交叉熵之和来作为整体的损失函数。
训练过程中会遇到的问题
正负样本是根据是否产生有进一步进行推送的必要而定义的。
负样本减少,总体样本减少,但正样本的个数仍是不变,所以总体的点击率会下滑。
获得
P
t
r
u
e
P_{true}
Ptrue的公式,只需要在
P
t
r
u
e
P_{true}
Ptrue的基础上,上下同时除以
n
+
+
α
⋅
n
−
n_++\alpha·n_-
n++α⋅n−,整理后即可得到校准公式。
而处理成这个校准公式的好处是,无需知道具体的负样本和正样本个数。