引入:
自监督学习改进双塔模型,可以提升业务指标。自监督学习是把物品塔学习得更习的更好。
长尾物品的曝光和点击数量太少,训练的样本次数不够。自监督可以更好地学习长尾数据的物品表征。
双塔模型的训练:
线上召回的时候不用纠偏,不需要调整余弦相似度。
自监督学习:
对一个物品做随机特征变换得到不同的特征,这两个向量表征应该有高相似度,但是不同物品的表征向量应该分散开。
特征变换:
random mask
本来一个物品有多个类目,分别对每一个类目都做embadding,得到两个向量,再取加和或者平均。而做mask之后,丢掉全部的类目,变成默认缺失值,做embadding。
dropout
complementary
mask一组关联的特征
类目和性别的关联就很强。
训练模型:
用变换后的特征训练模型,从全部物品随机抽样,区别于双塔模型是根据点击行为抽样的。
推导损失函数:
sii应该接近1,其余sij应该接近0。训练希望si接近yi,将其交叉熵记为损失函数。
总结:
让不同物品的向量表征尽量spread out ,分散在整个特征空间上,而不是集中在一起。指标有改善。
第一个batch训练双塔,包括用户塔和物品塔;第二个batch做自监督学习,只训练物品塔。最后做梯度下降使损失函数减小。Lmain 是双塔的损失, Lself是自监督的损失,分别取平均。α是超参数,决定自监督学习起到的作用。