背景
在用户画像中,除了用户的性别年龄等基础标签,我们还可以使用机器学习算法挖掘一些标签,比如用户购买意向等标签
技术方案
挖掘类标签的生产一般有以下的流程图,主要包括特征选择,也就是选择用户的哪些行为作为特征,比如用户的消费明细和用户的年龄等特征,随后我们需要对特征进行处理,比如归一化数值特征,后续我们就可以训练机器模型进行训练了,这里的机器学习模型我们可以直接使用spark ml自带的,最后一步就是部署训练好的模型,整体架构如下所示:
附Spark ml模型训练的伪代码:
//训练数据
List<LabeledPoint> trainedData=;
//决策树模型
DecisionTreeClassifier treeClassifier;
// 训练模型
Model model = treeClassifier.fit(trainedData);
// 预测结果
model.transfer(testData)