比赛链接
比赛简介
本次竞赛的目标是预测电子商务点击、购物车添加和订单。您将根据用户会话中的先前事件构建多目标推荐系统。
您的工作将有助于改善所有相关人员的购物体验。客户将收到更多量身定制的建议,而在线零售商可能会增加销售额。
在线购物者可以从大型零售商那里挑选数百万种产品。虽然这种多样性可能令人印象深刻,但有这么多的选择可供探索可能会让人不知所措,导致购物者带着空车离开。这既不利于寻求购买的购物者,也不利于错过销售的零售商。这就是在线零售商依靠推荐系统来引导购物者找到最符合他们兴趣和动机的产品的原因之一。使用数据科学来增强零售商预测每个客户实际想要看到哪些产品、添加到购物车以及在他们访问的任何给定时刻实时订购的能力,可以改善您下次与最喜欢的零售商在线购物时的客户体验。
目前的推荐系统由具有不同方法的各种模型组成,从简单的矩阵分解到transformer类型的深度神经网络。但是,不存在可以同时优化多个目标的单一模型。在本次竞赛中,您将构建一个条目,以根据之前的相同会话事件预测点击率、添加到购物车和转化率。
OTTO拥有来自19000多个品牌的100多万种产品,是德国最大的在线商店。OTTO是总部位于汉堡的跨国公司OTTO集团的成员,该集团还补贴Crate&Barrel(美国)和3 Suisses(法国)。
您的工作将帮助在线零售商从广泛的范围中选择更相关的商品,根据他们的实时行为推荐给他们的客户。改进推荐将确保浏览看似无穷无尽的选项对购物者来说更加轻松和吸引人。
评估方法
在 Recall@20 上对每个操作的提交进行评估,并且三个召回值是权重平均值:
s
c
o
r
e
=
0.10
∗
R
c
l
i
c
k
s
+
0.30
∗
R
c
a
r
t
s
+
0.60
∗
R
o
r
d
e
r
s
score=0.10*R_{clicks}+0.30*R_{carts}+0.60*R_{orders}
score=0.10∗Rclicks+0.30∗Rcarts+0.60∗Rorders
其中每个R定义为:
R
t
y
p
e
=
∑
i
N
∣
{
p
r
e
d
i
c
t
e
d
a
i
d
s
}
i
,
t
y
p
e
∩
{
g
r
o
u
n
d
t
r
u
t
h
a
i
d
s
}
i
,
t
y
p
e
∣
∑
i
N
m
i
n
(
20
,
∣
{
g
r
o
u
n
d
t
r
u
t
h
a
i
d
s
}
i
,
t
y
p
e
∣
)
R_{type}=\frac{{\textstyle \sum_{i}^{N} }\left | \left \{ predicted \ aids \right \}_{i, type}\cap \left \{ ground \ truth \ aids \right \}_{i,type} \right |}{ {\textstyle \sum_{i}^{N}min(20, \left | \left \{ ground \ truth \ aids \right \}_{i,type} \right | )}}
Rtype=∑iNmin(20,
{ground truth aids}i,type
)∑iN
{predicted aids}i,type∩{ground truth aids}i,type
N
N
N是测试集中的会话总数(session
),并且每个会话类型(例如,提交文件中的每一行)的预测在前 20 个预测之后被截断。
对于测试数据中的每个会话(session
),您的任务是预测测试会话最后一个时间戳(ts
)之后出现的每个类型(type
)的产品代码(aid
)。换句话说,测试数据包含按时间戳截断的会话,您需要预测截断点之后发生的情况。
对于点击(clicks
),每个会话只有一个ground truth,即会话期间的下一个产品代码(aid
)单击值(尽管您仍然可以预测最多 20 个产品代码(aid
))。购物车和订单的ground truth包含在会话期间添加到购物车并分别订购的所有产品代码(aid
)。
提交文件
对于测试集中的每个会话 ID 和类型组合,必须在以空格分隔的标签列中预测辅助值。每行最多可以预测 20 个辅助值。该文件应包含标头并具有以下格式:
session_type,labels
12906577_clicks,135193 129431 119318 ...
12906577_carts,135193 129431 119318 ...
12906577_orders,135193 129431 119318 ...
12906578_clicks, 135193 129431 119318 ...
etc.
数据描述
本次竞赛的目标是预测电子商务点击、购物车添加和订单。您将根据用户会话中的先前事件构建多目标推荐系统。
训练数据包含完整的电子商务会话信息。对于测试数据中的每个会话,您的任务是预测在测试会话中的最后一个时间戳 ts 之后出现的每个会话类型的辅助值。换句话说,测试数据包含按时间戳截断的会话,您需要预测截断点之后发生的情况。
有关其他背景信息,请参阅已发布的 OTTO 推荐系统数据集 GitHub。
文件
train.jsonl
- 训练数据,包含完整的会话数据
session
- 唯一的会话 IDevent
- 会话中事件的时间顺序
–aid
- 关联事件的文章 ID(产品代码)
–ts
- 事件的 Unix 时间戳
–type
- 事件类型,即产品是否被点击、添加到用户的购物车或在会话期间订购
test.jsonl
- 测试数据,包含截断的会话数据
– 您的任务是预测会话截断后点击的下一个辅助工具,以及添加到购物车和订单中的剩余辅助工具;您可以预测每种会话类型最多 20 个值
sample_submission.csv
- 正确格式的示例提交文件