未完成.
1. 简述
CIKM '23 的一篇论文, 任务为 Learning To Rank, 输入为 候选集合, 输出为 有序列表, 用于 top-n 推荐场景.
思考:
- 它是要替代 ctr 预估么?
- 它跟 mind 这种召回, 有啥大的不一样么?
2. 网络结构
- u u u: 将用户(或 query) 记为 u
- H q = d X , d Y , . . . Hq = {d_X,d_Y,...} Hq=dX,dY,..., 该用户的历史交互序列.
- D q = d A , d B , . . . Dq = {d_A,d_B,...} Dq=dA,dB,..., 候选的商品集合.
-
π
\pi
π, 生成的商品排列.
图. illustration of STARank
2.1 Arranger Module
- 前序为 ReaderModule, 使用 LSTM 将 u 与 Hq 作有序的编码, 得到 u q u_q uq.
- 类似于 self-attention, 商品 d 与 u q u_q uq 交互后得到商品的向量 h d h_d hd.
- 然后开始做排列. 见下截图,
s
d
i
=
f
(
h
d
,
u
1
,
p
i
)
s_d^i=f(h_d,u_1,p_i)
sdi=f(hd,u1,pi), 建模 位置与 u_q 信息. 并使用 soft-max 得到概率.
Q: 如何令 π i \pi_i πi 感知到 π < i \pi_{<i} π<i 的前序排列的信息呢?
Plackett Luce (PL) module .