阿里拍卖资产推荐算法 召回进展年中总结

news2024/11/28 6:48:51

e9130b29203627bcbf6268d10255f5bc.gif

阿里拍卖是阿里巴巴旗下拍卖平台,覆盖房产、机动车、土地、债权等类目。召回策略作为推荐场景的第一环,决定了整个推荐系统的上限,目前包含了包括向量召回、I2I、LBS2I、C2I等多路召回。召回的核心目标是尽可能的返回用户所有可能会感兴趣的商品,给到后续粗排、精排、重排环节,最终曝光给用户。

与淘宝APP的普通商品不同,大资产商品有其独有的特点。唯一性:每件商品都是唯一的、单库存的,世界上没有两套一模一样的房子,导致对于单商品的学习难度较大;周期性:资产的预展周期通常为一个月左右,从资产上拍预展到结拍下架,时间很短,模型可能刚学习完这个商品,商品就要下架了;高价性:房子价格动辄几百上千万,土地价格动辄上亿,对于目标人群的筛选难度较高。

本文旨在分享多兴趣向量召回MIND和深度I2I召回模型PDN在阿里拍卖资产推荐场景的实践经验。内容包括模型的介绍,大资产场景的针对性优化,以及最终的效果分析,希望能对大家有所帮助和启发。

45895ddf15575b0b4dad0876d5cb30b4.png

背景

阿里资产作为资产交易平台,一方面,由于资产处置的独特性,每天在线的大资产数量较少,在百万级;另一方面,资产的地域性很强,用户感兴趣的不动产,通常都在某个偏好地内,例如:偏好杭州房产的用户不会突然对成都的房产感兴趣。结合类目和地域进行筛选后,所剩的资产数量可能就在百级别。所以在用户偏好地和偏好类目挖掘较明确和单一的情况下,规则化的个性化召回是一个较强的baseline。

我们分析数据发现,实际很多用户有多个偏好地和类目,比如:用户同时关注杭州和北京的房产;买土地用户,可能也对部分化工设备感兴趣。对于这类用户,之前的召回策略显得力不从心。因此,需要引入更加个性化的召回策略,对房产、机动车、土地等主要GMV贡献类目,召回更多地域,扩大召回类目,减缓推荐域常见的EE问题。在过去一年,我们引入了集团内的优秀工作MIND、PDN,结合大资产的特性,进行对应的优化,拿到了显著的GMV增长结果。

acedb003484da430697df05470a66c86.png

向量召回范式

  MIND模型介绍

722a8f36c3fb74039e5f2705ed987595.png

MIND模型结构(来源于文献1)

模型包括Embedding & Pooling Layer、Multi-Interest Extractor Layer和Label-aware Attention Layer。

Embedding层将用户和商品特征转为Embedding,Pooling层通过average pooling融合各类特征。

Multi-Interest Extractor Layer是兴趣多峰分布表征的核心,使用了基于动态路由的胶囊网络。假设胶囊网络有两层,一层为low-level胶囊网络(用户历史行为embedding),另一层为high-level胶囊网络(用户兴趣embedding)。low-level层有m个向量(即m个历史行为),ca8ed0771ac4cad8018184987748cf57.png,high-level层有n个向量(即n个兴趣),4d6e82a7d5f3b8996b587245b0e9ea4a.png

那么如何将信息从下层胶囊f184c5e78f72a0734f555c641e3084a8.png传递到上层胶囊7f05a8456d07d69957700653b3e2b5b4.png?首先计算两者之间的路由系数059c793b89a358e5539d352138d5d14c.png,其中d0823e38e0ad8fa249b52eef2c4844c5.png是双线性映射矩阵,随后通过softmax将eb1bae0676f0086767ccb55a14010371.png归一化为8bdfa0181ff7f9f83100b050646eb838.png。将8eb3b330cbf6531680157b6406c98cbe.png应用于下层胶囊, 就得到了上层胶囊的输入d46128a3dab93b0cb07aedd694436409.png,最终的high-level胶囊j的向量表示为a9d8d0a6d236e525fa3b3797ea851792.png。由此可见,新6e97b38a3303b1f13303584ac87481e7.png是由旧9ed6eb7678be89d312cdd00f0abfbdf9.png5a44fad2d5697b85e0f1563cfdb65d91.png来更新的,可以用EM算法更新。

完整的流程如下:

647a7a235c63e350fe791b90688b0ff4.pngMIND流程(来源于文献1)

Label-aware Attention Layer旨在解决如何对多个兴趣向量同时学习的问题。其从多个兴趣中挑选出一个与target item最接近的兴趣,针对性的对这个兴趣进行学习,这种挑选兴趣的机制称为Label-aware Attention。在线上serving时,多个兴趣向量都被直接用于后续的召回中。

  大资产适配
  • 特征

特征层面,我们只使用了商品基本的类目、地域和少数关键属性特征。我们发现再此基础上增加更多细粒度特征反而带来了负向效果。

我们对于行为序列的时间权重做了更贴合资产场景的改动。在传统电商领域,用户的决策周期较短,从第一次看到商品到最终下单,长则需要几天,短则只需要几分钟,原有的时间权重根据分钟级衰减函数分桶。在大资产领域,用户的决策周期通常需要一个月以上,模型用户行为序列的跨度为半年,按分钟级衰减会导致大部分行为的时间权重趋同,模型无法区分行为时间。我们将时间权重改为天级别分桶后,取得了明显的效果,单路离线hitrate@300相对提升5%。

  • 难负样本的构建

MIND的负样本为batch内随机负采样,这类样本能够使模型学到基本的判别能力,但是在大资产场景,这类负样本过于简单。在用户偏好类目和地域较窄的情况下,模型很容易学到喜欢杭州房产的人不应该召回成都土地,但是对于杭州房产的商品池区分度较低。因此需要更多难负样本指导模型学习。

曝光未点击

第一类难负样本是用户行为当天真实曝光未点击的商品,这类样本会与用户有一定相关性,可以认为是较难的负样本。我们将此类样本加入负样本,调试与随机负采样样本的比例后,发现最优的难易样本比例为1:5,这种设置下单路离线hitrate@300相对提升了6.5%。我们还尝试了去除随机负样本,只用曝光未点击作为负样本让模型学习,最终效果很差,原因是模型失去了在全量商品池中选品的能力。

同类目/地域采样

第二类难负样本是同类目和地域的采样。为了防止模型过度依赖类目和地域特征,对于每一条正样本,我们会增加同类目/地域下随机采样的商品作为负样本。对于资产供应较为丰富的类目,可以认为用户对于其中大部分商品都是不感兴趣的,此时在类目内随机采样做负样本是符合常理的。对于地域属性极强的类目,如房产、土地,我们还会增加部分同省/同城市下的随机采样,能增加模型对于同地域下商品的判别能力。

具体的,我们统计了主要大资产类目下,同城/同省的行为占比,并以此为基础设定同地域下采样的比例。

0733982885894f8c5c5dd784834ae5cd.png

分类目地域行为占比统计

经过多轮采样比例调整实验后,加入此类负样本使得房产类目的离线hitrate相对提升了3%。

最终的样本中,每一个正样本,搭配了5个难负样本和25个简单负样本,其中难负样本的50%为曝光未点击,50%为同类目/地域下的采样。由于batch内会共享负样本,实际训练时,每个正样本对应的负样本数量为30*batch_size。

96823c38cbb06e538bdeca7c604c7c1d.png

正负样本构成

  线上效果

MIND上线首猜场景后,相比于对照组,曝光订阅UV转化率、曝光拍下UV转化率、曝光uv拍下价值等核心指标均有明显提升。

分析此次实验发现,用户历史行为类目和全新类目的拍下GMV均有较大涨幅,但是全新类目拍下宽度没有增长,说明模型对同一类目下商品的精准度更高,但是没有带来更多新类目的成交。

38802edc53354ac6b9e119fb8c089243.png

商品相似度索引范式

我们调研了PDN框架,PDN算法可以深度建模I2I的关系,同时对于用户历史行为商品也能做到细粒度的偏好建模。

  PDN算法概述

2ef85ffdd7f6da8ad04feb7f77ab5e8d.png

二度图(来源于文献3)

0ebb33ecede35df3f7a083711fe58dbf.png

PDN模型结构(来源于文献3)

PDN将推荐问题解耦为二度图,第一跳表示用户对于已交互商品的兴趣程度,第二跳表示交互商品和目标商品的相似度。特征层面,279ca6301cc7732187c5ebdac376d24d.png表示用户的用户信息,af9e9d8347ff83295bc3fd0843442856.png表示用户交互过的n个商品的商品信息,2168acfaceaeee7ddfcfced0b85d4bd8.png表示目标商品的商品信息,a184b66bdd3e45a8bd20cb8aa9f29c19.png表示用户对第k个交互商品的行为信息,dbe57a3c82312fc76f8c895f69e05ac5.png表示第k个交互商品和目标商品的相关性信息。模型包含Embedding Layer、Trigger Net (TrigNet)、Similarity Net (SimNet)、Direct & Bias Net 四个模块。

Embedding Layer将模型用到的特征转化为embedding。

Trigger Net建模第一跳,即用户对于已交互商品的兴趣程度。用户对商品j的喜爱程度的计算方式为:

443cbca6f76a936fd9bc0fba1477cc35.png

Similarity Net建模第二跳,即交互商品和目标商品的相似度。商品j和目标商品的相似度为:

02d5e43f67712e3f69816f5f1d1dd019.png

Direct & Bias Net分别建模位置偏差position bias和用户偏差user bias,使得Trigger Net和Sim Net学习出来的东西是和用户、position无关的。

最终,通过融合两跳的打分,得到每条路径下用户与目标商品相关性的评分。整合所有路径,就能得到用户对于商品的最终打分。具体计算方式为:

65849fea7e009fc3eca81fb0b5012aca.png

最后采取交叉墒计算损失。

  大资产适配
  • 特征

特征主要包含五个模块:用户静态特征、用户行为context特征、交互商品特征、交互商品和目标商品间统计特征、目标商品特征。

7938fa6fa6c4f5b81479a07aeb3dab05.png

模型特征总结

在特征优化的过程中,我们发现在增加用户与目标拍品的交叉特征(如对目标拍品所属类目的偏好分等)后,虽然模型的loss下降,能够预测得更好,但是I2I的效果却显著变弱了,原因是这类交叉特征给了模型一条不通过二度图就能预测的捷径,弱化了I2I间关系的学习的必要性。相对的,商品间的转移概率特征作为站内用户已有行为的先验概率统计,能够显著提升I2I的效果。

f0dfc7423b9d669180698b8711b0a90f.png

强交叉特征损害二跳路径学习

  • 负样本的构建

基于MIND的样本优化经验,我们继续采用了全局随机负采样、曝光未点击、同类目/地域采样三类负样本。结论与之前一致:加入每种难负样本后都能带来相应的增益,并且单纯只用难负样本的效果很差。我们在此基础上对采样方式做了一些升级。之前的采样方式为均匀采样,对于热门和长尾商品的采样概率是相同的,导致负样本中长尾商品的数量远大于正样本,使其打分偏低。我们将采样方式改为根据用户行为频率采样,以缓解马太效应的影响。

  线上serving

由于PDN的作者团队在线上使用时发现trigger net筛选交互商品的收益较小,最终只用了similarity net生成了索引表,也取得了很好的效果。此次我们只用了相似商品索引表的方式上线。

因为商品池很大,我们无法对所有商品对进行相似度打分,我们通过两路生成候选相似商品。

第一路根据已有的I2I相似分计算规则,通过类目、地域、价格相似分,尽可能多的把潜在相似商品囊括进来。第二路根据MIND产出的商品向量,在向量维度召回相似的商品。融合两路后使用similarity net产出商品间的相似分。

线上serving时,实时取到用户最近的50个交互商品作为trigger,通过索引表拿到相似拍品集合后,返回相似分最高的N个商品。

  线上效果

实验组中,我们用PDN产出的索引表替换了原有的I2I索引表,保持其他逻辑不变,验证效果。

在首猜资产推荐场景上线后,相比于对照组,曝光订阅UV转化率,曝光交保UV转化率,曝光拍下UV转化率,曝光UV拍下价值等核心指标均有明显提升。

通过对实验数据的分析,我们发现此次实验GMV的增长主要源于突破了原有的相似商品对于价格的限制,模型发现起拍价相差较大的品也会有很强的相关性,对于这部分高价相似拍品的召回是提升的主要因素。用户历史行为类目由于I2I准度提升,带来的成交增长明显,而全新类目带来的成交稍降,接下来需要对用户的新兴趣进行持续探索。

c313f1779b48d38254a27c7a191c864c.jpeg

总结和反思

在过去一年,我们通过引入集团内的优秀的召回工作,做了更加贴合大资产场景的优化,取得了不错的效果。增长主要源于对于用户已有兴趣的深度挖掘。通过分析实验数据,我们发现活跃用户的曝光类目数量有所减少,信息茧房正在形成。而在未来一年,活跃用户的发现性召回对于资产推荐场景的价值是一个急需探索的方向,我们期望通过曝光更多相关类目,提升用户留存和下拉深度,最终带来GMV的增长。同时,目前新用户的召回比较单一,如何更好留住新用户也是重要的课题。

3066eea6934684346f8bdfeb452da845.jpeg

参考文献

  1. Multi-interest Network with Dynamic Routing for Recommendation at Tmall: 

    https://arxiv.org/pdf/1904.08030

  2. https://zhuanlan.zhihu.com/p/467495253

  3. Path-based Deep Network for Candidate Item Matching in Recommenders: 

    https://arxiv.org/abs/2105.08246

  4. Large Scale Product Graph Construction for Recommendation in E-commerce: 

    https://arxiv.org/pdf/2010.05525

8f4e31876d16c3a134536b5f2775da1c.jpeg

团队介绍

我们是淘天集团-阿里拍卖算法团队,专注于特色资产(房产/土地/股权/债权等)的商品理解和人货匹配。我们基于集团庞大的数据资源和海量拍卖行为数据,挖掘用户的全域行为,借助大模型融合多源异构数据进行资产搜索、推荐、广告,以及潜客挖掘、资产拍下率预估、资产询价、资产商品理解等,帮助业务拓展优质供给、提升GMV和营收。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1844911.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

信息打点web篇----web后端源码专项收集

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 专栏描述:因为第一遍过信息收集的时候,没怎么把收集做回事 导致后来在实战中,遭遇资产获取少,可渗透点少的痛苦,如今决定 从头来过,全面全方位…

RK3568平台(音频篇)音频ALSA框架

一.ALSA框架简介 ALSA表示先进linux声音架构(Advanced Linux Sound Archiecture),它由一系列的内核驱动、应用程序编程接口(API)以及支持linux下声音的应用程序组成、 ALSA项目发起的原有是linux下的声卡驱动&#x…

Ubuntu server 24 (Linux) 安装lua + 卸载软件

1 apt 安装 # sudo apt update #查看可安装的lua版本 sudo apt-get install luaversion # sudo apt-get install lua5.3 #查看版本 testiZbp1g7fmjea77vsqc5hmmZ:/data/soft$ lua -v Lua 5.3.6 Copyright (C) 1994-2020 Lua.org, PUC-Rio2 Ubuntu卸载软件 #查找lua已安装…

3D Web轻量化引擎HOOPS Commuicator是如何创建AEC查看器的?

在当今数字化时代,建筑、工程和施工(AEC)行业正经历着一场技术革命。HOOPS Communicator,一款基于HOOPS Web平台的3D Web轻量化引擎,正是这场革命的先锋之一。本文将探讨HOOPS Communicator是如何创建AEC查看器的&…

Harbor 源码编译arm版本镜像

1. 先准备一个国外的arm服务器,(使用国内的也行,只是有时候下载依赖会断,需要科学上网) 2. git clone harbor的源码包,切换到要编译的分支 3. 修改harbor/Makefile Makefile里面的这些字段设置为true&…

腾讯云API安全保障措施?有哪些调用限制?

腾讯云API的调用效率如何优化?怎么使用API接口发信? 腾讯云API作为腾讯云提供的核心服务之一,广泛应用于各行各业。然而,随着API应用的普及,API安全问题也日益突出。AokSend将详细探讨腾讯云API的安全保障措施&#x…

Linux计划任务与日志

计划任务 主要用于完成一些周期性任务及定时任务,Windows中也有该功能: 单次调度执行 yum install -y at安装at工具,systemctl start atd启动服务,使用方法为at 选项 时间 执行内容时间可以自由设置,开启的栏目中输…

CSS+JS:通过修改filter实现图片颜色随时间渐变

原理&#xff1a;修改filter的hue-rotate属性 效果&#xff1a; 代码: <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8" /><meta name"viewport" content"widthdevice-width, initial-scale1.0&q…

AGI的多模态融合

在人工智能的宏伟蓝图中&#xff0c;人工通用智能&#xff08;AGI&#xff09;代表着一个集大成者&#xff0c;一个能够理解、学习、适应并执行任何智能任务的系统。随着我们对AGI的探索愈发深入&#xff0c;尤其是在视觉、语言和其他模态的融合上&#xff0c;关于AGI的讨论愈发…

redis-实战篇(8)达人探店

8、达人探店 8.1、达人探店-发布探店笔记 发布探店笔记 探店笔记类似点评网站的评价&#xff0c;往往是图文结合。对应的表有两个&#xff1a; tb_blog&#xff1a;探店笔记表&#xff0c;包含笔记中的标题、文字、图片等 tb_blog_comments&#xff1a;其他用户对探店笔记的…

初学51单片机之PWM实例呼吸灯以及遇到的问题(已解答)

PWM全名Pulse Width Modulation中文称呼脉冲宽度调制 如图 这是一个周期10ms、频率是100HZ的波形&#xff0c;但是每个周期内&#xff0c;高低电平宽度各不相同&#xff0c;这就是PWM的本质。 占空比是指高电平占整个周期的比列,上图第一个波形的占空比是40%&#xff0c;第二个…

内容安全复习 2 - 网络信息内容的获取与表示

文章目录 信息内容的获取网络信息内容的类型网络媒体信息获取方法 信息内容的表示视觉信息视觉特征表达文本特征表达音频特征表达 信息内容的获取 网络信息内容的类型 网络媒体信息 传统意义上的互联网网站公开发布信息&#xff0c;网络用户通常可以基于网络浏览器获得。网络…

【Python机器学习实战】 | 基于线性回归以及支持向量机对汽车MPG与自重进行回归预测

&#x1f3a9; 欢迎来到技术探索的奇幻世界&#x1f468;‍&#x1f4bb; &#x1f4dc; 个人主页&#xff1a;一伦明悦-CSDN博客 ✍&#x1f3fb; 作者简介&#xff1a; C软件开发、Python机器学习爱好者 &#x1f5e3;️ 互动与支持&#xff1a;&#x1f4ac;评论 &…

excel如何实现按班级统计?

这个表有1-20个班(上表班级排名可以忽略不计)&#xff0c;需要计算每个班级的总分排名的各段人数&#xff0c;分段要求是0-60名&#xff0c;61-200名&#xff0c;201-600名。最后结果如下。 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; 如果年级有600…

【React】Axios请求头注入token

业务背景: Token作为用户的数据标识&#xff0c;在接口层面起到了接口权限控制的作用&#xff0c;也就是说后端有很多接口都需要通过查看当前请求头信息中是否含有token数据&#xff0c;来决定是否正常返回数据 // 添加请求拦截器 request.interceptors.request.use(config …

.NET C# 使用GDAL读取FileGDB要素类

.NET C# 使用GDAL读取FileGDB要素类 目录 .NET C# 使用GDAL读取FileGDB要素类1 环境2 Nuget3 Code 1 环境 VisualStudio2022 .NET6 GDAL 3.7.5 2 Nuget 3 Code using OSGeo.OGR; using OSGeo.OSR;namespace TestGDAL {internal class Program{static void Main(string[] a…

STM32单片机-PWR电源控制和WDG看门狗

STM32单片机-PWR电源控制和WDG看门狗 一、PWR简介二、低功耗模式三、修改主频&睡眠模式&停机模式&待机模式3.1 修改主频3.2 睡眠模式3.3 停机模式3.4 待机模式 四、WDG简介4.1 独立看门狗原理4.2 窗口看门狗原理4.3 IWDG和WWDG对比 五、独立看门狗&窗口看门狗5…

如何确保远程桌面安全

在数字化快速发展的今天&#xff0c;远程桌面技术广泛应用于企业办公、技术支持以及个人使用等领域。然而&#xff0c;随之而来的安全问题也不容忽视。白名单技术作为一种重要的安全防护手段&#xff0c;在确保远程桌面安全方面发挥着至关重要的作用。 一、白名单技术概述 白名…

ArcGIS批量设置多图层的三调地类符号

​​ 点击下方全系列课程学习 点击学习—>ArcGIS全系列实战视频教程——9个单一课程组合系列直播回放 01需求说明 这次我们要实现的是将多个地类图层批量符号化。比如将多个三调地类图斑批量符号化。 ​ 有什么好方法呢 &#xff1f; 我们可以将一个图层利用三调符号库进行…

一作分享|eDNA揭示水库梯级影响下乌江流域鱼类多样性的空间分布

在梯级开发背景下&#xff0c;乌江干流鱼类群落结构已发生显著改变&#xff0c;凌恩客户重庆师范大学生命科学学院通过eDNA宏条码技术对对乌江干流全面系统的鱼类资源现状进行了调查。本期邀请一作程如丽老师对文章进行了解读分享。 文章信息 标题&#xff1a;eDNA reveals spa…