Item冷启优化

news2024/10/3 0:28:43

Item冷启动的目标:

1.精准推荐。

2.激励发布。

3.挖掘高潜。

Item冷启动优化措施:

1.优化全链路(召回和排序)

2.流量调控(新老物品的流量分配)

评价指标:

    • 作者侧: 发布渗透率(发布uv/日活uv)、人均发布率。
    • 用户侧:
      item自身:新笔记点击率、交互率。(一定时间内,区分高、低曝光看ctr cvr)
      大盘的:消费时长、日活、月活。(不能过度损害大盘消费指标)
    • 内容侧(选择使用):

高热笔记占比(统计前30天内获得1w曝光的item占比)

适用召回:

    • 双塔召回
      ID Embedding优化方法一:item_id向量使用defaultEmbedding
      ID Embedding优化方法二:利用多模态(CNN+Bert)把item表征成向量,取多个高曝光的item的向量meanpooling作为冷启item的Embedding。
      线上应用:增加多个召回池(1小时新笔记、6小时新笔记、24小时新笔记、30天老笔记)向量相同,合并多个召回结果。
    • 类目、关键词召回

使用用户画像的关键词进行召回。维护类目_id 或者 关键词 -> item_i的时间倒排,召回合并多个列表。(弱个性化、但是强时间)

物料自身的基本属性,关键词提取召回(比如物料中包含的公司名,人名,地名等)

    • 聚类召回
      • 思想:根据用户行为last_n ,推荐内容相似的笔记
      • 离线:训练基于图文(Bert+CNN+FC)神经网络模型,(利用类目和点击数据生成pair-wise样本)。
      • 线下训练:多模态神经网络把图文内容映射到向量。
      • 线上服务:last n->n个特征向量->n个Cluster->n*m个新笔记。
      • 实现细节:使用(CNN+Bert)对item的图文进行表征得到向量,K-means聚类(余弦)得到1000个cluster。新item发布后想转成向量,然后计算最相似的Cluster,然后加到当前cluster的索引中【Cluster->item_id时间倒序】。
    • Look-Alike召回
      • 线下训练:用item交互过的user的向量mean-pooling得到item的向量,存到milvus。
      • 线上服务:先得到user的向量,然后从milvus取TopK个item

实现细节:Look-Alike其实就是一种特殊的ucf,并且对于item冷启是比较有利的,因为新item的emb是学习不充分的,但是交互的user不一定是新用户,他的emb可能是学习充分的,这样利于item冷启

流量调控:

      • 强插
      • Boost:排序分数做提权
        在粗排、精排处理,但是固定权重很难调到比较合适的权重。
      • 静态保量:通过提权保量

为了:保证24小时内获得100次曝光。

      • 动态保量:通过提权保量

根据目标时间、目标曝光、发布时间、已有曝光,决定权重。

需要调整调权。

      • 差异化保量:24小时内高质量保300 低质量保100。

通过内容质量、作者质量等决定保量目标。

      • 退场策略,设置曝光和点击阈值,过滤低质物料,增加优质资源的曝光

线上环境(新召回、精排变动、重排规则)的变化都有可能导致保量失败。

冷启AB:

其他:

召回只分发最近30天内的。

参考资料:ShusenWang的个人空间-ShusenWang个人主页-哔哩哔哩视频

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/484452.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【基于Ubuntu18.04+Melodic的realsense D435安装】

【基于Ubuntu18.04Melodic的realsense D435安装】 1. RealSense SDK安装1.1 克隆SDK1. 2 安装相关依赖1.3 安装权限脚本1. 4 进行编译与安装1.5 测试安装是否成功 2. D435i 安装ROS接口2.1 方法一realsense—ros源码2.2 方法二安装相机库 3. 总结 1. RealSense SDK安装 系统硬…

C++:分治算法之选择问题的选择第k小元素问题

目录 3.2.6 选择问题 分析过程: 解法一: 算法代码: 【单组数据】 【多组数据】 运行结果: 解法二 代码: 运行结果: 解法三: 3.2.6 选择问题 ¢ 对于给定的 n 个元素的数组 a[0 …

DAY 53 Haproxy负载均衡集群

常见的Web集群调度器 目前常见的Web集群调度器分为软件和硬件: 软件通常使用开源的LVS、Haproxy、 Nginx LVS性能最好,但是搭建相对复杂;Nginx 的upstream模块支持群集功能,但是对群集节点健康检查功能不强,高并发性能…

第一章 Linux是什么

Linux是一套操作系统,如同下图所示,Linux就是核心与系统调用接口那两层。至于应用程序不算Linux。 1.1 Linux当前应用的角色 由于Linux kernel实在是非常的小巧精致,可以在很多强调省电以及较低硬件资源的环境下面执行; 此外&…

【Elasticsearch】NLP简单应用

文章目录 NLP简介ES中的自然语言处理(NLP)NLP演示将opennlp插件放在ESplugins路径中下载NER模型配置opennlp重启ES、验证 NLP简介 NLP代表自然语言处理,是计算机科学和人工智能领域的一个分支。它涉及使用计算机来处理、分析和生成自然语言,例如英语、中…

企业对网络安全的重视度开始降低

近日,英国科学技术部发布了《2023年企业网络安全合规调查报告》( Cyber Security Breaches Survey ),对英国所有企业和社会性组织目前的网络威胁态势和合规建设进行研究,同时也就如何提升新一代网络应用的合规性给出专…

02-管理员登录与维护 尚筹网

一、管理员登陆 需要做的: 对存入数据库的密码进行MD5加密在登录界面登录失败时的处理抽取后台页面的公共部分检查登录状态,防止未登录时访问受保护资源的情况 具体操作如下: 1)、MD5加密 ​ 使用到的CrowdConstant类中的一些…

人的全面发展评价指标体系—基于相关-主成分分析构建

本文先从经济、社会、生活质量和人口素质四个方面海选了众多人的全面发展评价指标,然后根据可观测性原则剔除无法获得的指标进行了初步筛选,再利用相关性分析删除相关系数大的指标,以及通过主成分分析删除因子负载小的指标,完成了…

CCD视觉检测设备如何选择光源

CCD视觉检测设备的机器视觉系统对光源的要求很高,光源是决定图像质量的一个重要因素。那么,我们就来看看CCD图像加网设备和机器视觉系统光源的选择点——CCD图像加网设备。 CCD视觉检测设备机器视觉系统光源选择要点: 1. 对比度:…

最新VUE面试题

前言 本文以前端面试官的角度出发,对 Vue 框架中一些重要的特性、框架的原理以问题的形式进行整理汇总,意在帮助作者及读者自测下 Vue 掌握的程度。 本文章节结构以从易到难进行组织,建议读者按章节顺序进行阅读,当然大佬级别的…

P1915 [NOI2010] 成长快乐

此题为世纪难题 题目提供者 洛谷 难度 NOI/NOI/CTSC 输入输出样例 输入 #1 5 1 6 0 0 1 5 2 2 0 0 输出 #1 1 5 5 2 2 1 ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~此题非常难,小白就不用想着独自完成了 题解: #…

如何在 Windows 11 启用 Hyper-V

准备在本机玩一下k8s,需要先启用 Hyper-V,谁知道这一打开,没有 Hyper-V选项: 1、查看功能截图: 2、以下文件保存记事本,然后重命名为*.bat pushd "%~dp0" dir /b %SystemRoot%\servicing\Packa…

常用的MySQL 优化方法

数据库优化一方面是找出系统的瓶颈,提高MySQL数据库的整体性能,而另一方面需要合理的结构设计和参数调整,以提高用户的相应速度,同时还要尽可能的节约系统资源,以便让系统提供更大的负荷。   本文我们来谈谈项目中常用…

maven中的 type ,scope的作用

dependency为什么会有type为pom,默认的值是什么? dependency中type默认为jar即引入一个特定的jar包。那么为什么还会有type为pom呢?当我们需要引入很多jar包的时候会导致pom.xml过大,我们可以想到的一种解决方…

Linux指令-2

文章目录 一、 m a n man man [选项] 命令1、功能:2、常用选项:3、运用实例 二、 c p cp cp [选项] 源文件/目录 目标文件/目录1、功能:2、常用选项:3、运用实例 三、 m v mv mv [选项] 源文件/目录 目标文件/目录1、功能…

PySide6/PyQT多线程之 编程入门指南:基础概念和最佳实践

前言 本篇文章介绍 PySide6/PyQT多线程编程的基本概念,用到的知识点,以及PySide6/PyQT多线程的基本使用。 看多线程介绍,就看 知识点📖📖 ; 看多线程代码,就看 实现 。 知识点📖&…

《手腕光电容积图智能手表对房颤检测的录制长度和其他心律失常的影响》阅读笔记

目录 一、论文摘要 二、论文十问 三、论文亮点与不足之处 四、与其他研究的比较 五、实际应用与影响 六、个人思考与启示 参考文献 一、论文摘要 本研究旨在评估手腕光电容积图(PPG)的定量分析是否能检测到房颤(AF)。使用心…

项目管理-计算专题(挣值分析)

挣值分析法 是对项目进行跟踪与预测的方法;项目有良好的任务细分以及合理的日程安排;不牵涉到复杂的数学计算;在软件项目管理中,一般以一周为单位定期进行。 项目案例 有一个砌墙项目,需要完成一堵长度为100米的围墙…

第二十四章 纹理贴图

通常情况下,3D网格模型只能展示游戏对象的几何形状,而表面的细节则纹理贴图提供。纹理贴图通过UV坐标“贴附”在模型的表面。当然,这个过程不需要我们在Unity中完成,而是在建模软件中完成的。通常情况下,我们通过3ds m…

基于matlab使用合成雷达和无线通信信号训练的语义分割神经网络执行频谱检测

一、前言 此示例展示了如何使用使用合成雷达和无线通信信号训练的语义分割神经网络执行频谱检测。经过训练的神经网络可以识别出现在相同接收频谱中的雷达和无线通信信号。此外,网络可以识别接收信号的占用带宽。 二、介绍 由于对更高速度和更大覆盖范围的需求不断增…