CVR预估模型ESMM

news2025/1/13 10:05:32

1. 概述

一般在对CVR建模的过程中,正样本选择的是在点击后有转化的样本作为正样本,负样本则是在点击后没有转化的样本作为负样本。然而,这样的建模方式存在一定的问题:

  • Sample Selection Bias(SSB)问题,即样本选择有偏。在training和inference阶段面对的样本空间不一致,在training阶段,选择的样本都是点击后的样本,而在inference阶段,面对的是所有的可能曝光的样本;
  • Data Sparsity (DS)问题,即样本稀疏。点击的样本只是占了曝光样本的很小的一部分,如下图所示:

在这里插入图片描述

为了解决以上的这些问题,阿里在2018年提出了ESMM(Entire space multi-task model)[1]模型,从名称来看,CVR的建模也是在全空间上的,同时这是一个基于多任务建模的模型。

2. 算法原理

2.1. CVR建模

一条样本的整个过程包括了“曝光->点击->转化”,这是一个顺序的过程。假设 x \mathbf{x} x表示的是一条曝光样本, y ∈ { 0 , 1 } y\in \left\{ 0,1\right\} y{0,1}表示的是该曝光样本是否被点击, z ∈ { 0 , 1 } z\in \left\{ 0,1\right\} z{0,1}表示的是该样本在曝光点击后是否有转化,对CVR建模是预估转化率: p C V R = p ( z = 1 ∣ y = 1 , x ) pCVR=p\left ( z=1\mid y=1,\mathbf{x} \right ) pCVR=p(z=1y=1,x),与之相关的两个概率是点击率(CTR): p C T R = p ( y = 1 ∣ x ) pCTR=p\left ( y=1\mid \mathbf{x} \right ) pCTR=p(y=1x)和点击转化率(CTCVR): p C T C V R = p ( y = 1 , z = 1 ∣ x ) pCTCVR=p\left ( y=1,z=1\mid \mathbf{x} \right ) pCTCVR=p(y=1,z=1x),这三者之间的关系为:

p ( y = 1 , z = 1 ∣ x ) ⏟ = p ( y = 1 ∣ x ) ⏟ × p ( z = 1 ∣ y = 1 , x ) ⏟ p C T C V R p C T R p C V R \begin{matrix} \underbrace{p\left ( y=1,z=1\mid \mathbf{x} \right )} & = & \underbrace{p\left ( y=1\mid \mathbf{x} \right )} & \times & \underbrace{p\left ( z=1\mid y=1,\mathbf{x} \right )} \\ pCTCVR & & pCTR & & pCVR\\ \end{matrix} p(y=1,z=1x)pCTCVR= p(y=1x)pCTR× p(z=1y=1,x)pCVR

因此,在单独对CVR建模的过程中,需要选择的样本空间是在所有点击样本中,即上述过程的“点击->转化”阶段,如果存在转化,则在CVR中为正样本 z = 1 z=1 z=1,否则为负样本 z = 0 z=0 z=0。反观CTR建模的过程,选择的样本空间在上述过程的“曝光->点击”阶段。
而在inference阶段,所需面对的样本是所有可能曝光的样本。基于以上的公式,对于CTCVR的建模,选择的样本空间则是上述过程的融合,即“曝光->转化”。对上述公式进行简单的变换,得到如下的公式:

p ( z = 1 ∣ y = 1 , x ) = p ( y = 1 , z = 1 ∣ x ) p ( y = 1 ∣ x ) p\left ( z=1\mid y=1,\mathbf{x} \right )=\frac{p\left ( y=1,z=1\mid \mathbf{x} \right )}{p\left ( y=1\mid \mathbf{x} \right )} p(z=1y=1,x)=p(y=1x)p(y=1,z=1x)

这样就能直接利用“曝光”样本空间中的样本直接对CVR建模,不过在对CVR建模的过程中需要同时对CTR以及CTCVR建模。

2.2. ESMM模型结构

基于以上的分析,在ESMM模型的建模过程中引入两个辅助任务,即:CTR建模和CTCVR建模,ESMM的网络结构如下图所示:

在这里插入图片描述

在ESMM模型结构中,有两个特点:

第一,在ESMM结构中包含了两个塔,如上图所示,左侧是一个CVR任务的塔,右侧是一个CTR任务的塔,两个塔可以构建两个任务,分别为pCTR和pCTCVR,这样样本分别是从“曝光->点击”和“曝光->转化”,解决了样本空间的问题,通过模型中参数的学习,可以把CVR塔中的参数学习到,这样对于CVR塔的样本空间即为“曝光->转化”。

第二,在两个塔的底层Embedding层是参数共享的,这样能充分利用CTR任务重的样本,缓解传统的CVR建模过程中面临的数据稀疏问题。

2.3. 损失函数

因为在ESMM中存在两个学习任务,分别为CTR和CTCVR,则最终的损失函数为:

L ( θ c v r , θ c t r ) = ∑ i = 1 N l ( y i , f ( x i ; θ c t r ) ) + ∑ i = 1 N l ( y i & z i , f ( x i ; θ c t r ) × f ( x i ; θ c v r ) ) \begin{align*} L\left ( \theta _{cvr},\theta _{ctr} \right ) &= \sum_{i=1}^{N}l\left ( y_i,f\left ( \mathbf{x}_i;\theta _{ctr} \right ) \right )\\ &+ \sum_{i=1}^{N}l\left ( y_i\&z_i,f\left ( \mathbf{x}_i;\theta _{ctr} \right )\times f\left ( \mathbf{x}_i;\theta _{cvr} \right ) \right ) \end{align*} L(θcvr,θctr)=i=1Nl(yi,f(xi;θctr))+i=1Nl(yi&zi,f(xi;θctr)×f(xi;θcvr))

其中, θ c v r \theta _{cvr} θcvr表示的是CVR塔中的参数, θ c t r \theta _{ctr} θctr表示的是CTR塔中的参数, y i y_i yi表示的是样本 x i \mathbf{x}_i xi在CTR任务上的label, z i z_i zi表示的是样本 x i \mathbf{x}_i xi在CVR任务上的label, f ( x i ; θ c t r ) f\left ( \mathbf{x}_i;\theta _{ctr} \right ) f(xi;θctr)表示的样本 x i \mathbf{x}_i xi在CTR塔中的结果, f ( x i ; θ c v r ) f\left ( \mathbf{x}_i;\theta _{cvr} \right ) f(xi;θcvr)表示的是样本 x i \mathbf{x}_i xi在CVR塔中的结果。

2.4. 代码结构

在参考[2]中有具体的ESMM的实现,以该代码为例,ESMM结构的代码如下:

dnn_input = combined_dnn_input(sparse_embedding_list, dense_value_list) # 特征处理

# DNN函数针对的上述的MLP网络结构
ctr_output = DNN(tower_dnn_hidden_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed)(
        dnn_input)
cvr_output = DNN(tower_dnn_hidden_units, dnn_activation, l2_reg_dnn, dnn_dropout, dnn_use_bn, seed=seed)(
        dnn_input)

# 由MLP最后一层到最后的输出
ctr_logit = Dense(1, use_bias=False)(ctr_output)
cvr_logit = Dense(1, use_bias=False)(cvr_output)

# 计算最终的sigmoid结果
ctr_pred = PredictionLayer('binary', name=task_names[0])(ctr_logit)
cvr_pred = PredictionLayer('binary')(cvr_logit)

# 计算ctcvr的值
ctcvr_pred = Multiply(name=task_names[1])([ctr_pred, cvr_pred])  # CTCVR = CTR * CVR

model = Model(inputs=inputs_list, outputs=[ctr_pred, ctcvr_pred])

3. 总结

在ESMM网络中,通过引入两个辅助任务CTR和CTCVR,由于这两个任务的输入空间都变成了“曝光”,从而解决了传统CVR建模中在training和inference两个过程中输入空间不一致的问题,另一个方面,因为“曝光->点击”阶段的样本量要比“点击->转化”阶段的样本量要大,鉴于Embedding层参数的共享,因此,能够充分学习到Embedding层的参数。

参考文献

[1] Ma X, Zhao L, Huang G, et al. Entire space multi-task model: An effective approach for estimating post-click conversion rate[C]//The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 2018: 1137-1140.

[2] DeepCTR

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/159414.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ArcGIS基础实验操作100例--实验90创建点、线、面要素混合的Voronoi

本实验专栏参考自汤国安教授《地理信息系统基础实验操作100例》一书 实验平台:ArcGIS 10.6 实验数据:请访问实验1(传送门) 空间分析篇--实验90 创建点、线、面要素混合的Voronoi 目录 一、实验背景 二、实验数据 三、实验步骤 …

回收租赁商城系统功能拆解08讲-售后退款

回收租赁系统适用于物品回收、物品租赁、二手买卖交易等三大场景。 可以快速帮助企业搭建类似闲鱼回收/爱回收/爱租机/人人租等回收租赁商城。 回收租赁系统支持智能评估回收价格,后台调整最终回收价,用户同意回收后系统即刻放款,用户微信零…

使用nginx和ffmpeg搭建HLS流媒体服务器

使用nginx和ffmpeg搭建HLS流媒体服务器 文章目录使用nginx和ffmpeg搭建HLS流媒体服务器1 安装ffmpeg2 安装nginx3 nginx有关HLS参数配置ffmpeg进行HLS切片VLC播放验证最近研究HLS流媒体协议,需要临时搭建HLS服务器,这里记录下搭建的过程(操作系统&#x…

计算机制图设计教程-以全国降水处理为例

前言本博客主要是通过一幅完整数字地图的制作过程,巩固计算机制图内容,报告中涉及到了地图数字化、空间数据的存储与管理、空间数据库的建立、符号化、制图综合技术和空间分析等内容。从而锻炼自身的动手实践能力,了解一幅地图制作设计的完整…

2022年江西省首届职业院校教师数字经济职业技能比赛“信息安全”赛项竞赛任务书

2022年江西省首届职业院校教师数字经济职业技能比赛“信息安全”赛项竞赛任务书 竞赛阶段 任务阶段 竞赛任务 竞赛时间 分值 A模块 A-1 登录安全加固 90分钟 200分 A-2 数据库加固 A-3 服务加固 A-4 防火墙策略 B模块 B-1 Windows操作系统渗透测试 400分 B…

云间玉兔,自出机抒,从零开始制作Web插件网页特效小兔子组件(小挂件widget),基于原生CSS/NPM

著意登楼瞻玉兔,何人张幕遮银阙?又到了一年一度的网页小挂件环节,以往我们都是集成别人开源的组件,但所谓熟读唐诗三百首,不会做诗也会吟,熟读了别人的东西,做几首打油诗也是可以的,…

数据降维-MDS 算法

数据降维-MDS 算法 文章目录数据降维-MDS 算法算法概述算法步骤算法证明代码参考算法概述 MDS的初衷是将图结构中的距离在空间的一种表示。 例如,已知几个城市的距离,但是不知道城市的坐标,那么MDS就能通过距离矩阵转换成空间坐标向量来近似…

mock的基本使用

mock的基本使用官网文档mockjs是用来模拟产生一些虚拟的数据,可以让前端在后端接口还没有开发出来时独立开发,mockjs可以拦截ajax请求,返回设定好的数据。注意:mock(模拟数据)数据需要使用到mockjs模块&…

如何用更好的创意引发卖家和消费者的共鸣?

我们知道,近年来国家的政策越来越向创新型的企业发展倾斜,因此各行各业都响应政策,做创新型高质量发展,跨境电商作为疫情下应运而生的产物,其本身就带有创新型发展的概念,同时,面对着2022年许多…

Java程序的运行过程(执行流程)分析

万事知其然,要知其所以然,所以本节带大家来详细了解一下 Java 程序的执行过程。从《使用记事本编写运行Java程序》一节的案例可以看出,Java 程序的运行必须经过编写、编译和运行 3 个步骤。编写:是指在 Java 开发环境中进行程序代…

回溯法--图的m着色问题

问题描述给定无向连通图和m种不同的颜色,用这些颜色为图G的各个顶点着色,每个顶点有一种颜色是否有一种着色方法?使得图G中每条边的两个顶点有不同的颜色这个问题就是图的m可着色判定问题色数:如果有一个图最少需要m种颜色才能使得…

国医大师体验照“镜”测“三高”,深兰科技AI产品秒出健康报告

“请把脸缓慢往左转。” “请将脸回正,请将脸缓慢往右转。” “请放松心情,期待3D面部的生成结果。” 跟随提示音,刚刚被聘任为深兰科技科学院专家委员会医学专家的国医大师严世芸教授饶有兴致地体验着深兰科技AI生理健康检测仪-扁鹊。等待一…

【位图】面对海量数据,如何压缩空间?定位数据?

目录 一、腾讯面试题 二、解决办法——位图 2.1、那么什么是位图? 三、位图的模拟实现 3.1、位图的构造 3.2、存放数据 3.3、检测数据是否存在 3.4、设置某个数据的对应位为0 四、位图模拟代码(完整) 一、腾讯面试题 给40亿个不重复…

Authing 入选 2022 中国产业数字化领军企业

1 月 10 日,产业互联网第一媒体产业家联合数字化报、IT 桔子正式发布了【中国产业数字化领军企业榜单】,评选出 16 个互联网赛道中的领军企业。作为身份认证与访问管理领跑者,Authing 凭借在 SaaS 领域的技术创新与产品优势,成功入…

6.4、域名系统 DNS

1、DNS的作用 如下所示,因特网中的某台主机要访问某台 Web 服务器 只需在用户主机中运行某个游览器软件,在其地址栏中输入要访问的 Web 服务器的域名,并按下回车键即可访问到 Web 服务器所提供的内容 我们在用户主机中使用 ping 命令测试 We…

【小练】day1

day1 选择题 1. 以下for循环的执行次数是&#xff08;&#xff09;。 for(x0,y0;(y123)&&(x<4););A 是无限循环 B 循环次数不定 C 4 D 3 本题主要考察for for(初始化部分&#xff1b;条件判断部分&#xff1b;调整部分) 初始化部分只执行一次。 &&&a…

大数据分析案例-基于多元线性回归算法构建广告投放收益模型

&#x1f935;‍♂️ 个人主页&#xff1a;艾派森的个人主页 ✍&#x1f3fb;作者简介&#xff1a;Python学习者 &#x1f40b; 希望大家多多支持&#xff0c;我们一起进步&#xff01;&#x1f604; 如果文章对你有帮助的话&#xff0c; 欢迎评论 &#x1f4ac;点赞&#x1f4…

走好这三步,不再掉进云上安全的沟里!

序言一直以来&#xff0c;公有云安全是横亘在广大用户面前的一道鸿沟。云安全&#xff08;Cloud Security&#xff09;是指用于控制云计算的安全性、合规性和其他使用风险的过程、机制和服务。公有云提供商们都强调安全是其最高优先级工作&#xff0c;动辄就发布上百页的云上安…

谁还没个技术呢~PYTHON制作观看软件

前言 大家早好、午好、晚好吖 ❤ ~ 以前没钱时&#xff0c;我是这样嘚&#xff1a; 朋友说好一生一起走&#xff0c;账号先借我来耍耍 现在没钱时&#xff0c;我是这样嘚&#xff1a; 涨价就涨价&#xff0c;怎么还搞搞限制账号登录这一出呢~ 这年头~谁还没点技术不是,看我…

复盘一下slam中常用的几种点云类型

使用livox雷达常涉及至少3种点云格式&#xff0c;一个是livox官方定义的custom格式&#xff0c;另外两个就是激光、视觉常用的pcl类型和ros类型。之前总结过Livox雷达驱动程序发布点云格式CustomMsg和pcl::PointXYZI、pcl::PointXYZINormal之间的关系&#xff0c;现在再来复盘一…