多场景建模:阿里多场景多任务元学习方法M2M

news2025/1/22 15:47:20

multi-scenario multi-task meta learning approach (M2M)

背景

广告领域大部分是针对用户建模的,像点击率预估,很少有针对广告主需求建模(广告消耗预估、活跃率/流失率预估、广告曝光量预估),广告的类型较多(搜索广告、展示广告、实时流广告),广告主在不同场景类型上面的行为也不同,这篇文章就是针对广告主建模的。
在这里插入图片描述

针对广告主建模的难点:
  1. 很难建模数据量较小或者新的场景,数据样本太少,无法学习充分
  2. 场景之间的相互关系比较复杂,较难建模,即便是相同任务,在不同场景也表现不同,如下图,不同任务在不同场景对的皮尔逊相关性。
    在这里插入图片描述
解决方案:

引入了meta unit,融合丰富的场景知识来学习显示的场景之间的相关性,这样可以很方便的扩展到新场景。
提出了meta attention,捕获不同任务在不同场景之间的相关性
提出了meta tower,用于增强捕获特定场景特征表示的能力
在这里插入图片描述
点评:核心是通过场景表示学到的信息作为专家网络及任务学习的动态权重,在任务学习过程中加入场景的个性化。

方法详情

M2M包括3个主要的阶段

第一阶段

Backbone Network,主干网络获得特征、任务、场景的embedding表示,这部分和没有创新,一般做法。
在这里插入图片描述

step1:Shared Bottom Embedding
对广告主行为序列、表现序列离线化,用embedding层做成序列embedding,然后加上位置embedding,拼接起来。
在这里插入图片描述
特征属性特征: S = { s 1 , s 2 , . . , s l } S=\{s_1,s_2,..,s_l\} S={s1,s2,..,sl}
广告主画像特征: A = { a 1 , a 2 , . . . , a m } A=\{a_1,a_2,...,a_m\} A={a1,a2,...,am}
行为序列特征: X b = { X b t } t = 1 T X_b = \{X_b^t\}_{t=1}^T Xb={Xbt}t=1T
指标特征: X p = { X p T } t = 1 T X_p=\{X_p^T\}_{t=1}^T Xp={XpT}t=1T

step2: Transformer Layer 学习序列更深层次的表达
M H ( X ) = c o n c a t ( h e a d 1 , h e a d 2 , . . . , h e a d h ) W H MH(X)=concat(head_1,head_2,...,head_h)W^H MH(X)=concat(head1,head2,...,headh)WH
h e a d i = A t t e n t i o n ( X W i Q , X W i K , X W i V ) head_i=Attention(XW_i^Q,XW_i^K,XW_i^V) headi=Attention(XWiQ,XWiK,XWiV)
将转换后的行为序列Embedding和指标序列Embedding
F = c o n c a t ( M H ( X b ) , M H ( X p ) ) F=concat(MH(X_b), MH(X_p)) F=concat(MH(Xb),MH(Xp))

step3: Expert View Representation
经过transform编码后的embedding和其他dense特征拼接在一起,套用MMoE的结构,用 k k k个专家进行学习
E i = f M L P ( F )      i ∈ 1 , 2 , . . . , k E_i = f_{MLP}(F) \ \ \ \ i \in 1,2,...,k Ei=fMLP(F)    i1,2,...,k

step4:Task View Representation
受MRAN启发,除了特征embedding,在相同空间对所有task进行embedding,得到 m m m个任务的表示
T t = f M L P ( E m b e d d i n g )     t ∈ 1 , 2 , . . . , m T_t=f_{MLP}(Embedding) \ \ \ t \in 1,2,...,m Tt=fMLP(Embedding)   t1,2,...,m

step5: Scenario Knowledge Representation.
将场景属性及广告主画像合并起来,经过一个简单的mlp网络学习得到场景Embedding表示
S ~ = f M L P ( S , A ) \tilde S = f_{MLP}(S,A) S~=fMLP(S,A)

第二阶段

Meta Learning Mechanism, 元注意力(meta attention)组件和元塔(meta tower)组件,捕获不同场景之间的相关性以及增强特定场景特征表达能力
在这里插入图片描述

meta attention 和 meta tower的基础都是meta unit,这里详细阐述meta unit,结构如下:
在这里插入图片描述

右侧input为输入,在meta attention里面input是concat(expert_out_embedding,task_embedding),
即专家网络的输出embedding和task的embedding拼接起来。在meta tower里面input就是前面attention后的结果。

input经过的几层FCN的权重是动态产生的,由场景embedding经过一个简单的FCN后得到的embedding,
经过reshape后得到,这样不同场景meta unit里面的主网络FCN权重是不一样的,通过这样的动态权重做到场景的个性化。

在这里插入图片描述
注意这里的 W ( i − 1 ) W^{(i-1)} W(i1) b ( i − 1 ) b^{(i-1)} b(i1)是通过场景Embedding经过mlp网络输出的向量再进行reshape得到,这里权重和偏置是根据场景动态产生的。比如说场景Embedding经过mlp得到一个256维的向量,这就可以reshape成128->64->64这样的简单3层mlp。
在这里插入图片描述
输入 h i n p u t h_input hinput经过几层动态权重的FCN得到输出 h o u t p o u t h_outpout houtpout,meta unit这个过程定义为 M e t a ( ∙ ) Meta(\bullet) Meta()
在这里插入图片描述

meta attention
输入就是专家输出embedding E i E_i Ei与task的embedding T t T_t Tt,通过meta unit M e t a ( ∙ ) Meta(\bullet) Meta()调制之后,再通过一个向量映射成注意力分值常数。meta unit是场景相关的,input又是task相关的,这样就同时学习到多场景和多任务之间的关系。
这里softmax计算注意力分数的时候, j j j表示专家,这里 M M M可能有误?专家总数按上文应该是 k k k
在这里插入图片描述
最后任务的表示如下,专家输出的加权求和。
在这里插入图片描述

meta tower
其实就是个残差网络,即能保留原始的输入,也能提取得到经过meta unit之后的输入
在这里插入图片描述在这里插入图片描述

第三阶段:Poisson Based Multi-Task Learning,通过泊松损失从多场景中预测多任务

loss

对于离散数据,使用泊松loss计算
在这里插入图片描述
在这里插入图片描述

评估指标

对于回归问题,MAPE(Mean Absolute Percentage Error)和NMAE(Normalized Mean Absolute Error)
但是因为pv、clicks很可能是0,因此使用 SMAPE (Symmetric Mean Absolute Percentage Error),
在这里插入图片描述
评估结果
在这里插入图片描述

消融分析

w/o meta tower module (MT).
w/o meta attention module (MA)
w/o transformer Layer (TL).
在这里插入图片描述

超参数分析

序列长度影响,过长文章说可能引入了较多噪声,导致反而变差
在这里插入图片描述
场景Embedding维度,到64维后就不再降低
在这里插入图片描述
meta unit的层数,越深反而效果变差,文章说可能是越深越容易过拟合
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1403287.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

GPU与SSD间的P2P DMA访问机制

基于PCIe(Peripheral Component Interconnect Express)总线连接CPU、独立GPU和NVMe SSD的系统架构。 在该架构中,PCIe Swicth支持GPU与SSD之间快速的点对点直接内存访问(peer-to-peer, p2p DMA)。通常情况下&#xff0…

Verilog基础:强度建模与net型信号的多驱动问题(三)

相关阅读 Verilog基础https://blog.csdn.net/weixin_45791458/category_12263729.html?spm1001.2014.3001.5482 四、一般情况下的net型信号的线与组合(线网多驱动) 在Verilog基础:强度建模与net型信号的多驱动问题(二&#xff0…

【Redis】更改redis中的value值

今天继续进步一点点~~ 背景:今天有个前端的同事问我,能不能在Redis中他本人登录公众号的 sessionID 加上一列openID 于是我上网查了一堆在Redis里面的命令,以及不同的客户端怎么输入命令,但是后来问了下同事,他就给我…

压缩字符串

#include <iostream> using namespace std; int main() {// 请在此输入您的代码string a;int f 1, count;cin >> a;for (int i 0; a[i]; i) {if (a[i] a[i 1]) {f 0; count 1;for (i; a[i] a[i 1]; i)count 1;cout << a[i] << count;}if (cou…

vivado JTAG链、连接、IP关联规则

JTAG链 这列出了定义板上可用的不同JTAG链。每个链都列在下面<jtag_chain>以及链的名称&#xff0c;以及定义名称和链中组件的位置&#xff1a; <jtag_chains> <jtag_chain name"chain1"> <position name"0" component"part0…

RK3568笔记十:Zlmediakit交叉编译

若该文为原创文章&#xff0c;转载请注明原文出处。 编译Zlmediakit的主要目的是想实现在RK3568拉取多路RTPS流&#xff0c;并通过MPP硬解码&#xff0c;DRM显示出来。为了实现拉取多路流选择了Zlmediakit,使用FFMEPG也可以&#xff0c;在RV1126上已经验证了可行性。 一、环境…

《Linux高性能服务器编程》笔记05

Linux高性能服务器编程 本文是读书笔记&#xff0c;如有侵权&#xff0c;请联系删除。 参考 Linux高性能服务器编程源码: https://github.com/raichen/LinuxServerCodes 豆瓣: Linux高性能服务器编程 文章目录 Linux高性能服务器编程第12章 高性能I/O框架库Libevent12.1 I/…

线程池--JAVA

虽然线程是轻量级进程&#xff0c;但是如果当创建和销毁的的频率非常之高&#xff0c;那么它也就会消耗很多的资源。 而线程池就是用来优化线程频繁创建和销毁的场景&#xff0c;减少线程创建、销毁的频率。 ExecutorService JAVA标准库为我们实现了线程池&#xff0c;Execu…

(二十四)Kubernetes系列之Helm3

Helm为kubernetes的包管理工具&#xff0c;就像Linux下的包管理器&#xff08;yum/apt等&#xff09;&#xff0c;可以很方便的将之前打包好的yaml文件部署到kubernetes上。 1.安装访问地址&#xff1a;https://github.com/helm/helm/releases 点击查看最新的版本&#xff0c…

【C/C++】C/C++编程——为什么学习 C++?

当提到C的时候&#xff0c;很多人会觉得语法复杂、学习曲线陡峭&#xff0c;并且好像与C语言还有点"纠缠不清"。尽管如此&#xff0c;C仍然是当今世界上最受欢迎和最有影响力的编程语言之一。特别是在当今快速发展的人工智能&#xff08;AI&#xff09;领域&#xff…

性能利器Caffeine缓存全面指南

第1章&#xff1a;引言 大家好&#xff0c;我是小黑&#xff0c;今天咱们聊聊Caffeine缓存&#xff0c;小黑在网上购物&#xff0c;每次查看商品都要等几秒钟&#xff0c;那体验肯定不咋地。但如果用了缓存&#xff0c;常见的商品信息就像放在口袋里一样&#xff0c;随时取用&…

python:socket基础操作(1)-《环境准备介绍》

我这里的环境是在真机上下载了一个 pycharm 进行编写 并且还开了两台虚拟机 一台为win7 下载了一个网络调试助手&#xff0c;因为等会编写的时候分为客户端和服务端&#xff0c;当我们编写了客户端或者服务端&#xff0c;可以用图形化的网络调试助手去当对象&#xff0c;图形化…

【Linux】常见指令(一)

前言: Linux有许多的指令&#xff0c;通过学习这些指令&#xff0c;可以对目录及文件进行操作。 文章目录 一、基础指令1. ls—列出目录内容2. pwd—显示当前目录3. cd—切换目录重新认识指令4. touch—创建文件等5. mkdir—创建目录6. rmdir指令 && rm 指令7. man—显…

JVM实战篇:GC调优

目录 一.GC调优的核心指标 1.1吞吐量&#xff08;Throughput&#xff09; 1.2延迟&#xff08;Latency&#xff09; 1.3内存使用量 二.GC调优的方法 2.1监控工具 Jstat工具 VisualVm插件 Prometheus Grafana 2.2诊断原因 GC日志 GC Viewer GCeasy 2.3常见的GC模…

Java:扫码登录

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 目录 一、需求背景 二、问题分析 三、对比APP和打印机设备的特点 四、设计 五、编码 总结 提示&#xff1a;以下是本篇文章正文内容&#xff0c;下面案例可供参考 一、…

网络要素服务(WFS)详解

文章目录 1. 概述2. GetCapabilities3. DescribeFeatureType4. GetFeature4.1 Get访问方式4.2 Post访问方式 5. Transaction5.1 Insert5.2 Replace5.3 Update5.4 Delete 6 注意事项 1. 概述 前置文章&#xff1a; 地图服务器GeoServer的安装与配置 GeoServer发布地图服务&#…

洛谷P2911 [USACO08OCT] Bovine Bones G(C语言)

看到这么小的数据范围&#xff0c;那当然是暴力枚举啦&#xff01;况且这还是入门题&#xff0c;怎么可能如此难为我这种萌新呢。 我的思路是用数组下标来记录次数 ch[ijq]; 这就是用三个数的和当做下标 然后后面就是遍利数组找出要的值 # include <stdio.h> int main …

Windows 下ffmpeg安装及实践

Windows 下ffmpeg安装及实践 背景安装实践其他 背景 最近负责音频文件处理相关的业务&#xff0c;涉及到 ffmpeg 对一些音频文件格式的校验&#xff0c;记录一下安装过程及踩坑过程。 安装 如图1所示&#xff0c;进入官网&#xff0c;在windows下任选一个文件&#xff1a;h…

七、文件与目录操作

一、文本文件读写 文件打开方式QIODevice::ReadOnly 以只读方式打开 QIODevice::QriteOnly 以只写方式打开 QIODevice::ReadWrite 以读写方式打开 QIODevice::Append 新增加的内容将被追加到文件末尾 QIODevice::Truncate 以重写的方式打开&#xff0c;原有内容会被删除 QI…

makefile 编译动态链接库使用(.so库文件)

makefile 编译动态链接库使用&#xff08;.so库文件&#xff09; 动态链接库:不会把代码编译到二进制文件中&#xff0c;而是在运行时才去加载&#xff0c; 好处是程序可以和库文件分离&#xff0c;可以分别发版&#xff0c;然后库文件可以被多处共享 动态链接库 动态&#…