MMOE - 经典多任务模型(谷歌)

news2024/11/20 15:28:10

文章目录

  • 1、动机:
  • 2、模型结构:

  • Modeling Task Relationships in Multi-task Learning with Multi-gate Mixture-of-Experts
  • mmoe: Multi-gate Mixture-of-Experts
  • mmoe由谷歌发表在KDD-2018【和阿里的ESMM同年发表,SIGIR-2018】;模型结构也蛮简单,dnn+gate_attention结构,多塔多任务模型。

1、动机:

  • 之前的mtl模型中,基本都是n个塔共享底座embedding,然后不同的任务分不同的塔,这种模式需要这些塔之间具有比较强的相关性,不然性能就很差,甚至会发生跷跷板现象。【跷跷板现象:一个task性能的提升是通过损害另一个task性能作为代价换来的。负迁移现象:不同任务之间存在冲突时,会导致模型无法有效进行参数的学习,不如对多个任务单独训练。】
  • 如果又有多个目标,多个task之间的相关性并不是很强,比如,CTR、点赞、时长、完播、分享等,并且有的目标的数据量并不是很足够,甚至无法单独训练一个DNN,我们可能就要考虑MTL了,这时候就可以考虑像MMOE类的模型。

2、模型结构:

模型结构如下(图c):
在这里插入图片描述

  • 图a:传统mtl结构;多个task共享底座embedding,然后分塔预测。
  • 图b:搞多个expert来学习不同空间的特征,单个gate attention负责整合多个专家的特征,然后分塔预测。
  • 图c:MMOE的结构;多个expert来学习不同空间的特征,为不同的task分配对应的gate attention来整合多个专家的特征,然后分塔预测。

⭐ 来个详细的MMOE的图:

  • gate的数量 = tower的数量 = task的数量;expert的数量自定义。
  • expert每个网络的输入特征都是一样的,其网络结构也是一致的。
  • gate网络的输入也是一样的,gate网络结构也是一样的。
  • MMOE的初始输入维度是: (bs, 所有特征的embedding特征维度拼接)。 在这里插入图片描述






参考链接: https://blog.csdn.net/u012328159/article/details/123309660

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/541086.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

华为手环8添加门禁卡操作指导

不得不说,华为基于手机/手环NFC和蓝牙等技术应用,结合门禁卡灵活、安全、便利的优势,给社区场景提供更优质和更多样的技术支持与服务,为广大用户创造美好的数字化生活体验。 目前华为手环8支持模拟市面上未经加密过的、频率为13.5…

服务发现原理与grpc源码解析

一 服务发现基础概念 为什么需要服务发现 在微服务架构中,在生产环境中服务提供方都是以集群的方式对外提供服务,集群中服务的IP随时都可能发生变化,如服务重启,发布,扩缩容等,因此我们需要及时获取到对应…

ThreadLocal使用和原理

ThreadLocal是线程本地变量,用来解决并发下数据隔离性的问题,不能解决共享。 他可以将一个变量拷贝的线程内,线程调用时再线程内进行使用,相当于给每个线程复制一个副本供各个线程使用。 ThreadLocal简单使用 他的目的很简单&a…

Unity用AI制作天空盒,并使用,详细图文教程

Unity用AI制作天空盒,并使用,详细图文教程 效果AI制作使用总结版权声明 效果 先上我自己做的效果 AI制作 首先登录AI制作的网站,打开就可以用,不需要登录 这是网址:https://skybox.blockadelabs.com/ 1.创建新的 2…

idea操作——如何format代码

1.选中需要format的类,然后右击,选择reformat code 2.出现的复选框根据自己的需求进行选择。然后点击OK即可。 Optimize imports 优化导入 选中此复选框可从所选范围内的代码中删除未使用的导入语句。 删除代码中没使用到的import 。使导入最优化 Rearr…

【C++】-模板初阶(函数和类模板)

作者:小树苗渴望变成参天大树 作者宣言:认真写好每一篇博客 作者gitee:gitee 作者专栏:C语言,数据结构初阶,Linux,C 如 果 你 喜 欢 作 者 的 文 章 ,就 给 作 者 点 点 关 注 吧! 文章目录 前言一、为什么要模板&…

【面试题】谈谈你对vite的了解

大厂面试题分享 面试题库 前后端面试题库 (面试必备) 推荐:★★★★★ 地址:前端面试题库 web前端面试题库 VS java后端面试题库大全 1.什么是vite vite是新一代前端构建工具,能够显著提升前端开发体验。他是使用…

东邻到家小程序|东邻到家小程序源码|东邻到家小程序开发功能

上门服务这几年已经越来越火爆,不论是家政、按摩、美甲等等都在不断的发展上门服务,这几年东邻到家小程序系统在不断的摸索阶段,对于系统各方面的需求也在不断提升,东郊到家小程序通过线上匹配用户和技师的需求,让人们…

低代码开发打破CRM开发瓶颈,是否靠谱呢?

低代码开发平台是一种快速开发应用程序的新兴技术,它通过提供可视化开发工具和预配置组件,使开发者更加高效地创建应用程序。低代码开发平台的出现为企业开发带来了一次全新的机遇,尤其是在CRM领域。但是,低代码开发在CRM领域中是…

得物前端巡检平台的建设和应用(建设篇)

1.背景 我们所在的效能团队,对这个需求最原始的来源是在一次“小项目”的评审中,增长的业务同学提出来的,目的在于保障前端页面稳定性的同时减少大量测试人力的回归成本。 页面稳定性提升,之前迭代遇见过一些C端的线上问题&…

自学软件测试,我还是劝你算了吧。。。

本人8年测试经验,在学测试之前对电脑的认知也就只限于上个网,玩个办公软件。这里不能跑题,我为啥说:自学软件测试,一般人我还是劝你算了吧?因为我就是那个一般人! 软件测试基础真的很简单&…

乒乓测评:电视盒子哪个牌子最好?2023电视盒子品牌排行榜

这里是乒乓测评,致力于带来更客观、真实的数码产品体验。本期我们测评的主题是电视盒子哪个牌子最好,为此我们购入了二十多款热门电视盒子,从硬件配置、视频流畅度、系统界面、操作、广告程度等方面进行多维度的测评,根据结果整理…

C++每日一练:详解-买铅笔影分身三而竭

文章目录 前言一、买铅笔二、影分身三、三而竭总结 前言 这回又换成C了,Python要用C也要用,没有哪个正经程序员只会一门语言的,咱可是CSDN认证带V的全栈攻城狮。今天的题目除了买铅笔都还是有点难度的,虽然影分身主要是考验阅读理…

【matlab报错】:函数或变量 ‘randint‘ 无法识别。

问题产生 首先定位问题,这个问题是由matlab版本造成的,随着matlab版本的更新,matlab删除了 randint 这个函数。 怎么替代呢?鼠标悬浮在报错代码上面,如下: matlab提示我们对代码进行相应更改后改用randi了…

基于SSM+JSP校园二手交易系统

末尾获取源码 开发语言:Java Java开发工具:JDK1.8 后端框架:SSM 前端:采用JSP技术开发 数据库:MySQL5.7和Navicat管理工具结合 服务器:Tomcat8.5 开发软件:IDEA / Eclipse 是否Maven项目&#x…

5年测试经验华为社招:半月3次面试,成功拿到Offer

背景经历 当时我工作近5年,明显感觉到了瓶颈期。具体来说,感觉自己用过很多测试框架和测试工具、做过一些测试开发、也有过高并发的性能测试,但是从技术深度上感觉不足,到后期时做事也没有明显挑战,完全适应了公司节奏…

新的网络钓鱼即服务平台让网络犯罪分子生成令人信服的网络钓鱼页面

至少从2022年中期开始,网络犯罪分子就利用一个名为“伟大”的新型网络钓鱼即服务(PhaaS或PaaS)平台来攻击微软365云服务的企业用户,有效地降低了网络钓鱼攻击的门槛。 思科Talos研究员蒂亚戈佩雷拉表示:“目前,Greatness只专注于微软365钓鱼…

[Hadoop]大数据导论与Linux基础

目录 大数据导论 企业数据分析方向 数据分析基本步骤 大数据时代 分布式与集群 Linux操作系统概述 操作系统概念与分类 Linux起源与发展 Linux内核与发行版本 VMware Workstation虚拟机使用 VMware虚拟机概念 VMware虚拟机常规使用 Linux常用基础命令 Linux文件系…

Spring Boot单元测试

什么是单元测试? 单元测试(unit testing),是指对软件中的最小可测试单元进行检查和验证的过程就叫单元测试。 单元测试是开发人员编写的一小段代码,用于检验被测代码的一个很小的、很明确的(代码) 功能是否正确。执行单元测试就是为了证明某…

Java面试知识点(全)- Java并发- Java并发基础一

Java面试知识点(全) 导航: https://nanxiang.blog.csdn.net/article/details/130640392 注:随时更新 多线程解决什么问题 CPU、内存、I/O 设备的速度是有极大差异的,为了合理利用 CPU 的高性能,平衡这三者的速度差异&#xff0c…