【推荐系统】model 落地(样本/特征/预测服务)

news2025/1/18 7:41:14

兜率宫小道童的个人空间-兜率宫小道童个人主页-哔哩哔哩视频(如下是该视频课系列的笔记)

1-深度学习在搜索、广告、推荐系统中的应用-业务问题建模_哔哩哔哩_bilibili

其他章节

目录

二、深度学习落地

模型训练服务流程

1-样本生成-标签拼接

 1-样本生成-转化延迟

2-特征处理-整体流程

2-特征处理-特征中台

2-特征处理-原始特征拼接 

 2-特征处理-特征分类与抽取算子

 2-特征处理-特征重要性

  2-特征处理-特征体系示例

3-模型训练平台-模型构建

3-模型训练平台-模型构建-模型结构

 3-模型训练平台-模型构建-损失函数

 3-模型训练平台-模型构建-优化器

3-模型训练-训练流程

4-模型预测服务

三、深度学习算法进阶

检索算法分类

 1-匹配算法分类

1-匹配算法-有表示匹配

1- 匹配算法-双塔模型-训练

1-匹配算法-双塔模型-预测

1-匹配算法-双塔模型-ANN 检索

 2-匹配流程 

2-匹配流程-召回发展

2-匹配流程-粗排发展

2-匹配流程-精排发展-1

2-匹配流程-精排发展-2

 四、深度学习进阶

分布式机器学习 GitHub - dmlc/ps-lite: A lightweight parameter server interface

一天访问量会有百亿级别,单机是无法满足服务,做分布式模型服务
分布式模型服务-> 无状态,机器间不会被依赖


一些结论

  • 增量训练

用历史上一个训练好的模型做初始化,
用过去一个月,或者是三个月的样本做全量训练。 但此时,训练量是很大的,
比如,今天用前30天的样本进行训练,
明天用新增数据做增量训练,极大加快了模型的训练速度。有利于把最新的样本反应到 model 里面去,
对用户、商品冷启都有好的效果。

  • 线上实时特征落盘

为什么在线特征定期同步给离线平台?——节约性能
当我们在线上发起一次预估请求,会将 model所需的成百上千特征都收集好,送给 model去预测。
我们希望将这成百上千特征都存下来,直接离线做明文特征抽取。
因为特征很多,会导致用来存储特征的线上包很大,会影响线上的性能+从在线到离线的存储过程中,会产生大量的时间开销。
由此产生:
只将线上的实时特征落盘过来,将时间不敏感的特征用离线特征平台拼接给样本。一方面节省线上开销,离线可以并行提高处理速度。 

  • 交叉熵 衡量两个部分的差异。
  • NHSW的损失是比较小的,检索效率高。
  • 特征方差比较大,会造成 model梯度颠簸,会影响模型收敛速度和效果,所以要做归一化/log 等。
  • 近线系统:model 是天级别更新的,但是特征是天级别、小时级别更新的。???

二、深度学习落地

如何在检索匹配中使用深度学习?

2.1-深度学习在搜索、广告、推荐系统中的应用-样本和特征处理_哔哩哔哩_bilibili

模型训练服务流程

1-样本生成-标签拼接

 1-样本生成-转化延迟

2-特征处理-整体流程

2-特征处理-特征中台

2-特征处理-原始特征拼接 

 2-特征处理-特征分类与抽取算子

 2-特征处理-特征重要性

  2-特征处理-特征体系示例

2.2-深度学习在搜索、广告、推荐系统中的应用-模型训练和预测_哔哩哔哩_bilibili

3-模型训练平台-模型构建

3-模型训练平台-模型构建-模型结构

 3-模型训练平台-模型构建-损失函数

 3-模型训练平台-模型构建-优化器

3-模型训练-训练流程

4-模型预测服务

模型文件:1、emb词表;2、model 的网络参数;

网络参数是可以加载到内存里的,但是 emb 不行。 

实际预测时,model 后台会将这次预测用到的所有特征收集好,进行特征处理之后,将处理之后的稀疏特征的 emb 读取回来,再将 emb 和dense特征一起送给 model 预估的机器做预测。

考虑线上的流量比较大,一天会有百亿级别,单机无法满足,往往会做一个分布式的模型服务。

服务是无状态的,各个机器之间不依赖。不用写,只读,会比较简单。

三、深度学习算法进阶

复杂深度学习模型在检索匹配中的应用? 

3.1-深度学习在搜索、广告、推荐系统中的应用-算法进阶-匹配算法分类_哔哩哔哩_bilibili

检索算法分类

 1-匹配算法分类

1-匹配算法-有表示匹配

1- 匹配算法-双塔模型-训练

1-匹配算法-双塔模型-预测

1-匹配算法-双塔模型-ANN 检索

 3.2-深度学习在搜索、广告、推荐系统中的应用-算法进阶-分阶段演进_哔哩哔哩_bilibili

 2-匹配流程 

2-匹配流程-召回发展

2-匹配流程-粗排发展

2-匹配流程-精排发展-1

2-匹配流程-精排发展-2

 四、深度学习进阶

分布式机器学习

4-深度学习在搜索、广告、推荐系统中的应用-分布式机器学习_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/422831.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

OJ练习第73题——解数独

解数独 力扣链接:37. 解数独 题目描述 编写一个程序,通过填充空格来解决数独问题。 数独的解法需 遵循如下规则: 数字 1-9 在每一行只能出现一次。 数字 1-9 在每一列只能出现一次。 数字 1-9 在每一个以粗实线分隔的 3x3 宫内只能出现一…

MySQL-中间件mycat(二)

目录 🍁部署主从复制 🍁mycat读写分离 🍂修改配置文件 🍂设置balance与writeType 🍂设置switchType与slaveThreshold 🍂启动程序 🍂验证读写分离 🍁垂直拆分-分库 🍂实现…

【从零开始学Skynet】基础篇(九):调试控制台服务

Skynet自带了一个调试控制台服务debug_console,启动它之后,可以查看节点的内部状态。 1、启用调试控制台 (1)在skynet/examples目录下新建main_console.lua文件,代码如下所示: local skynet require &quo…

【Python_Scrapy学习笔记(二)】创建Scrapy爬虫项目

创建Scrapy爬虫项目 前言 本文主要介绍如何创建并运行 Scrapy 爬虫项目。 正文 1、创建 Scrapy 框架 Scrapy 框架提供了 scrapy 命令用来建立 Scrapy 工程,在终端 terminal 中输入以下命令: scrapy startproject 自定义的项目名称创建好爬虫项目文件…

2023年超实用的27个VSCode插件推荐

Visual Studio Code,或者称作VS Code,是一个广为人知且评价很高的代码编辑器,它有许多特性和扩展功能,以增强开发体验。使用VS Code的主要好处之一是它的灵活性,允许开发人员根据自己的特定需求进行自定义。此外&#…

02-app漏洞发现

漏洞发现-APP应用之漏洞探针类型利用修复 一、思维导图: 思路说明: apk反编译提取URL或抓包获取url,进行web应用测试,如不存在或走其他协议的情况下,需采用网络接口抓包进行数据获取,转至其他协议安全测试…

【jvm系列-05】精通运行时数据区共享区域---方法区

JVM系列整体栏目 内容链接地址【一】初识虚拟机与java虚拟机https://blog.csdn.net/zhenghuishengq/article/details/129544460【二】jvm的类加载子系统以及jclasslib的基本使用https://blog.csdn.net/zhenghuishengq/article/details/129610963【三】运行时私有区域之虚拟机栈…

Redis 6.0的多线程是如何工作的

来了解下 6.0 版本中新出的多线程特性。 1、多线程处理网络IO,单线程执行命令 Redis 一直被大家熟知的就是它的单线程架构,虽然有些命令操作可以用后台线程或子进程执行(比如数据删除、快照生成、AOF 重写),但是&…

freeswitch带媒体压力测试方案

概述 原本的计划是使用sipp完成带媒体压力测试,但是实际测试过程中发现sipp的媒体处理功能有问题(也有可能是我使用的姿势不对)。 sipp在带媒体的情况下(600路并发开始),出现大量的不响应和响应延迟&…

请求响应-响应

前面已经说了我们重点关注的就是XXXcontroller类 进行请求接收 和响应 接收参数那些我们在请求部分讲过了 现在我们来处理响应部分 响应 设置响应数据 可以发现其实我们之前都是设置过的 比如那个Hello World 浏览器都接收到了且在浏览器上进行了输出 这里的是返回值作为这个…

Direct3D 12——纹理——纹理

纹理不同于缓冲区资源,因为缓冲区资源仅存储数据数组,而纹理却可以具有多个mipmap层级(后 文有介绍),GPU会基于这个层级进行相应的特殊操作,例如运用过滤器以及多重采样。支持这些特殊 的操作纹理资源都被限定为一些特定的数据格式…

7 个最好的 Word 转 PDF 转换器

如果您使用 Word 文件,您可能在某个时候遇到过将 Word 文件转换为 PDF 的紧迫问题。PDF 文件有很多优点。它们通常更紧凑,无论您在哪里打开它们看起来都一样。PDF 还允许您共享文档,而不必冒有人更改内容的风险。那么如何将 Word 文档转换为 …

小白学网络安全要学些什么?

一.网络安全学些什么呢? 虽然网上已经有非常多的学习路线了,但是仍然有很多零基础的小白还是不懂网络安全到底应该要怎么去学习,我也经常会在后台收到这样的问题“我想学网络安全,需要先学编程语言吗?”、“学渗透就业…

【python零碎】

1. 拼接字符中,插入变量 >>> shepherd "Mary" >>> age 32 >>> stuff_in_string "Shepherd {} is {} years old.".format(shepherd, age) >>> print(stuff_in_string) Shepherd Mary is 32 years old. &…

HIT-CSAPP 第五章 面向程序的优化方法(1)

考纲: 1.面向程序性能的优化 面向编译器的程序优化方法:减少过程调用、减少内存引用、指令并行等方法等方法。面向流水线、超标量、向量CPU的程序优化方法。 2.存储器的层次结构 优化编译器的能力和局限性 内存别名使用妨碍函数优化 void twiddle1(long *xp, long *yp){ //…

ERTEC200P-2 PROFINET设备完全开发手册(4-1)

ERTEC200P-2作为应用处理器,既可以单独使用,通过GPIO扩展实现基本的IO功能。也可以配合外部主机(例如单片机)实现更复杂的应用。ERTEC200P-2与外部主机接口的示意图如下。常用的接口包括UART,SPI,XHIF接口。…

MSI: 基于多元同步索引的SSVEP频率识别算法

MSI: 基于多元同步索引的SSVEP频率识别算法1.算法背景2.算法原理3.Python代码实现1.算法背景 脑机接口(Brain-Computer Interface, BCI)因其在神经工程与神经科学中的广泛应用价值而备受研究者们的关注。BCI系统可以在人类或动物被试与外部设备之间提供…

“深元AI”赋能传统加油站智能化转型,全力打造新一代智慧加油站

历届的全国两会和党代会上,“安全生产”始终是核心议题。党的二十大报告提出:推动公共安全治理模式向事前预防转型,并强调要加强重点行业、重点领域安全监管,提高防灾减灾救灾和重大突发公共事件处置保障能力。同时,国…

Linux_vim编辑器

Vi编辑器是所有Unix及Linux系统下标准的编辑器,类似于windows系统下的notepad(记事本)编辑器,由于在Unix及Linux系统的任何版本,Vi编辑器是完全相同的,因此可以在其他任何介绍vi的地方都能进一步了解它&…

Java的CPU 飙升700%优化的真实案例

最近负责的一个项目上线,运行一段时间后发现对应的进程竟然占用了700%的CPU,导致公司的物理服务器都不堪重负,频繁宕机。 那么,针对这类java进程CPU飙升的问题,我们一般要怎么去定位解决呢? 采用top命令定位进程 登…