万物皆可嵌入--embedding在GPU中的实现

news2024/7/30 11:39:24

摘要

Embedding技术自从谷歌推出word2vec的工作后得到迅速的应用,典型应用之一是在广告推荐场景中,从word2vec演进到item2vec,embedding技术的出现也使深度学习进入广告推荐的场景成为可能。广告推荐模型动辄几十GB甚至TB的模型大小,高效地进行embedding table的操作成为影响性能的关键,本文将介绍embedding的相关知识背景,并以Nvidia推出的面向广告场景的HugeCTR框架为基础,介绍在GPU中关于embedding操作的实现。

Embedding介绍

一般而言,嵌入表(Embedding table)是指将一系列不同的元素,比如单词、短语或者句子,使用不同的方法提取到的特征向量矩阵。从数学表达上看,embedding是一种空间映射,将高维的向量表达映射到低维的向量表达。以单词的embedding表达为例,将每个单词使用one-hot(向量中只有一个元素非0)的方式表达,那么就是将单词的one-hot空间表达映射到新的特征向量空间。假设有一个句子“The cat sat on the mat”, 一共5个单词,对于cat的表达选择使用向量[1, 0, 0, 0, 0],经过embedding的操作变为图1中右图的维度为4的嵌入表,cat变为向量[1.2,-0.1, 4.3, 3.2],称之为特征向量,转换的过程即为训练的过程。总而言之,embedding就是用一个低维的向量(数学的方式)表示一个物品,可以是商品、人或者单词,所以从表达范畴上讲万物皆可采用embedding表示[1]。

图片

图1 one-hot encoder到嵌入表的转换[2]

显而易见,使用one-hot的编码带来的问题之一是数据量巨大且稀疏,如图1,使用embedding的方式除了可以带来数据量的压缩外,还可以引入特征向量之间的关系表达。以对城市和国家的表达为例,看到北京自然会想到是中国的首都,二者的关系可以体现在向量空间距离很近,如图2所示。

图片

图2 国家和首都在嵌入表中表达的空间距离示意图[3]

正是得益于embedding表达中潜在的关系,使得使用机器学习的方式来探究数据内部的关系成为可能。在具体应用中,通过embedding table的查找(本质是全连接的操作),使得原本高维稀疏的矩阵变为低维稠密矩阵,然后进入到深度学习的计算中,典型的应用就是广告推荐。

广告推荐中的embedding

虽然嵌入层将高维稀疏矩阵转换为低维稠密矩阵,降低了参数的数量,然而广告推荐场景面对的是千亿级别的商品,十亿级别的用户,因此嵌入表的规模越来越大,达到TB不足为奇。因此,在广告推荐模型中对嵌入层的优化成为影响模型质量的重要因素。规模巨大的嵌入表导致广告推荐模型的计算变为访存密集型任务,如何充分利用GPU上的内存容量减少数据搬移,同时又发挥GPU的通信高带宽的性能优势成为研究的目标。

图片

图3 one-hot编码和embedding的对比

在广告推荐模型中,采用和word2vec类似的嵌入表示方法,而用户和商品很多,如果使用one-hot编码会导致嵌入表急剧膨胀,以图3中亿级别的用户为例,使用embedding编码后,数据量可以从10的9次方压缩到10的3次方。图4表示的是用户和商品ID及对应的嵌入表查询过程,图中的特征向量的维度为4,但在实际应用中,不同特征的特征向量不一定相同。

图片

图4 特征向量维度为4的嵌入表[3]

在广告推荐场景中,经常使用feature (categorical feature),categorical data,feature field(slot)术语,本文将其翻译为特征,特征数据及特征域。

以电影推荐场景为例,电影名称,用户性别,用户年龄,手机等等均可以看作是一类特征。特征数据是具体的特征描述,比如手机分为苹果,华为和小米等。特征域指的是将相关的特征聚合在一起,作为一个域,也就是说在一个feature field会包含几类特征。比如在经典的YouTube视频推荐模型中,关于language的分析,可以看成是一个feature field,里面聚合了user language和video language。对于一个feature filed中的特征向量,会进行combiner的操作,可以是求平均或者是求和等。

图片

图5 YouTube视频推荐模型[4]

稀疏Embedding的分配方式

关于embedding的分配,一般是根据embedding 的key均匀地分配到CPU或者GPU中,比如根据embedding的key对GPU的模值,将embedding分配到各个GPU。但在HugeCTR中,关于embedding的分配以slot(slot等同于前文的feature field)为单位(slot是一等公民),每个slot的特征可以单独embedding,然后再合并为一个嵌入向量,这样的收益是确保同一个特征域的特征向量在一台GPU上,可以较为高效地进行combiner的操作,如后文的图8的本地化模式所示。

HugeCTR是Nvidia推出的针对点击率(Click-Through Rate)场景的分布式推荐框架,支持多GPU及多GPU节点的训练模式,底层则采用GPU的优化库实现,比如NCCL,CuDF[5]等。HugeCTR也可以作为TensorFlow的插件使用,大致的自顶向下的层次如图6所示。

图片

图6 HugeCTR的层次图

稀疏embedding的分配分为分布式(distributed)模式和本地化(localized)模式。在分布式模式下,如图7所示,一个slot可以位于多个GPU上,比如slot0中的特征可以位于GPU0和GPU1上,slot1的特征也可以位于GPU0和GPU1上。分布式的方式适合slot的大小超过了GPU的内存。分配到GPU的计算规则为: feature_key % GPU_NUM,和上文提到的按照embedding的key进行均匀分配相同。

图片

图7 分布式模式的稀疏embedding的分布

本地模式指的是将slot中的特征完整地放在一个GPU内存中,不会跨GPU存放,比如slot-0放在GPU0,slot-1放在GPU1, slot-2放在GPU0等,如图8所示。使用本地化模式的前提是GPU内存能够完整存放下一个slot的大小,相比于distributed模式,优先推荐使用local模式,具有更好的性能,同一个slot内的特征处理可以在一个GPU上完成。分配到GPU的计算规则为: slot_id % GPU_NUM。

在这里插入图片描述

图8 本地化模式的稀疏embedding的分布

图9展示了slot中特征向量的combiner的过程。一个sample中有7个key,分布在两个slot中,第一个slot有4个key,第二个slot有3个key,第三个slot没有key。在查找的过程中,第一个slot中的4个key分别找到对应的特征向量进行sum操作得到新的特征向量v1,第二个slot找到3个key对应的特征向量进行sum得到新的特征向量v2。组后把v1和v2 concat。注意在hugeCTR中不允许不同的slot中出现相同的key,在hugeCTR中支持的combiner操作为求和和取平均。

在这里插入图片描述

图9 slot中特征向量的combiner操作

Embedding表的查询

在HugeCTR的实现中,为了提高embedding table的查询及插入性能,采用了二级hash的方式进行构建,如图10所示。

\1. 第一级hash提供的是逻辑hash,背后的实现根据hash计算得到,而不是真的查找表,目的在于节省存储空间。Key相当于稀疏输入(比如one-hot格式输入),经过hash计算后得到value,value表示的是第二级hash table中key的行偏移。

\2. 第二级是真正存储在GPU内存中hash table,key为嵌入向量的行偏移,value为最终的嵌入向量。图中hash_value_index_tensors_存储的是GPU数量个hash_value_index,hash_value_index中的每个元素表示在当前GPU中嵌入向量的行偏移。整个hash_value_index_tensors_的大小是每个slot的特征数累加和与batch_size大小的乘积,如公式1所示(nnz_per_slot表示每个slot中的特征数量),记录了所有的低维稠密矩阵offset,如此以来,hash table的大小就被固定了(这种设计也限制了支持更大的参数场景)。同理hash_table_value_tensors_表示每个GPU中存放的嵌入向量的值,hash_table_value_tensors_的大小是每个GPU上存放的最大特征数量和特征向量大小的乘积,如公式2所示(max_vocabulary_size_per_gpu表示每个GPU的最大特征数量)。

图片

图10的上图表示为高维稀疏矩阵经过embedding优化后得到的低维稠密矩阵,储存在GPU内存中。以苹果的稀疏输入为89举例,苹果特征的slot分布在GPU0上,通过一级hash计算得到row_index为2,从GPU0上的hash table中找到row_index=2对应的行偏移为0,如图10的下图所示,然后从hash_table_value[0]的row_offset=0的位置获得苹果的嵌入表向量9898。

图片

图10 hash表查询过程示意图

第二级hash的实现是完全放在GPU内存中,包装在cuDF(GPU DataFrame)的库中,依赖于concurrent_unordered_map类,是一个GPU加速的哈希实现,支持并发的insert,但不支持并发的insert和get,这是和hugeCTR仅支持同步训练有关系,不会同时进行pull和push操作。

图10是简化的示意图,在实际代码实现中引入了bucket的概念,如图11所示,在经过对hash_table_size取模后,得到一个hash bucket,bucket中存有key和value,其中value对应图10中的hash_value_index,根据hash_value_index所对应的行偏移,在hash_table_value(embedding table)中找到嵌入特征。

图片

图11 带有bucket的hash查找过程

构建embedding table

为了压缩稀疏矩阵的存储格式,hugeCTR中采用了CSR(Compressed Sparse Row)的稀疏压缩方法,如图12中的左图所示,针对一个稀疏矩阵,仅存储矩阵的非0数值,以及数值对应的行偏移和列偏移。

图片

图12 CSR的数据表示和在slot中的表示

图12的右图中,一共有3个slot,每个slot中有不同数量的特征数,比如slot-0中有3个特征,0,1,2表示对应的embedding key。现有3个样本,分别以row-0,row-1和row-2表示。以row-0为例,它的column index是[1, 3, 4, 8],即slot中的key,将row的数据以slot为行进行排布,然后根据CSR的表示方法,可以得到对应的row_index为[0, 1, 3, 4],可以看成是稀疏输入。

图13表示的是一个构建好的embedding table,同样以row-0为例,row-index是前文提到的hash_table_value_index,sparse tensor表示的是稀疏输入,对应前文提到的hash table key。以图12的row-0的row_index[0, 1, 3, 4]作为稀疏输入,分别在不同的slot中找到row-offset(此处的row-offset指的是嵌入特征在内存中的行偏移),然后根据行偏移从GPU内存中找到对应的嵌入特征向量。

图片

图13 embedding table示意图

总结与思考

本文介绍了hugeCTR中关于embedding table在GPU中实现方式,分析了如何利用二级hash的方式实现嵌入特征的查询以及采用稀疏压缩的方式构建嵌入表。由于篇幅有限,文中略去了实际的代码实现,对部分细节进行了抽象。当然,对于embedding table的操作,采用hash的实现仅仅是一种处理方式,也是技术栈中的一个小环节,在具体的实现中,可以自行设计策略,关键的问题是如何保证embedding table的操作,这里面包括从存储服务器到主机内存(CPU内存)再到GPU内存之间的数据拷贝,查找,更新等操作,里面涉及到很多工程实现问题。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1917410.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MVC 控制器 中Action 不能同名,参数不一样,路由器寻找不到对应的,要加特性

//1 方法不可能完全相同,参数不同//2 那还需要特性吗?需要的,因为MVC选择方法时,不是按参数选择:http请求发送很多数据,其实没法识别,//因为mvc找方法是通过反射来的,GetMethods(nam…

C#(asp.net)房屋租赁管理系统-计算机毕业设计源码64421

目 录 摘要 1 绪论 1.1 研究背景与意义 1.2开发现状 1.3论文结构与章节安排 2 房屋租赁管理系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.2.2 非功能性分析 2.3 系统用例分析 …

vue3+springboot+mybatis+mysql项目实践--简单登录注册功能实现

这里是一次对vue3springbootmybatismysql的项目实现,简单实现前后端分离的登录注册功能,主要工具:idea,navicat 目录 一、创建vue3项目并初始配置 创建vue3项目 2.修改项目结构 1)原始目录结构 2)修改后目录结构 …

5G RedCap调查报告

一、5G RedCap技术背景 5G RedCap(Reduced Capability缩写,轻量化5G),是3GPP标准化组织定义下的5G裁剪版本,是5G面向中高速率连接场景的物联网技术,它的能力介于5G NR(含eMBB和uRLLC)和LPWA(如LTE-M和NR-IoT)之间,如图1所示,是5G-A(5G Advanced)的关键技术之一。…

用网络编程完成windows和linux跨平台之间的通信(服务器)

服务器代码逻辑: 服务器功能 创建 Socket: 服务器首先创建一个 Socket 对象,用于进行网络通信。通常使用 socket() 函数创建。 绑定(Bind): 服务器将 Socket 绑定到一个特定的 IP 地址和端口号上。这是通过…

51单片机STC89C52RC——16.1 五线四相步进电机

目录 目的/效果 一,STC单片机模块 二,步进电机 2.2 什么是步进电机? 2.2.1 步进电机驱动板 静态参数 动态参数 2.2.2 五线四相 单相激励步进 双相激励步进 混合激励驱动 2.3 细分驱动 2.4 通过数字信号控制旋转位置和转速。 2…

JavaScript-map方法

map可以遍历数组处理数据,并返回新的数组 语法: ​const arr[元素1,元素2,元素3] const newarrarr.map(function(数组的元素,数组的索引)){return 新元素 } const arr[blue,red,green]const newarrarr.map(function(ele,index){co…

物业系统自主研发接口测试框架

1、自主研发框架整体设计 1.1、什么是测试框架? 在了解什么是自动化测试框架之前,先了解一下什么叫框架?框架是整个或部分系统的可重用设计,表现为一组抽象构件及构件实例间交互的方法;另一种定义认为,框架是可被应用开发者定制的应用骨架…

【小白也能看的懂】想要玩转AI大模型,这4招你得知道

前言 对于大部分人来说,能够灵活使用AI工具,并对自己每个常用的AI工具优劣势很清楚,就已经足够了。不过,毕竟AI发展实在太快,多了解一些相关的知识点,以全局的视角去看AI,可以避免管中窥豹&…

用SmartEDA点亮电路教学:传统课堂的革新之道

在数字化浪潮的推动下,教育领域也迎来了前所未有的变革。特别是在电路教学这一专业领域,传统的黑板加课本的教学模式已难以满足现代学生的需求。今天,我们就来探讨一下,如何利用SmartEDA电路仿真软件来补充传统教学,为…

Oracle 23ai 中的重要新特性 VECTOR 数据类型

Oracle 23ai 中的 VECTOR 数据类型是 Oracle 数据库在 AI 领域的一个重要新特性,它允许用户以向量的形式存储数据,并在这些向量的基础上进行高效的搜索和分析。以下是对 Oracle 23ai VECTOR 数据类型的详细解析: 参考官方文档地址 https://d…

Python机器学习推理工程化落地步骤指南

目录 一、引言 二、数据准备 2.1 数据收集 2.2 数据清洗 2.3 特征工程 2.4 数据分割 三、模型训练 3.1 选择算法 3.2 训练模型 3.3 模型评估 3.4 模型调优 四、模型部署 4.1 模型序列化 4.2 构建推理服务 4.3 部署与监控 五、总结 在当今科技飞速发展的时代…

【SVN的使用-通过xCode使用SVN-SVN的目录结构 Objective-C语言】

一、接下来,我们来通过xcode使用SVN啊 1.我先把小明这个目录下,wechat这个文件夹都删了, 我现在小明新入职了,但是呢,我现在不喜欢用命令行,我也不喜欢用Corner Stone,我要用xcode, 作为小明,我入职以后,第一件事儿,要把代码checkout下来, 那首先呢,打开你的xc…

从3D扫描到CAD模型【逆向工程】

有时,你无法访问零件原始生产中的原始设计文档。逆向工程(reverse engineering)使你能够分析物理零件并探索其最初的制造方式,以复制、创建变体或改进设计。目标是最终创建一个用于制造的新 CAD 模型。 虽然逆向工程的概念非常简…

Linux--安装VMware步骤

安装VMware VMware Desktop Hypervisors for Windows, Linux, and Mac 复制链接打开浏览器下载即可 从官网下载软件,完成后为确保后续正常使用,需要检查虚拟网卡是否安装完成 检查虚拟网卡的安装步骤 Windows--设置--高级设置--网络适配器--看是否有显…

录屏软件免费推荐,拥有这4款,不花一分钱

在这个充满创意与活力的数字时代,录屏软件早已成为我们探索世界、分享生活的必备神器。但市面上却存在很多收费的录屏软件,让人望而却步。那么有没有一些录屏软件免费帮助我们轻松开启录影人生,尽情展现创意与才华呢? 本文就将带…

【错题集-编程题】kotori 和 n 皇后(哈希表)

牛客对应题目链接&#xff1a;kotori和n皇后 (nowcoder.com) 一、分析题目 算法思路&#xff1a;使用哈希表标记行列以及两个对角线。 注意&#xff1a;输出的时候提前判断⼀下。 二、代码 //值得学习的代码 #include <iostream> #include <unordered_set>using n…

旷野之间14 - 常见的AI面试题解答

​​​​​ 1. 什么是大型语言模型(LLM)以及它如何工作? 大型语言模型 (LLM),例如 GPT-3 或 BERT,是具有理解和生成类似人类的文本能力的高级机器学习模型。 核心组件和操作: 编码器-解码器框架:用于 GPT-3(单向)和 BERT(双向)等模型。Transformer 架构:利用具有…

N-(4-Azido-2-nitrophenyl)-N‘‘-biotinylnorspemidine

​一、基本信息 常用名&#xff1a;N-(4-Azido-2-nitrophenyl)-N-biotinylnorspemidine 英文名&#xff1a;N-(4-Azido-2-nitrophenyl)-N-biotinylnorspemidine CAS号&#xff1a;786609-83-4 分子式&#xff1a;C22H33N9O4S 分子量&#xff1a;519.62 二、结构特点 该化…

【深海王国】小学生都能玩的语音模块?ASRPRO打造你的第一个智能语音助手(9)

Hi~ (o^^o)♪, 各位深海王国的同志们&#xff0c;早上下午晚上凌晨好呀~ 辛勤工作的你今天也辛苦啦(/≧ω) 今天大都督继续为大家带来系列——小学生都能玩的语音模块&#xff0c;帮你一周内快速学会语音模块的使用方式&#xff0c;打造一个可用于智能家居、物联网领域的语音助…