LLM向量嵌入知多少

news2025/2/5 10:36:01

向量嵌入是机器学习领域中一项引人入胜且极具实用性的技术。它们构成了众多自然语言处理(NLP)、推荐系统和搜索算法的基础。如果您曾经使用过推荐引擎、语音助手或语言翻译工具,那么您已经体验过嵌入技术的强大功能。

机器学习算法,与大多数软件算法一样,需要数字来进行计算。有时我们处理的是包含数值的列数据集,或者是可以转换为数值的数据(如序数、分类数据等)。而在其他情况下,我们可能会遇到更为抽象的数据,例如一整篇文本。这时,我们会创建向量嵌入,即将数据转换为数字列表,以便于执行各种操作。无论是一段文本还是其他任何对象,都可以被简化表示为一个向量,甚至数值数据也可以转换为向量,以便于进一步处理。

向量之所以如此有用,是因为它们能够在向量空间中表达语义相似性,即将人类感知到的相似性转化为向量的接近程度。

换言之,当我们将现实世界中的对象和概念,如图像、音频记录、新闻文章、用户资料、天气模式和政治观点等,通过向量嵌入进行表示时,它们之间的语义相似性可以通过这些点在向量空间中的接近程度来量化。因此,向量嵌入适用于聚类、推荐和分类等常见的机器学习任务。

例如,在聚类任务中,算法会将相似的点归为同一簇,并尽可能保持不同簇之间的差异。在推荐任务中,推荐系统会根据向量嵌入的相似性,寻找与给定对象最相似的其他对象。在分类任务中,我们根据最相似对象的标签来进行新对象的分类。

创建向量嵌入的一种方法是利用领域知识来设计向量值,这个过程称为特征工程。例如,在医学成像中,我们会利用医学知识来量化图像中的一系列特征,如形状、颜色和区域等,以捕捉其语义信息。然而,这种方法需要领域专家知识,且难以大规模应用。

更常见的做法是训练模型自动将对象转换为向量,深度神经网络是实现这一目标的常用工具。这些模型产生的嵌入通常是高维的(可达两千维)且密集的(所有值非零)。对于文本数据,Word2Vec、GLoVE和BERT等模型可以将单词、句子或段落转换为向量嵌入。图像可以通过卷积神经网络(CNN)等模型进行嵌入,例如VGG和Inception。音频记录也可以通过其频谱图的视觉表示转换为向量。

以卷积神经网络进行图像嵌入为例,原始图像可以表示为灰度像素,相当于一个包含0到255整数值的矩阵。0代表黑色,255代表白色。图像的灰度像素、像素灰度值和矩阵三者之间的对应关系如下:

  • 左侧子图像展示灰度像素。

  • 中间子图像列出像素的灰度值。

  • 最右侧子图像定义了整个矩阵。

这种嵌入方式非常适合保留图像中像素邻域的语义信息,但对图像变换(如平移、缩放、裁剪等)非常敏感,因此通常作为学习更稳健嵌入的原始输入。

卷积神经网络通过层级化的小局部子输入——感受野——来处理输入数据。每个网络层的神经元处理来自前一层的特定感受野。网络的每一层要么对感受野应用卷积操作,要么通过子采样减小输入尺寸。

学习网络权重,即嵌入模型,需要大量标记图像。权重的优化方式是使得相同标签的图像嵌入比不同标签的图像更接近。一旦我们学习了CNN嵌入模型,就可以将图像转换为向量,并使用K-最近邻索引进行存储。这样,对于任何一个新的未见过的图像,我们都可以利用CNN模型进行转换,检索其k个最相似的向量,从而找到相应的相似图像。

尽管这里以图像和CNN为例,但向量嵌入可以应用于任何类型的数据,并且有多种模型和方法可以用来创建它们。

嵌入向量使执行自然语言和代码任务变得容易,如语义搜索、聚类、主题建模和分类。嵌入对于处理自然语言和代码非常有用,因为它们可以被其他机器学习模型和算法(如聚类或搜索)轻松地消费和比较。

数值上相似的嵌入在语义上也是相似的。例如,“canine companions say”的嵌入向量与“woof”的嵌入向量比与“meow”的嵌入向量更为接近。

嵌入可以将对象表示为包含其语义信息的密集向量,这使它们在广泛的机器学习应用中非常有用。

相似性搜索是向量嵌入最受欢迎的用途之一。像KNN和ANN这样的搜索算法需要计算向量之间的距离以确定它们的相似性。向量嵌入可以用来计算这些距离,而最近邻搜索可以用于去重、推荐、异常检测、反向图像搜索等任务。

即使我们不直接在应用程序中使用嵌入,许多流行的机器学习模型和方法在内部也依赖于它们。例如,在编码器-解码器架构中,编码器生成的嵌入包含了解码器产生结果所需的信息,这种架构在机器翻译和标题生成等应用中得到了广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2056756.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何为您的专用IP地址选择正确的IP SSL证书

随着互联网的不断发展,网站安全变得越来越重要。SSL证书不仅为网站提供了加密通道,还增强了用户对网站的信任感。对于那些使用专用IP地址的网站来说,选择合适的IP SSL证书至关重要。本文将为您详细介绍如何挑选最适合您网站需求的IP SSL证书。…

Cocos Creator2D游戏开发(14)---CocosCreator常用组件详解

Canvas RenderRoot2D 组件所在的节点是 2D 渲染组件数据收集的入口,而 Canvas(画布) 组件继承自 RenderRoot2D 组件,所以 Canvas 组件也是数据收集入口。所有 2D 渲染元素都必须作为 RenderRoot2D 的子节点才能被渲染。 Canvas还作为屏幕适配…

Web基础、http协议、源码编译构建LAMP

目录 一、DNS与域名 1.1域名概述 1.2域名小结 1.3DNS域名解析 1.4域名 二、网页的概念 1.网页的基本概念 三、web 1.1web概述 1.2渲染过程 1.3web1.0和web2.0 1.4静态页面和动态页面 四、http协议 1.http协议简介 2.cookie和session 2.1cookie 2.2session 3.c…

React学习笔记(一)——react基础

1. React 介绍 1.1 React是什么 React由Meta公司研发,是一个用于 构建Web和原生交互界面的库 1.2 React的优势 相较于传统基于DOM开发的优势: 组件化的开发方式不错的性能 相较于其它前端框架的优势: 丰富的生态跨平台支持 1.3 React的市场…

国内知名电器集团售后服务系统被黑!损失1.2亿!

两款软件入侵 近期,一款名为“A助手”的软件和另一款“B配置工具”被揭露存在严重的非法活动。 这两款软件被不法分子利用,并成功侵入了某知名企业的电器售后服务系统。通过技术手段,伪造了电器安装服务的工单,并以此骗取了大量的…

24年银行从业资格考试报名照规格要求

24年银行从业资格考试报名照规格要求 #银行从业 #银行从业资格证 #银行从业考试 #银行从业资格考试 #银行从业资格证报名照片 #银从

Unity 波函数坍缩算法随机地图生成

Unity 波函数坍缩算法随机地图生成 波函数波函数基本概念位置空间波函数动量空间波函数两种波函数之间的关系波函数的本征值和本征态波函数坍缩 熵是什么熵作为状态函数时间之箭 实现原理举个例子:2D迷宫地图生成 Unity 如何实现前期准备单元格代码瓦片地图代码波函…

使用亮数据爬虫工具解锁复杂爬虫场景

在当今数据驱动型时代,数据采集和分析能力算是个人和企业的核心竞争力。然而,手动采集数据耗时费力且效率低下,而且容易被网站封禁。 我之前使用过一个爬虫工具,亮数据(Bright Data) ,是一款低…

PCIe学习笔记(25)

数据完整性 PCI Express的基本数据可靠性机制包含在数据链路层(data Link Layer)中,它使用32位的LCRC (CRC)码逐链路检测TLP中的错误,并采用逐链路重传机制进行错误恢复。TLP是一个数据和事务控制单元,由位于PCI Express域“边缘”的数据源(…

重大发现!看Apache与nginx工作模型,享web服务幸福人生

文章目录 文章相关连接如下: Web 服务基础介绍ApacheApache prefork 模型 Apache worker 模型Apache event模型 Nginx-高性能的 Web 服务端nginx源码安装平滑升级和回滚平滑升级步骤:回滚步骤 nginx启动文件 文章相关连接如下: 如果想更多了…

【GH】【EXCEL】P4: Chart

文章目录 data and chartdonut chart (radial chart)Radial Chart bar chartBar Chart line chartLine Chart Scatter ChartScatter Chart Surface ChartSurface Chart Chart DecoratorsChart Decorators Chart GraphicsChart Graphics data and chart donut chart (radial cha…

《面板变系数模型及 Stata 具体操作步骤》

目录 一、文献综述 二、理论原理 三、实证模型 四、稳健性检验 五、程序代码及解释 六、代码运行结果 一、文献综述 在经济和社会科学研究领域,面板数据模型因其能够同时考虑个体和时间维度的信息而被广泛应用。传统的面板数据模型通常假设系数是固定的&#…

1.初识redis

文章目录 1.认识redis1.1 mysql和redis 对比1.2分布式系统1.2.1单机架构与分布式架构1.2.2数据库分离(应用服务器和存储服务器分离)与负载均衡1.2.3负载均衡器1.2.4 数据库读写分离1.2.5 数据库服务器引入缓存1.2.6数据库分库分表1.2.7 引入微服务 2.常见概念解释2.1 应用(Appl…

GoModule

GOPATH 最早的就是GOPATH构建模式, go get下载的包都在path中的src目录下 src目录是源代码存放目录。 package mainimport ("net/http""github.com/gorilla/mux" )func main() {r : mux.NewRouter()r.HandleFunc("/hello", func(w h…

iptables流量走向图

关联教学 https://www.bilibili.com/video/BV1dw411J7Qk/?spm_id_from333.337.search-card.all.click

7.2 算法设计与分析

分治法(考的概率较低) 回溯法(考的概率较低) 动态规划法(考的概率较高) 1

第四届机电一体化、自动化与智能控制国际学术会议(MAIC 2024)

目录 大会官网 会议简介 组织机构 大会主席 程序委员会主席 主讲嘉宾 征稿主题 参会说明 大会官网 http://www.icmaic.org 会议简介 第四届机电一体化、自动化与智能控制国际学术会议(MAIC 2024)将于2024年9月27-29日在中国成都召开。MAIC 20…

高性能MySQL04_操作系统和硬件优化

1. 从软件本身和它运行的典型工作负载来看,MySQL通常也更适合运行在廉价硬件上 2. 基本资源 2.1. CPU 2.2. 内存 2.3. 磁盘 2.4. 瓶颈 2.5. 网络资源 3. CPU 3.1. 最常见的瓶颈是CPU耗尽 3.2. 检查CPU使用率来确定工作负载是否受CPU限制 3.3. 低延迟&…

机器人学——正向运动学(机械臂)

Manipulator Forward Kinematics 机械臂基础概念 Joint and Link 连杆长度、连杆夹角 连杆偏距与关节角 移动关节看距离、旋转关节看角度 如何在杆上建立坐标系 地杆(link0)坐标系的建立 末端杆件坐标系的建立 DH表达法 如何计算出两杆之间的变换矩阵…

Qt鼠标键盘事件监听

普通的程序中. 鼠标事件监听 要监听鼠标事件,你可以使用QMouseEvent类,它提供了多种类型的鼠标事件,如QMouseEvent::MouseButtonPress、QMouseEvent::MouseButtonRelease、QMouseEvent::MouseMove等。 但是离开程序后就很难监听到&#xff0c…