大型语言模型:SBERT — Sentence-BERT

news2025/2/5 2:53:07
@slavahead

一、介绍

        Transformer 在 NLP 方面取得了进化进步,这已经不是什么秘密了。基于转换器,许多其他机器学习模型已经发展起来。其中之一是BERT,它主要由几个堆叠的变压器编码器组成。除了用于情感分析或问答等一系列不同的问题外,BERT在构建词嵌入(表示词的语义含义的数字向量)方面也越来越受欢迎。

        以嵌入的形式表示单词具有巨大的优势,因为机器学习算法不能处理原始文本,但可以对向量的向量进行操作。这允许通过使用欧几里得或余弦距离等标准度量来比较不同单词的相似性。

        问题在于,在实践中,我们经常需要构造嵌入,而不是为单个单词,而是为整个句子。但是,基本的 BERT 版本仅在单词级别上构建嵌入。因此,后来开发了几种类似 BERT 的方法来解决此问题,本文将对此进行讨论。通过逐步讨论它们,我们将达到称为 SBERT 的最先进的模型。

为了深入了解 SBERT 在后台的工作原理,建议您已经熟悉 BERT。如果没有,本系列文章的前一部分将对此进行详细解释。

二、Bert

首先,让我们提醒一下 BERT 如何处理信息。作为输入,它采用一个 [CLS] 令牌和两个句子,由一个特殊的 [SEP] 标记分隔。根据型号配置,多头注意力块会处理 12 或 24 次此信息。然后,将输出聚合并传递到简单的回归模型以获取最终标签。

BERT架构

有关 BERT 内部工作原理的更多信息,您可以参考本系列文章的前一部分:

2.1 交叉编码器架构

可以使用BERT来计算一对文档之间的相似性。考虑在大型集合中查找最相似的句子对的目标。为了解决这个问题,每个可能的对都被放在BERT模型中。这会导致推理过程中的二次复杂度。例如,处理 n = 10 000 个句子需要 n * (n — 1) / 2 = 49 995 000 次推理 BERT 计算,这实际上不可扩展。

2.2 其他方法

分析交叉编码器架构的低效率,为每个句子独立预计算嵌入似乎是合乎逻辑的。之后,我们可以直接计算所有文档对上所选的距离度量,这比将二次数的句子对提供给 BERT 要快得多。

不幸的是,这种方法在BERT中是不可能的:BERT的核心问题是,每次同时传递和处理两个句子时,很难获得仅独立表示单个句子的嵌入。

研究人员试图通过使用 [CLS] 标记嵌入的输出来消除这个问题,希望它包含足够的信息来表示一个句子。然而,事实证明,[CLS]对这项任务根本没有用,因为它最初是在BERT中预先训练的,用于下一个句子预测。

另一种方法是将单个句子传递给 BERT,然后对输出标记嵌入进行平均。然而,获得的结果甚至比简单地平均GLoVe嵌入还要糟糕。

推导独立的句子嵌入是BERT的主要问题之一。为了缓解这一方面,开发了SBERT。

三、SBERT

SBERT 引入了连体网络概念,这意味着每次两个句子通过同一个 BERT 模型独立传递。在讨论 SBERT 架构之前,让我们先看一下关于连体网络的一个微妙的注释:

大多数时候,在科学论文中,暹罗网络架构被描述为几个模型接收如此多的输入。实际上,可以将其视为具有相同配置和权重的单个模型,这些配置和权重在多个并行输入之间共享。每当为单个输入更新模型权重时,它们也会为其他输入同样更新。

左边是非连体(交叉编码器)架构,右边是连体(双编码器)架构。主要区别在于,在左侧,模型同时接受两个输入。在右侧,模型并行接受两个输入,因此两个输出不相互依赖。

回到 SBERT,在通过 BERT 传递句子后,将池化层应用于 BERT 嵌入以获得其低维表示:最初的 512 个 768 维向量被转换为单个 768 维向量。对于池化层,SBERT的作者建议选择均值池化层作为默认层,尽管他们也提到可以使用最大池化策略,或者简单地采用[CLS]令牌的输出。

当两个句子都通过池化层时,我们有两个 768 维向量 u 和 v。通过使用这两个向量,作者提出了三种优化不同目标的方法,这些方法将在下面讨论。

3.1 分类目标函数

        此问题的目标是在几个类之一中正确地对给定的一对句子进行分类。

        在生成嵌入 u 和 v 之后,研究人员发现生成从这两个源得出的另一个向量作为元素绝对差 |u-v| 是有用的。他们还尝试了其他特征工程技术,但这种技术显示出最好的结果。

        最后,将三个向量 uv 和 |u-v| 连接起来,乘以可训练的权重矩阵 W,并将乘法结果输入 softmax 分类器,该分类器输出对应于不同类的句子的归一化概率。交叉熵损失函数用于更新模型的权重。

        用于分类目标的 SBERT 架构。参数 n 代表嵌入的维度(默认为 768 作为 BERT base),而 k 表示标签的数量。

      NLI(自然语言推理)是用于解决该目标的最流行的现有问题之一,其中对于定义假设和前提的给定句子 A 和 B 对,有必要预测假设是真(蕴涵)、假(矛盾)还是未确定(中性)给定前提。对于此问题,推理过程与训练相同。

        如本文所述,SBERT模型最初是在SNLI和MultiNLI两个数据集上训练的,这两个数据集包含一百万个句子对,具有相应的标签蕴涵矛盾中性。之后,论文研究人员提到了有关SBERT调谐参数的细节:

“我们用一个 3 分 softmax 分类器目标函数对 SBERT 进行微调,用于一个时期。我们使用了 16 个批处理大小、学习率为 2e−5 的 Adam 优化器,以及超过 10% 的训练数据的线性学习率预热。我们默认的池化策略是卑鄙的。

3.2 回归目标函数

        在此公式中,在获得向量 u 和 v 后,它们之间的相似性分数由所选的相似性指标直接计算。将预测的相似度分数与真实值进行比较,并使用 MSE 损失函数更新模型。默认情况下,作者选择余弦相似度作为相似度指标。

回归目标的SBERT架构。参数 n 代表嵌入的维数(默认为 768 作为 BERT 基数)。

在推理过程中,可以通过以下两种方式之一使用此体系结构:

  • 通过给定的句子对,可以计算相似度分数。推理工作流与训练完全相同。
  • 对于给定的句子,可以提取其句子嵌入(在应用池化层之后)以供以后使用。当我们得到大量句子以计算它们之间的成对相似性分数时,这特别有用。通过仅通过 BERT 运行每个句子一次,我们提取了所有必要的句子嵌入。之后,我们可以直接计算所有向量之间选择的相似度指标(毫无疑问,它仍然需要二次比较,但同时我们避免了像以前那样使用 BERT 进行二次推理计算)。

3.3 三重目标函数

        三元组目标引入了三元组损失,该损失由三个句子计算,通常称为。假设锚句和肯定句彼此非常接近,而句和否定句则非常不同。在训练过程中,模型会评估对(锚,正)与对(锚,负)相比的接近程度。在数学上,以下损失函数最小化:

原始论文中的三元组损失函数。变量 sₐ、sp、sn 分别表示锚嵌入、正嵌入和负嵌入。符号 ||小号||是向量 s 的范数。参数 ε 称为边距。

边距 ε 确保肯定句比否定句更接近锚点至少ε。否则,损失将大于 0。默认情况下,在此公式中,作者选择欧几里得距离作为向量范数,参数 ε 设置为 1。

三元组 SBERT 架构与前两个架构的不同之处在于,该模型现在并行接受三个输入语句(而不是两个)。

回归目标的SBERT架构。参数 n 代表嵌入的维数(默认为 768 作为 BERT 基数)。

四、代码

SentenceTransformers 是一个最先进的 Python 库,用于构建句子嵌入。它包含用于不同任务的多个预训练模型。使用 SentenceTransformer 构建嵌入很简单,下面的代码片段中显示了一个示例。

使用 SentenceTransformer 构造嵌入

        然后,构造的嵌入可用于相似性比较。每个模型都是针对特定任务进行训练的,因此通过参考文档选择适当的相似度指标进行比较始终很重要。

五、结论

        我们已经介绍了一种用于获取句子嵌入的高级 NLP 模型。通过将 BERT 推理执行的二次次数减少到线性,SBERT 在保持高精度的同时实现了速度的大幅增长。

        为了最终理解这种差异有多显着,参考论文中描述的例子就足够了,研究人员试图在n = 10000个句子中找到最相似的一对。在现代 V100 GPU 上,使用 BERT 时此过程大约需要 65 小时,使用 SBERT 时只需 5 秒!这个例子表明 SBERT 是 NLP 的巨大进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1328303.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

JavaOOP篇----第十一篇

系列文章目录 文章目录 系列文章目录前言一、Static关键字有什么作用?二、final在java中的作用,有哪些用法?三、StringString StringBuffffer 和 StringBuilder 的区别是什么?四、String str=”aaa”,与String str=new String(“aaa”)一样吗?前言 前些天发现了一个巨牛的…

Vanilla Pro for Mac 一款隐藏菜单栏图标工具

Vanilla Pro Vanilla Pro是一款简单易于使用的Mac应用程序,可让您隐藏菜单栏图标。只需下载Vanilla,启动应用程序,然后按照提示即可开始。 资源获取 Vanilla Pro for Mac 功能特性 键盘快捷键:设置自定义键盘快捷键来切换菜单…

算法时间复杂度和空间复杂度

算法,即解决问题的方法。同一个问题,使用不同的算法,虽然得到的结果相同,但是耗费的时间和资源是不同的。 就比如要拧一个螺母,使用扳手还是钳子是有区别的,虽然使用钳子也能拧螺母,但是没有扳…

Mybatis3系列课程8-带参数查询

简介 上节课内容中讲解了查询全部, 不需要带条件查, 这节我们讲讲 带条件查询 目标 1. 带一个条件查询-基本数据类型 2.带两个条件查询-连个基本数据类型 3.带一个对象类型查询 为了实现目标, 我们要实现 按照主键 查询某个学生信息, 按照姓名和年级编号查询学生信息 按照学生…

听说做好客流分析,可以提升门店业绩?

如今,客流统计已经是很多商场、零售门店的标配,商家可以通过客流统计了解一周内客流峰谷值变化、评估活动有没有达到理想的引流效果等等。 但事实上,客流统计的价值远不止于此,通过对客流数据进行分析,不仅可以帮我们读…

C++的面向对象学习(4):对象的重要特性:构造函数与析构函数

文章目录 前言:将定义的类放在不同文件夹供主文件调用的方法一、构造函数与析构函数1.什么是构造函数和析构函数?2.构造函数和析构函数的语法3.构造函数的具体分类和调用方法①总的来说,构造函数分类为:默认无参构造、有参构造、拷…

图像处理—小波变换

小波变换 一维小波变换 因为存在 L 2 ( R ) V j 0 ⊕ W j 0 ⊕ W j 0 1 ⊕ ⋯ L^{2}(\boldsymbol{R})V_{j_{0}}\oplus W_{j_{0}}\oplus W_{j_{0}1}\oplus\cdots L2(R)Vj0​​⊕Wj0​​⊕Wj0​1​⊕⋯,所以存在 f ( x ) f(x) f(x)可以在子空间 V j 0 V_{j_0} Vj0…

2024年Etsy开店最全攻略,Etsy如何避免被封店铺?

Etsy是一个跨境电商平台,吸引了全球手工艺品制作者加入,商品独特且价格较高,个人卖家的利润空间也很大。因此,对于跨境卖家来说,在Etsy开店非常有吸引力。今天东哥整理了一份2024年最新Etsy开店流程,对此感…

鸿蒙ArkTS语言介绍与TS基础语法

1、ArkTS介绍 ArkTS是HarmonyOS主力应用开发语言,它在TS基础上,匹配ArkUI框架,扩展了声明式UI、状态管理等响应的能力,让开发者以更简洁、更自然的方式开发跨端应用。 JS 是一种属于网络的高级脚本语言,已经被广泛用…

02-基于GEC6818开发板的画正方形、画圆的操作——使用mmap映射提高效率

02-基于GEC6818开发板的画正方形、画圆的操作——使用mmap映射提高效率 本文主要是在01-基于粤嵌GEC6818实现屏幕的显示固定颜色进行自动切换-点击前往的基础上进行了进一步的更改,之前那个在切换时会有一定的花屏,是因为其效率低的原因,本文…

猜数字游戏 C语言xdoj490

问题描述 猜数字游戏是令游戏机随机产生一个 100 以内的正整数,用户输入一个数对其进行猜测,需要你编写程序自动对其与随机产生的被猜数进行比较,并提示大了(“Too big”),还是小了(“Too smal…

GBASE南大通用数据库提供的高可用负载均衡功能

GBASE南大通用GBase 8a ODBC 提供的高可用负载均衡功能是指,GBase 8a ODBC 会将客户 端请求的数据库集群连接平均分摊到集群所有可用的节点上。 GBASE南大通用数据库负载均衡的使用方法 GBASE南大通用GBase 8a ODBC 提供两种方式来使用高可用负载均衡。一种是配置数…

Ubuntu 20.4镜像国内地址下载较快

Ubuntu20.04版本比较稳定,部署OJ大都用这个版本。 推荐阿里云镜像点,点进去根据你的电脑版本下载iso后缀那个 ubuntu-releases-20.04安装包下载_开源镜像站-阿里云 下载速度较快 其他版本 http://mirrors.aliyun.com/ubuntu-releases/ 如果使用云服务…

图像畸变校正解决方案,无畸变的高质量视觉体验

摄像头已经成为我们生活中不可或缺的一部分。然而,由于摄像头的物理特性和环境因素,采集到的图像往往存在径向和切向畸变,导致画面扭曲,影响视觉效果。为了解决这个问题,美摄科技推出了一款先进的图像畸变校正解决方案…

Java网络编程---UDP

客户端 import java.net.DatagramPacket; import java.net.DatagramSocket; import java.net.InetAddress; import java.util.Scanner;public class Client {public static void main(String[] args) throws Exception {//1.创建客户端对象DatagramSocket socket new Datagra…

node实现简单的数据爬虫

前言 我使用的是墨迹天气的页面,因为这个使用的链接简单 页面结构简单并且大都是文字形式 第一步 打开墨迹天气网址 随便点开一个页面 点击F12或者鼠标右键点击检查 查看页面的信息 分析页面内容 使用文字所在的class和标签来定位 编写代码 配置express环境 …

vscode中vue项目报错

当在vscode中写代码时,报错报错报错......... 已经头大,还没写就报错, 这是因为eslint对语法的要求太过严格导致的编译时,出现各种语法格式错误 我们打开vue.config.js,加上这句代码,就OK啦 lintOnSave:…

Python基本数据类型详解,新手小白入门必学

文章目录 1.注释2.输出3.变量4.命名规范5.变量的定义方式1.字符串类型2.数字类型3.List列表类型4.tuple 元组类型的定义5.Dict字典类型6.set集合类型7.数据类型转换8.自动类型转换9.强制类型转换Python技术资源分享1、Python所有方向的学习路线2、学习软件3、入门学习视频4、实…

关于“Python”的核心知识点整理大全35

目录 13.3.4 重构 create_fleet() game_functions.py 13.3.5 添加行 game_functions.py alien_invasion.py 13.4 让外星人群移动 13.4.1 向右移动外星人 settings.py alien.py alien_invasion.py game_functions.py 13.4.2 创建表示外星人移动方向的设置 13.4.3 检…

2023 英特尔On技术创新大会直播 | AI魅力的生活化

目录 前言正文 前言 依稀记得去年的直播大会,主要展现了其灵活、加速和半集成化的独特优势,广泛应用于人工智能、5G通信、边缘计算以及视觉图像处理等领域,不断提供领先的性能、能效和可编程性的创新。 如今又带来一些不一样的特色&#xf…