预训练语言模型——BERT

news2025/1/11 13:38:01

1.预训练思想

有了预训练就相当于模型在培养大学生做任务,不然模型初始化再做任务就像培养小学生

当前数据层面的瓶颈是能用于预训练的语料快被用完了

现在有一个重要方向是让机器自己来生成数据并做微调

1.1 预训练(Pre - training)vs. 传统的微调(Fine - tune)

一、训练过程

  1. 预训练
    • 预训练通常是在大规模的无监督数据上进行训练。例如,在自然语言处理中,会使用大量的文本语料,如维基百科、新闻文章等,这些文本没有经过人工标注类别等信息。模型(如 Transformer 架构的 BERT、GPT 等)通过学习文本中的词序、语义等特征来构建语言知识。
    • 以 BERT 为例,它通过预测句子中的被掩盖的单词(Masked Language Modeling)判断两个句子是否是上下句(Next Sentence Prediction)等任务来进行预训练。这种无监督的预训练方式使得模型能够学习到通用的语言模式和语义表示,为后续的具体任务训练打下基础。
  2. 传统微调(Fine - tune)
    • 传统微调方法是在一个已经预定义好的模型结构上,使用有监督的数据进行训练。比如在图像分类任务中,会有一个标注好的图像数据集,其中每个图像都有对应的类别标签(如猫、狗等)。
    • 模型从随机初始化的参数开始,根据给定的输入(图像)和期望的输出(类别标签),通过反向传播算法来调整模型的参数,以最小化预测结果和真实标签之间的误差。例如,对于一个简单的卷积神经网络(CNN)用于图像分类,会使用标注好的图像数据集(如 CIFAR - 10、ImageNet 等),经过多个轮次(epochs)的训练来优化模型的权重,使模型能够准确地对图像进行分类。

二、模型初始化和参数更新

  1. 预训练
    • 预训练后的模型具有已经学习到的通用特征表示。例如,预训练后的语言模型的词向量已经包含了丰富的语义信息。这些参数是在大规模无监督数据上训练得到的,是对语言(或其他数据类型)的一种通用理解。
    • 在后续用于特定任务时,预训练模型的参数可以作为初始参数,并且通常只是在这些参数的基础上进行微调。这样可以利用预训练模型中已经学习到的知识,减少在特定任务上的训练时间和数据量需求。
  2. 传统微调
    • 传统微调方法中的模型参数通常是随机初始化的这意味着模型在训练开始时没有任何先验知识,需要从输入数据中完全学习特征表示和任务相关的模式。
    • 整个训练过程主要是针对特定任务的参数更新。例如,在一个情感分类任务中,模型通过不断调整参数来学习如何根据文本内容判断情感倾向(积极、消极或中性),这些参数更新是基于给定的有监督数据和特定的任务目标。

三、数据要求

  1. 预训练
    • 需要大规模的无监督数据。因为预训练的目的是学习通用的特征表示,只有足够多的数据才能涵盖各种可能的语言模式、图像特征等。例如,在自然语言处理中,像 GPT - 3 这样的模型训练数据量达到了数千亿个单词。
    • 数据的质量要求相对灵活,主要是为了让模型学习到丰富的语义和语法结构。即使数据中存在一些噪声或者不精确的内容,在大规模数据的情况下,模型仍然能够学习到有价值的信息。
  2. 传统微调
    • 需要有监督的数据,即数据需要带有明确的标签。例如,在文本分类任务中,每个文本都需要标注其所属的类别;在目标检测任务中,图像中的目标需要标注其位置和类别等信息。
    • 数据量要求相对较小,但数据的标注质量要求较高。因为模型完全依赖这些有监督数据来学习特定任务的模式,如果数据标注不准确,会严重影响模型的性能。

四、适用场景和性能表现

  1. 预训练
    • 适用于各种自然语言处理、计算机视觉等任务。当有大量的无监督数据可供利用时,预训练能够学习到通用的知识,然后可以快速适应到多种具体任务中。
    • 在数据量有限的情况下,预训练方法可以借助预训练模型的知识来提高性能。例如,在一些小数据集的文本分类任务中,使用预训练的 BERT 模型并进行微调,往往比从头开始训练的模型取得更好的效果,因为预训练模型已经学习到了语言的基本语义和语法结构。
  2. 传统微调
    • 适用于一些相对简单、数据量不大且有高质量标注数据的任务。例如,在一些特定领域的图像分类任务,如医学图像中区分正常细胞和癌细胞,当有足够准确的标注数据时,传统微调方法可以取得不错的效果。
    • 但是,在数据量较少或者任务较为复杂的情况下,传统微调方法可能会因为缺乏足够的先验知识而出现过拟合或者性能不佳的情况。因为它需要从有限的数据中学习所有的特征表示和任务模式,而没有利用到像预训练方法那样的通用知识。

 

1.2 BERT的本质是一种文本表征(context representation)

文本  ->  矩阵   (max length  x  hidden size)

文本  ->  向量   (1  x  hidden size)

word2vec也可以做到同样的事 但word2vec是静态的,而BERT是动态的

         1.我喜欢吃苹果        2.苹果和华为哪个牌子好(1和2的苹果不是同一个向量)

词义要结合语境来判断每个词的表示都与整句话的语境有关,同一个词在不同语境下向量不同

1.3 BERT模型详解

论文参考《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》

  1. BERT 模型的背景

    • BERT(Bidirectional Encoder Representations from Transformers)是由谷歌在 2018 年提出的一种预训练语言模型。在它出现之前,语言模型主要是单向,如从左到右或者从右到左处理句子。这种单向性限制了对句子完整语义的理解,因为它不能同时利用句子前后的信息。BERT 的出现改变了这一局面,它基于 Transformer 架构的编码器部分,通过双向训练的方式能够更好地理解文本的语义和语法。
  2. 模型架构

    • Transformer 编码器:BERT 的核心架构是 Transformer 的编码器部分。它由多个 Transformer 编码器层堆叠而成。例如,BERT - base 通常有 12 层,BERT - large 有 24 层。每个编码器层都包含多头注意力机制(Multi - Head Attention)和前馈神经网络(Feed - Forward Network),并且在每个子层之间都有残差连接(Residual Connection)和层归一化(Layer Normalization),这使得模型能够有效地捕捉文本中的语义和语法信息,并且训练过程更加稳定。Transformer架构浅析-CSDN博客
    • 输入表示:BERT 的输入是经过特殊处理的文本序列。它使用 WordPiece 分词算法将文本分割成单词或者子词(sub - word)单元。对于输入序列,会添加特殊的标记,如 [CLS](用于分类任务的汇总表示,通常放在句子的开头)和 [SEP](用于分隔句子,例如在处理句子对任务时使用)。每个输入单元的最终表示是词嵌入(Token Embedding)、位置嵌入(Positional Embedding)和段嵌入(Segment Embedding,用于区分不同的句子部分,比如句子对任务中的两个句子)的组合。
    • 加入 [CLS]  [SEP] 来标记文本起始位置

      Segment embedding 判断来源语句,区分不同句子

      Position embedding 带入语序信息,标记词的前后顺序

      加和后会做Layer Normalization

      Toekn EmbeddingsSegment EmbeddingsPosition Embeddings维度是相同的——768(BERT - base)

      位置编码和 文字内容无关只和句子长度有关,token编码和句子内容有关

      最终将三层embeddings相加得到一个总的embeddings,其总长度就是L * 768

      三层输出的矩阵大小都是 L * 768,所以最终能相加

      segment embeddingsposition embeddings当下不怎么用了,被更高级的方法取代,但还是要掌握(self attentionrrn好在它不受两个字距离大小的影响,第一个字和最后一个字有可能计算出很高的关联性分值)

    • 模型规模:BERT 有不同的参数规模,如 BERT - base1.1 亿个参数BERT - large 约有 3.4 亿个参数。这些大规模的参数使得 BERT 能够学习到丰富的语言表示,从而在各种自然语言处理任务中表现出色。
  3. 预训练任务

    • 掩码语言模型(Masked Language Model,MLM):这是 BERT 的一个关键创新点。在预训练过程中,会随机地掩盖输入句子中的一些单词(例如,15% 的单词被选中),然后让模型预测这些被掩盖的单词是什么。具体来说,被选中的单词有 80% 的概率被替换为 [MASK] 标记,10% 的概率被替换为其他随机单词,10% 的概率保持不变。通过这种方式,模型被迫去学习单词之间的语义关系,而不仅仅是记忆单词序列。例如,对于句子 “我 [MASK] 红色的花”,模型需要根据上下文 “我” 和 “红色的花” 来推断被掩盖的单词可能是 “喜欢”。
    • 下一句预测(Next Sentence Prediction,NSP)用于训练模型理解句子之间的关联关系。在这个任务中,模型会同时输入两个句子,然后判断这两个句子是否是相邻的句子。例如,对于句子对(“太阳升起。”,“天空变亮。”)和(“太阳升起。”,“鱼儿在水中游。”),模型需要判断哪一对句子是相邻的,从而学习句子之间的语义连贯。这对于诸如问答系统、文本推理等任务非常重要。
  4. 微调(Fine - Tuning)与应用场景

    • 微调过程BERT 的一个强大之处在于它可以通过微调来适应各种下游自然语言处理任务。在微调阶段,将预训练好的 BERT 模型的参数作为初始值,然后根据具体的任务(如文本分类、问答系统、命名实体识别等)添加一个或几个特定的输出层。例如,在文本分类任务中,可以在 BERT 的输出上添加一个全连接层,将 BERT 的输出维度转换为类别数量,然后在有监督的数据上进行训练,使模型适应文本分类的任务需求。

 

  1. 应用场景
    • 命名实体识别(NER):可以识别文本中的人名、地名、组织机构名等实体。BERT 利用其预训练学到的语义知识,结合微调阶段针对 NER 任务的优化,能够更好地识别这些实体的边界和类别。
    • 问答系统(QA):在问答任务中,给定一个问题和一段文本(如维基百科文章),BERT 可以通过对问题和文本进行编码,计算它们之间的相关性,从而找到文本中与问题对应的答案部分。
    • 文本分类:BERT 能够对文本的情感、主题等进行分类。例如,将新闻文章分类为体育、娱乐、政治等类别。它通过对文章内容进行编码,提取语义特征,然后在微调后的输出层进行分类。

2.transformer结构

Transformer架构浅析-CSDN博客

3.预训练技术的发展

BERT的优势

1、通过预训练利用了海量无标注文本数据

2、相比词向量,BERT的文本表示结合了语境(contexual),效果大幅提升

3、Transformer模型结构有很强的拟合能力,词与词之间的距离不会造成关系计算上的损失

  1. 双向编码能力

    • BERT 采用双向 Transformer 架构,能够同时考虑单词的左右上下文信息,这是其一个重要的优势。传统的语言模型,如 GPT 系列,通常是单向的,要么从左到右,要么从右到左处理句子。而 BERT 的双向性使其可以更全面地理解文本的语义。
    • 例如,对于句子 "I went to the bank to deposit money." 和 "I sat on the bank of the river.",BERT 可以根据 "bank" 前后的不同上下文来更好地理解 "bank" 的不同含义,而单向模型可能会在理解一词多义时出现混淆。
  2. 预训练任务的有效性

    • 掩码语言模型(Masked Language Model, MLM):BERT 的 MLM 任务随机地掩盖输入句子中的一些单词,让模型预测这些被掩盖的单词,使模型能够学习到丰富的上下文信息和词汇语义关系。这种方式让 BERT 不仅学习到了单词的顺序,还能理解它们之间的语义关联,增强了对文本的理解能力。
    • 下一句预测(Next Sentence Prediction, NSP):这个任务让 BERT 学习到句子之间的关系,对于需要理解句子间语义连贯的下游任务,如问答系统、文本摘要、文本推理等,具有重要意义。它可以帮助模型更好地处理句子对,判断它们是否在语义上连贯。
  3. 迁移学习和通用性

    • BERT 是一种预训练语言模型,可以轻松地迁移到各种自然语言处理(NLP)任务中。通过在大规模文本数据上进行预训练,BERT 已经学习到了丰富的语言知识。对于下游任务,只需要在预训练模型的基础上添加一个或几个特定的输出层,并使用少量标注数据进行微调,就可以取得出色的性能。
    • 这意味着它可以广泛应用于文本分类、情感分析、命名实体识别、问答系统等多种任务,无需为每个任务设计专门的架构,大大减少了开发成本和时间。
  4. 长距离依赖捕捉能力

    • 基于 Transformer 的自注意力机制,BERT 能够有效地捕捉文本中的长距离依赖关系。传统的循环神经网络(RNN)或卷积神经网络(CNN)在处理长文本和复杂句法结构时,会因为距离限制或计算效率问题而受到影响。而 BERT 可以直接计算任意位置单词之间的关联程度,不受距离的限制,有助于理解长句子中的语义关系。、
  5. 深度语义理解

    • BERT 能够对文本的语义和语法结构进行深度理解,学习到高级的语言知识,如句子的成分结构、语义角色标注等。在各种任务中,它可以根据上下文信息做出更准确的判断,例如在命名实体识别中准确判断实体的类别,在情感分析中精准感知情感倾向的细微变化。

BERT的劣势

1.预训练需要数据,时间,和机器(开源模型缓解了这一问题)

2.难以应用在生成式任务上

3.参数量大,运算复杂,满足不了部分真实场景性能需求

4.没有下游数据做fine-tune,效果依然不理想

  1. 计算资源需求大

    • BERT 模型规模较大,尤其是 BERT-large 版本,有大量的参数,因此需要大量的计算资源进行训练和微调。这对于硬件设备的要求较高,普通的 CPU 很难处理,需要强大的 GPU 集群,并且训练时间较长。
    • 即使在推理阶段,也需要较大的内存和计算能力,可能导致部署困难,特别是在资源受限的环境中,如移动设备或边缘计算设备。
  2. 预训练数据的偏差

    • BERT 的预训练数据可能存在偏差,它是在大规模的文本数据上训练的,但这些数据可能更多地偏向某些领域或语言风格。当应用于特定领域或小众语言时,可能会出现性能下降的情况。
    • 例如,在处理专业领域的文本(如医学、法律、金融),如果预训练数据中该领域的数据较少,那么 BERT 可能无法很好地理解其中的专业术语和特殊语言表达。
  3. 序列长度限制

    • BERT 对输入序列的长度有一定的限制,当处理非常长的文本时,需要将其截断或分块处理,这可能会丢失部分信息。虽然其可以处理一定长度的序列,但对于超长文本,会导致性能下降或需要复杂的处理方法。
  4. 可解释性较差

    • 与传统的基于规则的方法相比,BERT 是一种深度学习模型,其内部的决策过程很难解释。我们很难知道 BERT 是如何做出具体的预测和决策的,这在一些对可解释性要求较高的应用场景中是一个缺点,例如医疗诊断、金融风险评估等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2274933.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

ElasticSearch 认识和安装ES

文章目录 一、为什么学ElasticSearch?1.ElasticSearch 简介2.ElasticSearch 与传统数据库的对比3.ElasticSearch 应用场景4.ElasticSearch 技术特点5.ElasticSearch 市场表现6.ElasticSearch 的发展 二、认识和安装ES1.认识 Elasticsearch(简称 ES)2.El…

mysql和redis的最大连接数

平时我们要评估mysql和redis的最大连接数,可以选择好环境(比如4核8G),定好压测方法(没有索引的mysql单表,redis单key)进行压测,评估其最大并发量。 也可以查看各大云厂商的规格进行评估。 mys…

2025年中科院分区大类划分公布!新增8155本

2025年中科院分区表变更情况 扩大收录范围 2025年的期刊分区表在原有的自然科学(SCIE)、社会科学(SSCI)和人文科学(AHCI)的基础上,增加了ESCI期刊的收录,并根据这些期刊的数据进行…

机器人避障不再“智障”:HEIGHT——拥挤复杂环境下机器人导航的新架构

导读: 由于环境中静态障碍物和动态障碍物的约束,机器人在密集且交互复杂的人群中导航,往往面临碰撞与延迟等安全与效率问题。举个简单的例子,商城和车站中的送餐机器人往往在人流量较大时就会停在原地无法运作,因为它不…

Spring Boot教程之五十二:CrudRepository 和 JpaRepository 之间的区别

Spring Boot – CrudRepository 和 JpaRepository 之间的区别 Spring Boot建立在 Spring 之上,包含 Spring 的所有功能。由于其快速的生产就绪环境,使开发人员能够直接专注于逻辑,而不必费力配置和设置,因此如今它正成为开发人员…

加速物联网HMI革命,基于TouchGFX的高效GUI显示方案

TouchGFX 是一款针对 STM32 微控制器优化的先进免费图形软件框架。 TouchGFX 利用 STM32 图形功能和架构,通过创建令人惊叹的类似智能手机的图形用户界面,加速了物联网 HMI 革命。 TouchGFX 框架包括 TouchGFX Designer (TouchGFXDesigner)(…

Java-数据结构-栈与队列(StackQueue)

一、栈(Stack) ① 栈的概念 栈是一种特殊的线性表,它只允许固定一端进行"插入元素"和"删除元素"的操作,这固定的一端被称作"栈顶",对应的另一端就被称做"栈底"。 📚 栈中的元素遵循后…

案例研究:UML用例图中的结账系统

在软件工程和系统分析中,统一建模语言(UML)用例图是一种强有力的工具,用于描述系统与其用户之间的交互。本文将通过一个具体的案例研究,详细解释UML用例图的关键概念,并说明其在设计结账系统中的应用。 用…

【动态规划篇】欣赏概率论与镜像法融合下,别出心裁探索解答括号序列问题

本篇鸡汤:没有人能替你承受痛苦,也没有人能拿走你的坚强. 欢迎拜访:羑悻的小杀马特.-CSDN博客 本篇主题:带你解答洛谷的括号序列问题(绝对巧解) 制作日期:2025.01.10 隶属专栏:C/C题…

点击底部的 tabBar 属于 wx.switchTab 跳转方式,目标页面的 onLoad 不会触发(除非是第一次加载)

文章目录 1. tabBar 的跳转方式2. tabBar 跳转的特点3. 你的配置分析4. 生命周期触发情况5. 总结 很多人不明白什么是第一次加载,两种情况讨论,第一种情况假设我是开发者,第一次加载就是指点击微信开发者工具上边的编译按钮,每点击…

CUDA、CUDNN以及tensorRT的版本对应关系

各版本的对应除了可以看文件的命名上还可以查看TensorRT的Release日志: Release Notes :: NVIDIA Deep Learning TensorRT Documentation 这个是官方测试TensorRT的Release日志,里面指明了当前测试的TensorRT版本是在哪个CUDNN等库下的测试结果&#x…

设计模式(观察者模式)

设计模式(观察者模式) 第三章 设计模式之观察者模式 观察者模式介绍 观察者模式(Observer Design Pattern) 也被称为发布订阅模式 。模式定义:在对象之间定义一个一对多的依赖,当一个对象状态改变的时候…

Helm部署activemq

1.helm create activemq 创建helm文件目录 2.修改values.yaml 修改image和port 3. helm template activemq 渲染并输出 4. helm install activemq activemq/ -n chemical-park // 安装 5.启动成功

Untiy中如何嵌入前端页面,从而播放推流视频?

最近工作中频繁用到unity,虽然楼主之前也搞过一些UNTY游戏开发项目,但对于视频这块还是不太了解,所以我们采用的方案是在Unity里寻找一个插件来播放推流视频。经过我的一番寻找,发现了这款Vuplex 3D WebView,它可以完美的打通Unit…

rabbitmq的三个交换机及简单使用

提前说一下,创建队列,交换机,绑定交换机和队列都是在生产者。消费者只负责监听就行了,不用配其他的。 完成这个场景需要两个服务哦。 1直连交换机-生产者的代码。 在配置类中创建队列,交换机,绑定交换机…

Excel 技巧07 - 如何计算到两个日期之间的工作日数?(★)如何排除节假日计算两个日期之间的工作日数?

本文讲了如何在Excel中计算两个日期之间的工作日数,以及如何排除节假日计算两个日期之间的工作日数。 1,如何计算到两个日期之间的工作日数? 其实就是利用 NETWORKDAYS.INTL 函数 - weekend: 1 - 星期六,星期日 2,如…

初学stm32 --- DAC模数转换器工作原理

目录 什么是DAC? DAC的特性参数 STM32各系列DAC的主要特性 DAC框图简介(F1/F4/F7) 参考电压/模拟部分电压 触发源 关闭触发时(TEN0)的转换时序图 DMA请求 DAC输出电压 什么是DAC? DAC,全称:Digital…

从预训练的BERT中提取Embedding

文章目录 背景前置准备思路利用Transformer 库实现 背景 假设要执行一项情感分析任务,样本数据如下 可以看到几个句子及其对应的标签,其中1表示正面情绪,0表示负面情绪。我们可以利用给定的数据集训练一个分类器,对句子所表达的…

从CentOS到龙蜥:企业级Linux迁移实践记录(系统安装)

引言: 随着CentOS项目宣布停止维护CentOS 8并转向CentOS Stream,许多企业和组织面临着寻找可靠替代方案的挑战。在这个背景下,龙蜥操作系统(OpenAnolis)作为一个稳定、高性能且完全兼容的企业级Linux发行版&#xff0…

车联网安全--TLS握手过程详解

目录 1. TLS协议概述 2. 为什么要握手 2.1 Hello 2.2 协商 2.3 同意 3.总共握了几次手? 1. TLS协议概述 车内各ECU间基于CAN的安全通讯--SecOC,想必现目前多数通信工程师们都已经搞的差不多了(不要再问FvM了);…