读书笔记:多Transformer的双向编码器表示法(Bert)-4

news2025/1/11 19:42:30

多Transformer的双向编码器表示法

Bidirectional Encoder Representations from Transformers,即Bert;

第二部分 探索BERT变体

从本章开始的诸多内容,以理解为目标,着重关注对音频相关的支持(如果有的话);

BERT变体:ALBERT、RoBERTTa、ELECTRA、SpanBERT、基于知识蒸馏;

  • ALBERT,A Lite version of BERT,意为BERT模型的精简版;它对BERT的架构做了一些改变,以尽量缩短训练时间;

  • RoBERTTa,Robustly Optimized BERT Pretraining Approach,意为稳健优化的BERT预训练方法,是目前比较流行的BERT变体,被应用到许多先进系统,其工作原理与BERT类似,但预训练步骤商有一些变化;

  • ELECTRA,Efficiently Learning an Encoder that Classifies Token Replacements Accurately,意为高效训练编码器如何准确分类替换标记,特别的ELECTRA使用一个生成器(generator)和一个判别器(discriminator),并使用替换标记检测这一新任务进行预训练;

  • SpanBERT,它被广泛应用于问答任务和关系提取任务;

ALBERT

《ALBERT:A Lite BERT for Self-supervised Learning of Language Representations》

BERT-base有1.1亿个参数,这使得它很难训练,且推理时间较长;

ALBERT的参数量更少,它通过:跨层参数共享、嵌入层参数因子分解,来减少参数量;

这两种方式可以有效缩短BERT模型训练时间和推理时间;

跨层参数共享

我们知道BERT-base由12层编码器组成,所有编码器层的参数将通过训练获得,但在跨层参数共享的情况下,不是学习所有编码器层的参数,而是只学习第一层编码器的参数,然后将第一层编码器的参数与其他所有编码器层共享;

应用跨层参数共享时的几种方式:

  • 全共享:其他编码器的所有子层共享编码器1的所有参数(默认所使用的);
  • 共享前馈网络层:只将编码器1的前馈网络层的参数与其他编码器的前馈网络层共享;
  • 共享注意力层:只将编码器1的多头注意力层的参数与其他编码器的多头注意力层共享;
嵌入层参数因子分解

BERT使用WordPiece词元分析器创建WordPiece标记,WordPiece标记的嵌入大小被设定为与隐藏层嵌入的大小(特征大小)相同,但WordPiece嵌入式无上下文信息的特征,它是从词表的独热(one-hot)编码向量中习得的,而隐藏层嵌入是由编码器返回的有上下文信息的特征;

使用:

  • V表示词表大小(BERT词表大小为30000)
  • H表示隐藏层嵌入大小
  • E表示WordPiece嵌入的大小;

为了将更多信息编码到隐藏层嵌入中,通常将隐藏层嵌入的大小设置为较大的一个数(BERT-base是768);

WordPiece嵌入和 隐藏层嵌入都是通过训练学习的,将二者大小设置的相同,会增加需要学习的参数数量;为避免这种情况,可以使用“嵌入层参数因子分解方法”,将嵌入矩阵分解成更小的矩阵;

通过分解:

  • 我们将独热编码向量投射到低维嵌入空间V x E;
  • 然后将这个低维嵌入投射到隐藏空间 E x H
  • 即不是直接将词表的独热编码向量投射到隐藏空间V x H;

也就是说,我们不是直接投射V x H,而是将这一步分解为 V x E和 E x H;

V = 30000、E = 128、H = 768,可以通过如下步骤投射 V x H

  • 将词表V的独热编码向量投射到低维WordPiece嵌入的大小E,即V x E;
  • 再将WordPiece嵌入大小E投射到隐藏层H中,即E x H;
ALBERT的训练

ALBERT使用了掩码语言模型构建任务进行了预训练,但并没有用下句预测任务,而是使用“句序预测任务”(sentence order prediction,SOP)这一新任务;

研究人员指出:相比掩码语言模型,下句预测并不是一个难的任务;句序预测是基于句子间连贯性,而不是基于主题预测;

句序预测也是一个二分类任务:在给定句子对中,两个句子的顺序是否被调换;模型的目标是分析句子对事属于正例(句子顺序没有互换)还是负例(句子顺序互换);

相比BERT,ALBERT的参数比较少;ALBERT-xxlarge配置的模型在多个语言基准数据集上的性能表现明显优于BERT-large;可以作为BERT的一个很好的替代品;

# 可以像使用BERT那样使用ALBERT模型
from transformers import AlbertTokenizer, AlbertModel

model = AlbertModel.from_pretrained('albert-base-v2')
tokenizer = AlbertTokenizer.from_pretrained('albert-base-v2')

sentence = "I am good"
imputs = tokenizer(sentence, reutrn_tensors = 'pt')

# inputs
# {
#     'input_ids': 
#     'token_type_ids':
#     'attention_mask':
# }

hidden_rep, cls_head = model(**inputs)

RoBERTTa

《RoBERTa:A Robustly Optimized BERT Pretraining Approach》

RoBERTTa本质还是BERT,只是在预训练过程中有如下变化:

  • 在掩码语言模型构建任务重使用动态掩码而非静态掩码;
  • 不执行下句预测任务;
  • 以大批量的方式进行训练;
  • 使用字节级字节对编码作为子词词元化算法;

静态掩码,指在预处理阶段完成随机掩盖15%标记的处理只做了一次,在多次迭代训练中预测的都是相同的掩码标记;

复制10次句子并进行随机掩盖,然后在多轮遍历训练中,依次使用每个掩盖后的句子;

研究发现,下句预测任务对预训练BERT模型并不是真的有用;因此RoBERTa中,只用了掩码语言模型构建任务来训练模型,输入是一个完整的句子,它是从一个或多个文件中连续采样而得得,输入最多由512个标记组成,如果输入达到一个文件的末尾,那么就从下一个文件开始采样;

BERT的预训练有100万步,批量大小为256;而RoBERTa的批量大小为8000,共30万步(用较大的批量进行训练可以提高模型的速度和性能);

字节级字节对编码:使用字节级序列,所使用的词表有50000个标记;

from transformers import RobertaConfig, RobertaModel, RobertaTokenizer

model = RobertaModel.from_pretrained('roberta-base')
model.config

tokenizer = RobertaTokenizer..from_pretrained('roberta-base')

tokenizer.tokenize("I am good")

ELECTRA

ELECTRA没有使用掩码语言模型构建任务作为预训练目标,而是使用一个叫做替换标记检测的任务进行预训练(并且仅使用了这个任务,下句预测也没用);

使用另一个标记进行替换,并训练模型判断标记是实际标记还是替换后的标记;

之所以这样做是因为,掩码语言模型构建使用了[MASK]标记,但在下有任务中,这个标记并不存在,这导致了预训练和微调之间的不匹配,使用替换标记检测的任务解决了预训练和微调之间的不匹配问题;

“判断标记是实际标记还是替换后的标记”的模型成为判别器,仅做分类;

  • 将一个句子随机使用[MASK]标记进行替换,然后送入另一个BERT模型,以预测被掩盖的标记,这个模型叫生成器,它会返回标记的概率分布;
  • 使用生成器生成的标记 替换给定句子中的[MASK]标记;
  • 训练判别器,训练它对标记进行分类;
  • 使用判别器,每个标记都会得到一个判别/分类结果,表示各个表示是替换标记还是实际标记;

基本上来说,判别器就是ELECTRA模型,训练结束后生成器可以移除;

  • 生成器执行的是 掩码语言模型构建任务
  • 生成器使用sigmoid函数的前馈网络层,返回标记是实际标记还是替换标记;

为了更高效的训练ELECTRA模型,可以在生成器和判别器之间共享权重,前提是二者大小相同,如果不同的话,可以使用较小的生成器,仅共享生成器和判别器之间的嵌入层(标记嵌入和位置嵌入);

from transformers import ElectraTokenizer, ElectraModel

# electra-small判别器
model = ElectraModel.from_pretrained("google/electra-small-discriminator")

# electra-small生成器
model = ElectraModel.from_pretrained("google/electra-small-generator")

SpanBERT预测文本段

SpanBERT主要用于文本区间的问答任务

  • 区别与随机掩盖,SpanBERT是随机地对连续区间进行掩码;
  • 然后将其送入SpanBERT,返回每个标记的特征;

为了预测[MASK]所代表的标记,使用掩码语言模型构建目标和区间边界目标(span boundary objective, SBO)来训练SpanBERT模型;

  • 区间边界标记特征
  • 使用[MASK]的位置嵌入

SpanBERT使用两个目标:

  • 一个是掩码语言模型构建目标,为预测掩码标记,只使用相应的标记特征;
  • 另一个是区间边界目标,为预测掩码标记,只使用区间边界标记特征和掩码标记的位置嵌入;
# pipeline API 用于无缝地执行从文本分类任务到问答任务等各类复杂任务
from transformers import pipeline

qa_pipeline = pipeline(
    "question-answering",
    model = "mrm8488/spanbert-large-finetuned-squadv2",
    tokenizer = "SpanBERT/spanbert-large-cased"
)

# 输入问题和上下文 即可得到答案
results = qa_pipeline({
    'question': "What is AI?",
    'context': "AI is ...."
})

results["answer"]

基于知识蒸馏

使用知识蒸馏法可以实现 将知识从预训练的大型BERT模型迁移到小型BERT模型;本章将了解基于知识蒸馏的BERT变体;

  • 知识蒸馏
  • DistilBERT——BERT模型的知识蒸馏版本
  • TunyBERT
  • 知识迁移到简单的神经网络
知识蒸馏

知识蒸馏(knowledge distillation)是一种模型压缩技术,指训练一个小模型来重现大型预训练模型的行为;也被称为师生学习,大模型是老师,小模型是学生;

假设通过一个预训练大模型(教师网络)来预测句子中的下一个单词,输入一个句子,网络预测将返回词表中所有单词是下一个单词的概率分布(softmax作用于输出层);

从返回的概率分布中除了概率最高的词,还有一些词的概率也相对较高;这体现了相关单词与输入句子的相关性更高,这就是所谓的隐藏知识;在知识蒸馏过程中,我们希望学生网络能从教师网络学到这些隐藏知识;

但实际的可用模型,往往会为正确的结果返回一个接近1的高概率,而对其他单词,概率都接近于0,此时概率分布中已经没有太多信息了;为此需要使用带有温度系数的softmax函数,即softmax温度;在输出层使用softmax温度,来平滑概率分布(增加T值可以是概率分布更平滑,T=1时即为标准的softmax函数);

通过softmax温度,就可以获得隐藏知识;即先用softmax温度对教师网络进行预训练,获得隐藏知识,然后在知识蒸馏中,将这些隐藏知识从教师网络迁移至学生网络;

训练学生网络

经过预训练的教师网络,在其预训练过程中使用了softmax温度;

将句子送入教师网络和学生网络,其中:

  • 教师网络返回的概率分布是我们的目标,教师网络的输出称为软目标
  • 学生网络做出的预测称为软预测
  • 最后计算软目标和软预测之间的交叉熵损失,并通过反向传播训练学生网络;

软目标和软预测之间的交叉熵损失也被称为蒸馏损失

注意:教师网络和学生网络中,softmax层的T值需保持一致(如T=5),且都大于1;

除了蒸馏损失外,我们还是用另一个损失,称为学生损失;

  • 相比软目标,硬目标就是将高概率设置为1,其余概率设置为0;
  • 相比软预测,硬预测就是softmax T=1得到的概率分布(标准softmax函数);

学生损失:

  • 即硬目标 与 硬预测之间的交叉熵损失;

计算过程:

  • 教师网络 使用T=5的softmax函数,得到软目标;
  • 对软目标,将具有高概率的位置设置为1,其余设置为0,得到硬目标;
  • 学生网络 使用T=5的softmax函数,得到软预测;
  • 学生网络 使用T=1的softmax函数,得到硬预测;
  • 软目标和软预测之间的交叉熵损失即蒸馏损失;
  • 硬目标与硬预测之间的交叉熵损失即学生损失;

最终的损失函数是 两个损失的加权和,权重分别为α和β两个超参数;

总结下:在知识蒸馏中,我们使用预训练网络作为教师网络,训练学生网络通过蒸馏从教师中获得知识;

DistilBERT模型

Hugging Face的研发开发了DistilBERT,是一个更小、更快的轻量级BERT模型;

  • 使用BERT-base作为教师
  • 一个更少层数的BERT模型,作为学生,隐藏层大小保持在768;
  • 可以使用相同的数据集进行训练;

实际训练除了蒸馏损失和学生损失,还需要计算余弦嵌入损失(cosine embedding loss):它是教师模型和学生模型所学的特征向量之间的距离,最小化该损失将使学生网络的特征向量更加准确;

损失函数是3中损失之和:

  • 蒸馏损失
  • 掩码语言模型损失(学生损失)
  • 余弦嵌入损失

通过最小化损失之和来训练学生BERT模型,即DistilBERT模型,他可以达到BERT-base 97%的准确度,在8块V100(16G)上进行了大约90小时的训练,该预训练模型Hugging Face也以公开,模型大小仅207MB;

TinyBERT模型

在TinyBERT模型,除了从教师BERT模型的输出层(预测层)向学生BERT模型迁移知识,还可以嵌入层和编码层迁移知识;

在这里插入图片描述

具体内容略过;

将知识从BERT模型迁移到神经网络中

《Distilling Tash-Specific Knowledge from BERT into Simple Neural Networks》

教师BERT模型

  • 使用预训练的BERT-large模型,需要注意的是,要将特定任务的知识从教师迁移给学生,需要先针对特定任务微调预训练的BERT-large模型,然后再将其作为教师;

学生网络:

  • 是一个简单的双向LSTM,学生网络可以根据不同任务而变化;

以句子的情感分析任务为例:

  • 将句子嵌入送入双向LSTM,得到前向、后向的隐藏状态;
  • 再将前向、后向的隐藏状态;送入带有ReLU激活函数的全连接层,返回logit向量作为输出;
  • 将logit向量送入softmax函数,得到该句是正面还是负面的概率;

损失是 学生损失 和 蒸馏损失的加权和;这里使用均方损失(MSE) 作为蒸馏损失,因为它比交叉熵损失的表现更好;学生损失还是硬目标和硬预测之间的标准交叉熵损失;

第三部分 BERT模型的应用

这里我们略过第6章和第7章;

  • 第8章 Sentence-BERT模型和特定领域的BERT模型
  • 第9章 VideoBERT模型和BART模型

第8章 Sentence-BERT模型和特定领域的BERT模型

主要学习 ClinicalBERT模型,其他内容略过;

我们知道BERT模型是使用维基百科语料库进行的预训练,对于特定领域,也可以使用特定的语料库重新训练BERT;

ClinicalBERT模型就是一个使用大型临床语料库(MIMIC-III)进行预训练的针对临床领域的BERT模型;可以应用到死亡风险评估、诊断预测等下游任务;

ClinicalBERT模型使用掩码语言模型构建任务(penicillin)和下句预测任务(isNext)进行预训练,与BERT一致;

对于超过最大标记长度512的长序列,可以将其拆分成多个子序列,然后使用公式计算分数;

t分布随机邻域嵌入法(t-SNE)被用来绘制使用ClinicalBERT模型获得的医学术语特征,以评估该模型所学到的特征;

第9章 VideoBERT模型和BART模型

VideoBERT模型
  • 是第一个联合学习视频特征及语言特征的模型,可应用于图像字幕生成、视频字幕添加、预测视频下一帧等任务;

预训练任务:

  • 掩码语言模型构建(完形填空)
  • 语言-视觉对其任务

旁白和视频画面的对应 有助于联合学习语言及视频的特征;

提取视频中语言标记和视觉标记:

  • 使用自动语音识别(ASR)工具,从视频中提取音频,再将音频转换为文本;
  • 对文本进行标记,就形成了语言标记;
  • 以20帧/秒的速度对视频中图像帧进行采样,然后将图像帧转换成1.5s的视频标记;

语言标记和视频标记结合,使用特殊标记间隔:

  • 在语言标记开头添加[CLS]标记;
  • [SEP]标记在视觉标记末尾添加,中间使用[>]标记间隔;
  • 使用[MASK]进行随机掩蔽,送入VideoBERT,返回所有标记特征;

掩码语言模型构建(完形填空)我们已经了解,对于语言-视觉对其任务:

  • 它也是一个分类任务,预测的是语言标记和视觉标记是否在时间上吻合(对齐),即预测文本是否与视频画面匹配;
  • 提取[CLS]标记特征,送入一个分类器,对是否一致进行分类;

VideoBERT模型使用了三个目标进行预训练:

  • 纯文本
  • 纯视频
  • 文本-视频

最终预训练目标是上述3个目标的加权组合;

数据源和预处理:

  • 使用YouTube教学视频,时长少于15min,共312000个,23186小时;
  • 使用YouTube API提供的自动语音识别工具,返回文本和时间戳;不同目标所使用的数据集不同;

对于从视频中采样的图像帧,使用预训练的视频卷积神经网络提取视觉特征,并使用分层的K均值算法对视觉特征进行标记;

VideoBERT模型应用:

  • 预测下一个视觉标记;
  • 由文本生成视频;
  • 生成视频字幕;
BART模型

基于Transformer架构,本质是一个降噪自编码器,通过重建受损文本进行训练的;

带有编码器和解码器的Transformer模型,将受损文本送入编码器学习,将学习得到的特征发送给解码器;解码器获得编码器生成的特征,重建原始文本;

  • 双向编码器
  • 自回归解码器(单向的)

BART模型通过最小化重建损失来训练,也就是原始文本和解码器的生成文本之间的交叉熵损失

BART模型与BERT模型不同,在BERT中,只是将被掩盖的标记送入编码器,然后将编码器的结果送入前馈网络层,用前馈网络层来预测被掩盖的标记;而在BART中,将编码器的结果反馈给解码器,由其生成或构建原始句子;

集中破坏文本增噪方法:

  • 标记掩盖:用[MASK]随机替换一些标记
  • 标记删除
  • 标记填充:用一个[MASK]掩盖连续的标记
  • 句子重排:随机打乱橘子顺序
  • 文档论换:随机选择文档中的一个标记作为文档的开始,然后将所选标记之前的所有标记添加到文档的末尾;
# 文本摘要任务应用
from transformers import BartTokenizer, BartForConditionalGeneration

model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')

text = """
...
"""

# 对文本进行标记
inputs = tokenizer([text], max_length=1025, return_tensors='pt')

# 获取摘要ids(即模型生成的标记ID)
summary_ids = model.generate(inputs['input_ids'], num_beams=4, max_length=100, early_stopping=True)

# 对摘要进行解码
summary = ([tokenizer.decode(i, skip_special_tokens=True, clean_up_tokenization_spaces=False) for i in summary_ids])

print(summary)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1077050.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Nginx、Git、Gitee的介绍及使用

目录 1、项目启动思路 2、Nginx 一、下载Nginx 1、下载地址 2、选择下载稳定版本 3、解压安装包 二、Nginx的原理 1、原理图 2、流程分析 三、配置Nginx 1、第一步:解决各种js报错 2、第二步:配置Nginx 3、启动/停止/重启Nginx 4、访问网址 …

企业信息查询:洞悉市场,抢占先机

随着互联网的普及和信息技术的不断发展,我们对于企业工商信息的需求逐渐增加,市面上也出现了很多查询企业信息的产品。作为一家专业的企业数据提供商,经过精心地研发,我们打造了一款“公抓抓”,该平台可以批量爬取国家…

计网 静态库和动态库

计网 静态库和动态库 一.我们先来了解一下一个程序编译成可执行文件的四个过程 1.预处理期(预编译) 在预处理期会进行替换,将头文件和宏定义进行替换 2.编译期 编译期会将源代码变为汇编语言 3.汇编期 汇编期是把汇编语言变为机器语言…

STM32F103标准库硬件IIC+DMA连续数据发送、接收

目录 前言1、AHT20模块的简单了解(为了更好的理解程序语句)2、了解DMA相关中断标志位以及I2C相对应的DMA通道3、本篇文章提及程序中相关的变量定义提前了解4、DMAIIC数据发送、接收流程及本文所用程序中相关的函数作用提前了解4.1 DMAIIC数据发送、接收流…

qt判断当前日期是不是当月的最后一天

思路就是:将当前日期1,如果月份发生变化,则证明是最后一天 找一个dateTimeEdit,然后选择个日期,如下: 加入测试代码: QDateTime time ui->dateTimeEdit->dateTime();QDateTime nextWeek…

Debezium日常分享系列之:Debezium 2.3.0.Final发布

Debezium日常分享系列之:Debezium 2.3.0.Final发布 一、重大改变二、PostgreSQL / MySQL 安全连接更改三、JDBC 存储编码更改四、新功能和改进五、Kubernetes 的 Debezium Server Operator六、新的通知子系统七、新的可扩展信号子系统八、JMX 信号和通知集成九、新的…

如何查看dll文件内导出函数名称

一 使用VS自带工具 进入VS开发环境,然后Tools -> Visual studio 2017 Command Prompt,打开兼容工具命令提示符, 如果工具 目录下没有命令行提示,可以从开始菜单找到VS的命令行提示符。 cd到dll所在目录,输入命令…

联邦学习综述

《Advances and Open Problems in Federated Learning》 选题:Published 10 December 2019-Computer Science-Found. Trends Mach. Learn. 联邦学习定义 联邦学习是一种机器学习设置,其中多个客户端在中央服务器或服务提供商的协调下协作解决机器学习…

VR会议:远程带看功能,专为沉浸式云洽谈而生

随着科技的不断发展,VR技术已经成为当今市场上较为热门的新型技术之一了,而VR会议远程带看功能,更是为用户提供更加真实、自然的沉浸式体验。 随着5G技术的发展,传统的图文、视频这种展示形式已经无法满足消费者对信息真实性的需求…

存档&改造【04】二维码操作入口设置细节自动刷新设置后的交互式网格内容的隐藏

因为数据库中没有数据无法查看设置效果,于是自己创建了个测试数据表,用来给demo测试 -- 二维码操作入口设置 create table JM_QR_CODE(QR_CODE_ID NUMBER generated as identity primary key,SYSTEM_ID NUMBER(20) not null,IS_ENAB…

中国数字化转型浪潮下,移动钱包成为全球App标配

中国,一个数字化转型极为快速的国家,在电子钱包和移动支付方面处于世界领先地位。 在中国,几乎一半的店内购物都是通过手机进行的,这远高于其他发达市场的水平(德国25%,美国24%)。移动支付&…

AI情感陪伴 | 数字伙伴为你而在,解锁情感健康的新时代

当我们审视当今社会的变革和进步时,不难发现新一代年轻人正面临着前所未有的多重挑战。其中就涵盖了社交关系的复杂性、学业上的巨大压力、激烈的就业竞争,以及紧迫的环境问题等等。这些挑战不仅深刻地影响着他们的生活品质,还可能引发严重的…

AUTOSAR CAN通信全过程

1、CAN通信概略图和基本概念介绍 应用层APPL、RTE(实时运行环境 Runtime Environment) 交互层: IPDU multiplexer:协议数据单元复用模块 COM:COMMUNICATION 通信模块 DCM: 诊断通信管理模块(Diagnostic C…

多项目并行管理:优化协调策略提高效率

多项目同时进行已然是大部分项目管理者面临的现状了。相比于单项目管理,多项目管理可能会出现项目资源分配不均,项目进度监控难以及沟通协作复杂等问题。 可以通过一款灵活高效得项目管理工具,来帮助您进行多项目管理,比如 Zoho …

SSL证书如何提升网站的安全性和信任度

在今天的数字时代,随着网络攻击的日益增多,确保网站和用户数据的安全变得至关重要。SSL(Secure Sockets Layer)证书是一个有效的安全解决方案,可以为您的网站提供加密通信通道,并提升其安全性和信任度。下面…

南昌新颜|AIGC艺术之光,历史的魅力与未来的探索

在这个本来稀松平常的周一,我们坐在电脑前,回顾着刚刚过去的两天,仿佛经历了“反方向的钟”。前两天的上班日子,究竟是周几呢?答案不再是简单的星期几,而是“周负二”和“周负一”。因为,我们把…

三、WebGPU Uniforms

三、WebGPU Uniforms Uniform有点像着色器的全局变量。你可以在执行着色器之前设置它们的值,着色器的每次迭代都会有这些值。你可以在下一次请求GPU执行着色器时将它们设置为其他值。我们将再次从第一篇文章中的三角形示例开始,并对其进行修改以使用一些…

Go 字符串操作实战

1. 引言 在现代编程中,字符串处理是不可或缺的一部分。无论是简单的用户界面,还是复杂的数据处理,字符串都扮演着关键的角色。Go语言,作为一个现代的、性能优越的编程语言,为字符串处理提供了一系列强大的工具和功能。…

通过后台系统添加一段div,在div中写一个<style></style>标签来修改div外面的元素的深层元素的样式

先看图 btn元素就是通过后台系统加上的元素,现在需要通过在btn里面写一个style标签来修改grid-nine里面的head元素的高度.开始想通过style来修改,但是不知道怎么去获取这个div外面的元素,想通过js方法去修改,写了script标签加了js代码,但不生效,后面问了才知道,这个项目是vue打…

深度学习笔记之优化算法(六)RMSprop算法的简单认识

深度学习笔记之优化算法——RMSProp算法的简单认识 引言回顾:AdaGrad算法AdaGrad算法与动量法的优化方式区别AdaGrad算法的缺陷 RMProp算法关于AdaGrad问题的优化方式RMSProp的算法过程描述 RMSProp示例代码 引言 上一节对 AdaGrad \text{AdaGrad} AdaGrad算法进行…