Paper: Attention Is All You Need

news2024/11/28 16:29:53

目录

  • Abstract
  • 1 Introduction
  • 2 Background
  • 3 Model Architecture
    • 3.1 Encoder and Decoder Stacks
    • 3.2 Attention
      • 3.2.1 Scaled Dot-Product Attention
      • 3.2.2 Multi-Head Attention
      • 3.2.3 Applications of Attention in our Model
    • 3.3 Position-wise Feed-Forward Networks
    • 3.4 Embeddings and Softmax
    • 3.5 Positional Encoding
  • 4 Why Self-Attention
  • 5 Training
    • 5.1 Training Data and Batching
    • 5.2 Hardware and Schedule
    • 5.3 Optimizer
    • 5.4 Regularization
  • 6 Results
    • 6.1 Machine Translation
    • 6.2 Model Variations
    • 6.3 English Constituency Parsing
  • Conclusion
  • Reference
  • Attention Visualizations

@article{vaswani2017attention,
title={Attention is all you need},
author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, {\L}ukasz and Polosukhin, Illia},
journal={Advances in neural information processing systems},
volume={30},
year={2017}
}

在这里插入图片描述

Abstract

在这里插入图片描述
主要的序列转导模型是基于复杂的循环或卷积神经网络,包括一个编码器和一个解码器。表现最好的模型还通过注意机制连接编码器和解码器。我们提出了一个新的简单的网络架构,Transformer,完全基于注意力机制,完全摒弃递归和卷积。在两个机器翻译任务上的实验表明,这些模型在质量上更优越,同时更具并行性,并且需要更少的训练时间。我们的模型在WMT 2014英语-德语翻译任务上实现了28.4 BLEU,比现有的最佳结果(包括集合)提高了2个BLEU以上。在WMT 2014英法翻译任务中,我们的模型在8个gpu上训练3.5天后,建立了一个新的单模型最先进的BLEU分数41.8,这是文献中最佳模型训练成本的一小部分。我们通过将Transformer成功地应用于具有大量和有限训练数据的英语选区解析,证明了它可以很好地推广到其他任务。

1 Introduction

在这里插入图片描述
在这里插入图片描述
neural networks, long short-term memory [13] and gated recurrent [7] neural networks

我们提出了Transformer,这是一种模型架构,避免了递归,而是完全依靠注意力机制来绘制输入和输出之间的全局依赖关系。Transformer 允许更多的并行化,并且在八个 P100 GPU 上训练多达 12 小时后,可以在翻译质量方面达到新的技术水平。

2 Background

在这里插入图片描述
grows in the distance between positions, linearly for ConvS2S and logarithmically for ByteNet.

In the Transformer this is reduced to a constant number of operations
在Transformer中,这被减少为一个常数数量的操作,尽管代价是由于平均注意力加权位置而降低了有效分辨率,我们用Multi-Head Attention抵消了这一影响,如3.2节所述。

Self-attention, sometimes called intra-attention

the Transformer is the first transduction model relying entirely on self-attention to compute representations of its input and output without using sequencealigned RNNs or convolution.
然而,据我们所知,Transformer是第一个完全依靠自我注意来计算输入和输出表示的转导模型,而不使用序列对齐的rnn或卷积。在接下来的章节中,我们将描述Transformer,激发自我关注,并讨论它相对于[17,18]和[9]等模型的优势。

3 Model Architecture

在这里插入图片描述
At each step the model is auto-regressive [10], consuming the previously generated symbols as additional input when generating the next.
在每一步中,模型都是自动回归[10],在生成下一步时,将先前生成的符号作为额外的输入。
The Transformer follows this overall architecture using stacked self-attention and point-wise, fully connected layers for both the encoder and decoder, shown in the left and right halves of Figure 1, respectively.
Transformer遵循这种总体架构,为编码器和解码器使用了堆叠的自关注层和按点完全连接层,分别如图1的左右两部分所示。
在这里插入图片描述

3.1 Encoder and Decoder Stacks

在这里插入图片描述
编码器由N = 6个相同层的堆栈组成。每一层有两个子层。第一个是一个多头自注意机制,第二个是一个简单的、按位置完全连接的前馈网络。我们在两个子层的每一层周围都使用了一个残余连接[11],然后是层规范化[1]。也就是说,每个子层的输出是LayerNorm(x + Sublayer(x)),其中Sublayer(x)是子层本身实现的函数。为了方便这些残余连接,模型中的所有子层以及嵌入层都会产生维度为 d m o d e l = 512 d_{model} = 512 dmodel=512的输出。

解码器也由N = 6个相同层的堆栈组成。除了每个编码器层中的两个子层外,解码器还插入第三个子层,该子层对编码器堆栈的输出执行多头注意。与编码器类似,我们在每个子层周围使用剩余连接,然后进行层归一化。我们还修改了解码器堆栈中的自关注子层,以防止位置关注后续位置。这种掩蔽,结合输出嵌入被一个位置抵消的事实,确保对位置i的预测只能依赖于小于i位置的已知输出。

3.2 Attention

在这里插入图片描述
mapping a query and a set of key-value pairs to an output, where the query, keys, values, and output are all vectors.
注意力函数可以描述为将查询和一组键-值对映射到输出,其中查询、键、值和输出都是向量。输出是按值的加权和计算的,其中分配给每个值的权重是通过查询与相应键的兼容性函数计算的。
在这里插入图片描述

3.2.1 Scaled Dot-Product Attention

在这里插入图片描述
我们称我们的特别注意为“缩放点积注意”(图2)。输入由维度dk的查询和键以及维度dv的值组成。我们计算查询的所有键的点积,每个键除以√dk,并应用softmax函数来获得值的权重。
在实践中,我们同时计算一组查询上的注意力函数,它们被打包成一个矩阵q。键和值也被打包成矩阵K和V。我们计算输出的矩阵为:

最常用的两个注意函数是加性注意[2]和点积注意(乘性注意)。点积注意与我们的算法相同,除了比例因子为1√dk。加性注意算法采用带有单一隐藏层的前馈网络计算兼容性函数。虽然两者在理论复杂性上相似,但点积注意在实践中要更快、更节省空间,因为它可以使用高度优化的矩阵乘法代码来实现。
当dk值较小时,两种机制表现相似,当dk[3]值较大时,加性注意在没有缩放的情况下优于点积注意。我们怀疑对于较大的dk值,点积的大小会变大,将softmax函数推到具有极小梯度4的区域。为了抵消这种影响,我们将点积乘以1√dk。

3.2.2 Multi-Head Attention

在这里插入图片描述
与使用dmodel维度的键、值和查询执行单一的注意力函数不同,我们发现将查询、键和值线性投影h次分别投影到dk、dk和dv维度是有益的。在这些查询、键和值的每个投影版本上,我们然后并行执行注意力函数,产生dv维输出值。这些值被连接起来并再次投影,得到最终值,如图2所示。

多头注意使模型能够共同关注来自不同位置的不同表示子空间的信息。如果只有一个注意力头,平均会抑制这一点。

投影是参数矩阵

在这项工作中,我们使用h = 8个平行注意层,或头部。对于每一个,我们使用dk = dv = dmodel/h = 64。由于每个头的维数减小,总的计算代价与全维的单头注意相似

3.2.3 Applications of Attention in our Model

在这里插入图片描述

  • 在“编码器-解码器注意”层中,查询来自前一个解码器层,内存键和值来自编码器的输出。这使得解码器中的每个位置都可以覆盖输入序列中的所有位置。这模拟了序列到序列模型中典型的编码器-解码器注意机制,如[38,2,9]。
  • 编码器包含自我注意层。在自注意层中,所有的键、值和查询都来自同一个地方,在这种情况下,就是编码器中前一层的输出。编码器中的每个位置都可以处理编码器前一层中的所有位置。
  • 类似地,解码器中的自注意层允许解码器中的每个位置关注解码器中直到并包括该位置的所有位置。我们需要防止信息在解码器中向左流动,以保持自回归特性。我们通过屏蔽(设置为−∞)softmax输入中对应非法连接的所有值来实现缩放点积注意。参见图2。

3.3 Position-wise Feed-Forward Networks

在这里插入图片描述
除了注意力子层,编码器和解码器中的每一层都包含一个完全连接的前馈网络,该网络分别且相同地应用于每个位置。这包括两个线性转换,中间有一个ReLU激活。

虽然线性变换在不同位置上是相同的,但它们在不同层之间使用不同的参数。另一种描述方法是两个核大小为1的卷积。输入输出维数为dmodel = 512,内层维数为dimensionality d f f d_{ff} dff = 2048。

3.4 Embeddings and Softmax

在这里插入图片描述
与其他序列转导模型类似,我们使用学习嵌入将输入标记和输出标记转换为维度为dmodel的向量。我们还使用常用的学习线性变换和softmax函数将解码器输出转换为预测的下一个令牌概率。在我们的模型中,我们在两个嵌入层之间共享相同的权重矩阵和pre-softmax线性变换,类似于[30]。在嵌入层中,我们将这些权重乘以√dmodel。

3.5 Positional Encoding

在这里插入图片描述
由于我们的模型不包含递归和卷积,为了使模型利用序列的顺序,我们必须注入一些关于的相对或绝对位置的信息。为此,我们将“位置编码”添加到编码器和解码器堆栈底部的输入嵌入中。位置编码具有与嵌入相同的维数dmodel,因此两者可以相加。有许多位置编码的选择,学习和固定[9]。
在这项工作中,我们使用了不同频率的正弦和余弦函数:
pos是位置,I是维度。也就是说,位置编码的每个维度都对应一个正弦波。波长形成从2π到10000·2π的几何级数。我们选择这个函数是因为我们假设它可以让模型很容易地学会通过相对位置来参与,因为对于任何固定的偏移k, P Epos+k可以表示为P Epos的线性函数。
我们还尝试使用习得位置嵌入[9],并发现这两个版本产生了几乎相同的结果(见表3 (E)行)。我们选择了正弦版本,因为它可以允许模型外推到比训练期间遇到的序列长度更长的序列。

4 Why Self-Attention

在这里插入图片描述
在这里插入图片描述
在本节中,我们将自我注意层的各个方面与循环层和卷积层进行比较,这些层通常用于映射一个可变长度的符号表示序列(x1,…, xn)到另一个等长序列(z1,…, zn), xi, zi∈Rd,如典型序列转导编码器或解码器中的隐层。激发我们使用自我关注的动机有三个。

一个是每层的总计算复杂度。另一个是可以并行化的计算量,可以通过所需的最小顺序操作数量来衡量。

第三个是网络中长期依赖关系之间的路径长度。在许多序列转导任务中,学习长期依赖关系是一个关键的挑战。影响学习这种依赖关系能力的一个关键因素是向前和向后信号在网络中必须遍历的路径长度。输入和输出序列中任意位置组合之间的路径越短,就越容易学习长期依赖关系[12]。因此,我们还比较了由不同层类型组成的网络中任意两个输入和输出位置之间的最大路径长度。

如表1所示,自注意层将所有位置与常数数量的顺序执行操作连接起来,而循环层需要O(n)个顺序操作。在计算复杂度方面,当序列长度n小于表示维数d时,自注意层比循环层更快,这是机器翻译中最先进模型使用的句子表示的最常见情况,例如单词块[38]和字节对[31]表示。为了提高涉及很长序列的任务的计算性能,自我注意可以限制为只考虑大小为r的邻域以各自的输出位置为中心的输入序列。这将使最大路径长度增加到O(n/r)。我们计划在未来的工作中进一步研究这种方法。

一个核宽k < n的卷积层不能连接所有的输入和输出位置对。这样做需要一个O(n/k)的卷积层堆栈,如果是连续的内核,或者O(logk(n))的扩张卷积[18],增加网络中任意两个位置之间的最长路径的长度。卷积层通常比循环层昂贵k倍。然而,可分离卷积[6]大大降低了复杂度,降至O(k·n·d + n·d2)。然而,即使k = n,可分离卷积的复杂性也等于自注意层和点前馈层的组合,这是我们在模型中采用的方法。

作为附带的好处,自我关注可以产生更多可解释的模型。我们检查了我们的模型的注意力分布,并在附录中介绍和讨论了示例。不仅每个注意头都能清楚地学习执行不同的任务,许多注意头还表现出与句子的句法和语义结构相关的行为。

5 Training

This section describes the training regime for our models.

5.1 Training Data and Batching

在这里插入图片描述
我们使用标准的WMT 2014英德数据集进行训练,该数据集包含大约450万句对。句子使用字节对编码[3]进行编码,它具有约37000个标记的共享源目标词汇表。对于英语-法语,我们使用了更大的WMT 2014英语-法语数据集,该数据集包含3600万个句子,并将标记分割成32000个单词-词汇表[38]。句子对按近似序列长度分批排列。每个训练批包含一组句子对,其中包含大约25000个源标记和25000个目标标记。

5.2 Hardware and Schedule

在这里插入图片描述
我们在一台有8个NVIDIA P100 gpu的机器上训练我们的模型。对于使用本文中描述的超参数的基本模型,每个训练步骤大约花费0.4秒。我们总共训练了基础模型100,000步或12小时。对于我们的大型模型(表3的底线描述),步长为1.0秒。这些大模型被训练了30万步(3.5天)。

5.3 Optimizer

在这里插入图片描述
我们使用Adam优化器[20],β1 = 0.9, β2 = 0.98和= 10−9。在整个训练过程中,我们根据以下公式改变学习率:

5.4 Regularization

在这里插入图片描述
我们在训练中使用了三种类型的正则化:

Residual Dropout 我们将dropout[33]应用于每个子层的输出,然后将其添加到子层输入并标准化。此外,我们将dropout应用于编码器和解码器堆栈中的嵌入和和和位置编码。对于基本模型,我们使用pdrop = 0.1的速率。

Label Smoothing在训练中,我们使用值ls = 0.1[36]的标签平滑。这伤害了困惑,因为模型学会了更不确定,但提高了准确性和BLEU得分。

6 Results

6.1 Machine Translation

在这里插入图片描述
在WMT 2014英语到德语的翻译任务中,大transformer模型(表2中的变压器(大))比之前报道的最好的模型(包括集成)表现超过2.0BLEU,建立了一个新的最先进的BLEU评分28.4。这个模型的配置列在表3的底部。训练时间为3.5天,使用8个P100 gpu。甚至我们的基础模型也超过了所有以前发表的模型和集合,而训练成本只是任何竞争模型的一小部分。

在WMT 2014英语到法语的翻译任务中,我们的大模型达到了41.0的BLEU分数,超过了之前发表的所有单一模型,而训练成本不到之前最先进模型的1/4。用英语-法语训练的TransFormer (大) 模型使用的辍学率Pdrop = 0.1,而不是0.3。

对于基本模型,我们使用了通过平均最后5个检查点获得的单个模型,这些检查点以10分钟的间隔写入。对于大型模型,我们平均了最后20个检查点。我们使用束流搜索,束流大小为4,长度惩罚α = 0.6[38]。这些超参数是在开发集实验后选择的。我们在推理期间将最大输出长度设置为输入长度+ 50,但在可能的情况下提前终止[38]。

表2总结了我们的结果,并将我们的翻译质量和培训成本与文献中的其他模型架构进行了比较。我们通过将训练时间、使用的GPU数量和每个GPU 5的持续单精度浮点容量的估计值相乘来估计用于训练模型的浮点运算的数量。
在这里插入图片描述

6.2 Model Variations

在这里插入图片描述
为了评估Transformer不同组件的重要性,我们以不同的方式改变了我们的基础模型,在开发集newstest2013上测量英语到德语翻译的性能变化。我们使用了前一节中描述的光束搜索,但没有使用检查点平均。我们在表3中展示了这些结果。
在表3 (A)行中,我们改变注意头的数量以及注意键和值维度,保持计算量不变,如第3.2.2节所述。虽然单头注意力比最佳设置差0.9 BLEU,但如果人头太多,质量也会下降。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在表3 (B)行中,我们观察到减少注意键的大小 d k d_{k} dk会损害模型的质量。这表明,确定兼容性并不容易,而比点积更复杂的兼容性函数可能是有益的。我们在©和(D)行中进一步观察到,正如预期的那样,越大的模型越好,dropout对于避免过拟合非常有帮助。在第(E)行中,我们将正弦位置编码替换为学习位置嵌入[9],并观察到与基本模型几乎相同的结果。

6.3 English Constituency Parsing

在这里插入图片描述
为了评估Transformer是否可以推广到其他任务,我们进行了关于英语选区解析的实验。这项任务提出了具体的挑战:产出受制于强大的结构性约束,并且明显长于输入。此外,RNN序列对序列模型还不能在小数据系统[37]中获得最先进的结果。

我们在Penn Treebank[25]的Wall Street Journal (WSJ)部分上训练了一个dmodel = 1024的4层转换器,大约40K个训练句子。我们还在半监督环境中训练它,使用更大的高置信度和BerkleyParser语料库,从大约17M个句子[37]。对于仅用于WSJ的设置,我们使用了16Ktoken的词汇表,对于半监督设置,我们使用了32Ktoken的词汇表。

我们只进行了少量的实验,以选择第22节展开集上的辍学率、注意力和残差(第5.4节)、学习率和波束大小,所有其他参数与英语-德语基础翻译模型保持不变。在推理过程中,我们将最大输出长度增加到输入长度+ 300。我们使用的束尺寸为21,α = 0.3的WSJ和半监督设置。

我们在表4中的结果表明,尽管缺乏特定于任务的调优,但我们的模型表现得令人惊讶地好,产生了比之前报道的所有模型(循环神经网络语法[8]除外)更好的结果。

与RNN序列到序列模型[37]相比,即使仅在40K句的WSJ训练集上训练,Transformer的性能也优于BerkeleyParser[29]。

Conclusion

在这里插入图片描述
在这项工作中,我们提出了Transformer,这是第一个完全基于注意力的序列转导模型,用多头自注意力取代了编码器-解码器架构中最常用的循环层。

对于翻译任务,Transformer的训练速度比基于循环层或卷积层的架构快得多。在WMT 2014英语到德语和WMT 2014英语到法语的翻译任务中,我们都达到了一个新的艺术境界。在前一项任务中,我们最好的模型甚至优于所有以前报告的集合。

我们对基于注意力的模型的未来感到兴奋,并计划将其应用于其他任务。我们计划将Transformer扩展到涉及文本以外的输入和输出模式的问题,并研究局部的受限注意力机制,以有效地处理大量输入和输出,如图像、音频和视频。使生成不那么连续是我们的另一个研究目标。

The code we used to train and evaluate our models is available at https://github.com/ tensorflow/tensor2tensor.

We are grateful to Nal Kalchbrenner and Stephan Gouws for their fruitful comments, corrections and inspiration.

Reference

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

Attention Visualizations

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/646594.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

4.4网络模型 4.5协议 4.6网络通信的过程

4.4网络模型 OSI七层参考模型 七层模型&#xff0c;亦称 OSI&#xff08;Open System Interconnection&#xff09;参考模型&#xff0c;即开放式系统互联。参考模型是国际标准化组织&#xff08;ISO&#xff09;制定的一个用于计算机或通信系统间互联的标准体系&#xff0c;…

DDR-SDRAM技术原理总结

DDR SDRAM 全称&#xff1a; Double Date Rate Synchronous Dynamic Random Access Memory 先说RAM&#xff08;Random Access Memory&#xff09;&#xff0c;字面意思&#xff1a;随机访问存储器&#xff0c;其特点是可任意访问一个内存地址&#xff0c;其访问时间是一样的&…

怎样在前端项目中使用MySQL模块操作数据库?

要想在项目中操作数据库&#xff0c; 首先要安装操作 MySQL 数据库的第三方模块(mysql)&#xff0c; 借助mysql 模块连接到 MySQL 数据库&#xff0c; 执行 SQL 语句&#xff0c;具体的流程如下图所示。 安装与配置 mysql 模块 安装 mysql 模块 mysql 模块是托管于 npm 上的第…

继承—JavaSE

文章目录 1.基础知识1.1继承的概念1.2语法 2子类对从父类继承下来的成员的访问2.1对成员变量的访问2.2对成员方法的访问 3.super关键字3.1访问父类的成员变量&#xff08;super.变量&#xff09;3.2访问父类的成员方法&#xff08;super.方法&#xff09;3.3调用父类的构造方法…

手把手教学Android游戏--轮船大战小游戏(文末有代码)

目录 1.1课程设计的目的 1.2本选题的内容要求 1.3 软件开发运行环境 2.1设计思路 2.2软件总体结构图 2.3主要功能模块的设计 3.1 开始界面模块 3.1.1进入游戏设计 3.1.2退出游戏设计 3.1.3开始界面主要代码 3.2 游戏主界面显示模块 3.2.1游戏界面设计 3.2.2游戏界面鱼雷、炸弹、…

【C++---面向对象预备】

C---面向对象预备 一 、内存的分区&#xff1a;1.1 代码区&#xff1a;1.2 全局区&#xff1a;1.3 栈区&#xff1a;1.4 堆区&#xff1a; 二 、引用&#xff1a;2.1、引用注意事项&#xff1a;2.2、引用作函数参数&#xff1a;2.3、引用作函数的返回值&#xff1a;2.4、引用的…

explain | 索引优化的这把绝世好剑,你真的会用吗?

对于互联网公司来说&#xff0c;随着用户量和数据量的不断增加&#xff0c;慢查询是无法避免的问题。 一般情况下如果出现慢查询&#xff0c;意味着接口响应慢、接口超时等问题&#xff0c;如果是高并发的场景&#xff0c;可能会出现数据库连接被占满的情况&#xff0c;直接导…

MAC电脑设置权限

​​​​​​​ click on your background to go to finderclick on go and go to folder /usrright click on local and do get infounlock the lock at the bottomclick sign and add your user to the list and give read/write privilegesclick on the gear sign at the …

Java Map 所有的值转为String类型

可以使用 Java 8 中的 Map.replaceAll() 方法将所有的值转为 String 类型&#xff1a; Map<String, Object> map new HashMap<>(); // 添加一些键值对 map.put("key1", 123); map.put("key2", true); map.put("key3", new Date())…

Android Studio入门

首先确保系统已经安装好JDK和Android SDK Android SDK的安装有两种方案 方案一&#xff1a;直接下载包安装 官网下载 国内下载 方案二&#xff1a;使用命令行工具进行安装 在Android Studio官网下载Command line tools 最新&#xff1a;如果使用 Android Studio&#xff0c;…

特征维度降维算法——平均影响值算法(MIV)免费MATLAB代码获取,西储大学数据为例

1. 原理概述 众所周知&#xff0c;常用的特征维度降维方法有主成分分析&#xff0c;因子分析法&#xff0c;平均值影响法。而平均影响值算法&#xff08;MIV&#xff09;是神经网络对输入变量进行降维的最好方法之一。 在神经网络模型实际应用中&#xff0c;由于没有明确的…

高压功率放大器的作用和用途是什么

高压功率放大器是一种用于产生高电压和高功率信号的电子设备&#xff0c;通常采用功率放大器电路来实现。它主要起到以下作用&#xff1a; 提供高电压信号 在一些应用中需要产生高电压信号&#xff0c;如高压变频器、医疗设备等。高压功率放大器可以提供稳定的高电压信号&#…

c4d云渲染几款好用的云渲染平台

C4D是指Maxon公司所开发的3D建模、动画和渲染软件Cinema 4D。它是一款非常流行的三维图形软件&#xff0c;被广泛用于电影、电视、游戏等领域中的动画制作、视觉效果、建筑可视化、工业设计、广告设计、虚拟现实等方面。其用户界面简单易用&#xff0c;功能丰富&#xff0c;可以…

之江实验室: 如何基于 JuiceFS 为超异构算力集群构建存储层 ?

今天&#xff0c;高性能计算结合人工智能技术正在推动科研创新。例如通过破解水稻基因密码推动作物育种从“试验选优”向“计算选优”发展&#xff0c;在医药领域快速分析分子与蛋白之间的相互作用&#xff0c;发现潜在的能够有效干预疾病发生的药物分子。 之江实验室就是上述科…

Apikit 自学日记: Apikit 如何发起测试

进入 API 文档详情页&#xff0c;点击上方 测试 标签&#xff0c;进入 API 测试页&#xff0c;系统会根据API文档自动生成测试界面并且填充测试数据。 填写请求参数 首先填写好请求参数。 请求头部 您可以输入或导入请求头部。批量导入的数据格式为 key : value &#xff0c;…

Linux之多线程(上)——Linux下的线程概念

文章目录 前言一、地址空间和页表1.二级页表2.例子 二、线程1.概念重新理解前面讲的进程&#xff1a;在内核的视角&#xff0c;进程是承担分配系统资源的基本实体。站在CPU角度&#xff0c;能否去识别当前调度的task_struct是进程还是线程&#xff1f;Linux下并不存在真正的线程…

漫谈程序员创业

很多程序员选择辞职创业&#xff0c;成为了自己公司的创始人或者合伙人。他们选择离开原有的公司&#xff0c;是因为想要实现自己的梦想&#xff0c;追求更高的创业成就。辞职创业是一项具有挑战性的决定&#xff0c;需要勇气、决心和毅力。一些成功的创业者通过坚持不懈和不断…

知乎视频发布软件使用方法视频

知乎视频发布软件使用方法视频&#xff0c;知乎批量发布软件效果怎么样 #小红书视频上传#抖音seo软件#网络推广#视频营销 软件有月卡、季卡、半年卡、年卡 【其中推荐&#xff1a;百家号 哔哩哔哩B站&#xff0c;微博等软件发帖】 服务时间&#xff1a;&#xff08;8&#xf…

Win10 IE11浏览器,您正在查看的页使用 Java,Microsoft 网站提供有关 Java 支持的更多信息 解决

最近工作需要支持下IE11浏览器&#xff0c;使用java applet控件。 以前IE10及以下版本都比较正常&#xff0c;但是IE11会出现一些比较奇怪的现象。 记录下解决的方法和过程&#xff0c;便于有需要的同学自取。 1.首先是报错&#xff0c;如下图所示&#xff1b;这个网上搜索了…

B站热点预测,提前解码流量关口

“追热点”是创作者的必修课。互联网信息更迭迅速&#xff0c;热点千变万化&#xff0c;今天是这个明天可能就不热了&#xff0c;或者敏锐度不够的创作者甚至会错过最佳进场时期&#xff0c;反倒蹭了热点但只抹到一点奶油。 与此同时&#xff0c;还很考验创作者对热点的发散性…