ChatGPT 在机器学习中的应用

办公室里一个机器人坐在人类旁边，Artstation 上的流行趋势，美丽的色彩，4k，充满活力，蓝色和黄色， DreamStudio出品

一、介绍

大家都知道ChatGPT。它在解释机器学习和深度学习概念方面也非常高效，至少到 2021 年是这样。在这篇文章中，我想展示它的人工智能知识。我们来测试一下吧🔥

请记住，以下信息只是LLM生成的信息，可能完全不正确。

二、热门榜单

在本节中，我将测试各个领域中机器学习最常见、最有价值、最高效实体的 ChatGPT 知识。

2.1 前 5 名机器学习科学家

一名穿着实验室外套的年轻研究员躲在办公桌上笔记本电脑发出的恶魔手臂下。电影、真实感、复古、artstation、绘画、表现力，作者： DreamStudio

提供对人工智能发展影响最大的 5 位最有价值的机器学习科学家及其相关研究的列表。将信息格式化为表格 Markdown 格式，包含以下列：[“姓名”、“对 AI 的贡献”、“大学”、“AI 领域最有价值的出版物”]。

姓名	对人工智能的贡献	大学	人工智能领域最有价值的出版物
杰弗里·辛顿	深度学习先驱，创建反向传播算法	多伦多大学	《深度学习》教科书《使用深度卷积神经网络进行ImageNet分类》
严乐存	卷积神经网络的发明者	纽约大学	“图像、语音和时间序列的卷积网络”
约书亚·本吉奥	深度学习先驱，开发了早期神经语言模型	蒙特利尔大学	《深度学习》教材《神经概率语言模型》
吴恩达	谷歌大脑创始人，开发热门在线课程“机器学习”	斯坦福大学	《深度学习》教科书《使用深度卷积神经网络进行ImageNet分类》
李飞飞	斯坦福人工智能实验室主任，开发ImageNet数据集	斯坦福大学	“ImageNet：大规模分层图像数据库”

2.2 计算机视觉损失函数的前 5 种

头部装有老式相机的人形机器人，科幻，4 k，逼真，详细，小玩意，色彩缤纷，作者： DreamStudio

提供深度学习中计算机视觉中最常用的 5 个损失函数及其规范的列表。将表格中的信息格式化为Markdown格式，以下列：“Name”为损失函数的名称；“输入”带有值，即函数的输入及其解释；“输出”包含值（函数的输入）及其解释。使用 LaTeX 作为“输入”和“输出”列。

Name	Input	Output
Mean Squared Error (MSE)	${(x_i,y_i)}_{i=1}^n$ 预测值和真实值对	$L=\frac{1}{n}\sum_{i=1}^n (y_i - f(x_i))^2$ - 预测值和真实值之间的均方误差
Binary Cross-Entropy Loss	${(x_i,y_i)}_{i=1}^n$ - 预测标签和真实标签对 ,此时 $y_i\in {0,1}$	$L=-\frac{1}{n}\sum_{i=1}^n y_i\log(f(x_i)) + (1-y_i)\log(1-f(x_i))$ - 给定真实标签的预测标签的负对数似然
Categorical Cross-Entropy Loss	${(x_i,y_i)}_{i=1}^n$ - 预测标签和真实标签对，其中 $y_i\in {0,1}^k$ (one-hot encoding)	$L=-\frac{1}{n}\sum_{i=1}^n \sum_{j=1}^k y_{i,j}\log(f(x_i)_j)$ - 给定真实标签的每个类别的预测概率的负对数似然
Kullback-Leibler (KL) Divergence	p - 真实分布，q - 预测分布	$L=\sum_{i}p_i\log\frac{p_i}{q_i}$ - 预测分布与真实分布的偏差程度的度量
Hinge Loss	${(x_i,y_i)}_{i=1}^n$ - 预测标签和真实标签对，这里 $y_i\in {-1,1}$	$L=\frac{1}{n}\sum_{i=1}^n \max(0,1-y_i f(x_i))$ - 预测值和真实值之间距离的平均值，仅考虑具有预测误差的样本

Top 5 Machine Learning Optimization Algorithms

2.3 前 5 名机器学习优化算法

机器人在教室学习的照片，中景，艺术，高分辨率，卡通，详细，作者： DreamStudio

提供训练数据科学模型的 8 种最有效技术的列表，例如梯度下降、进化算法等。此外，还提供其规范。将Markdown格式表中的信息格式化，以下列：“Name”为算法名称；“算法”用两句话描述算法，“优点”用算法的优点；算法的“缺点”。

姓名	算法	优点	缺点
梯度下降	沿损失函数负梯度方向更新模型参数的迭代优化算法	高效且应用广泛，可处理大型数据集	对学习率敏感，可能陷入局部最优
进化算法（EA）	受自然选择启发的基于群体的优化算法，通常应用于离散参数空间	可以找到全局最优值，可以处理噪声和不可微函数，对于特征选择很有用	计算成本昂贵，需要大量人口规模和较长的训练时间，对超参数可能敏感
粒子群优化 (PSO)	基于群体的优化算法，受到鸟群和鱼群集体行为的启发，通常应用于连续参数空间	可以找到全局最优值并处理不可微函数，计算效率高，可以处理约束和多目标优化	高维空间探索有限，可能陷入局部最优，对超参数敏感
贝叶斯优化 (BO)	基于序列模型的优化算法，使用概率代理模型来选择下一个要评估的点	高效使用评估，可以处理噪声和不可微函数，可以处理约束和多目标优化	计算成本高，需要良好的代理模型，对超参数敏感
强化学习（RL）	学习范例，其中代理与环境交互并学习采取最大化奖励信号的行动	可以学习复杂任务的最佳策略并处理部分可观察性和延迟奖励	样本可能效率低下并且需要大量训练集，可能会出现不稳定和不收敛的情况

2.4 深度学习最难的算法

深度学习最难的算法是什么？提供一个解释，它是如何工作的。提供技术细节。提供原始出版物的参考。

深度学习中最难的算法是神经图灵机（NTM），它将神经网络与可读写的存储库结合起来，使其能够学习算法并执行需要大量内存的任务。NTM 是由 Graves 等人提出的。在论文“神经图灵机”（2014）[1]中。NTM 的架构由一个控制器神经网络组成，该网络使用读写头与外部存储器矩阵进行交互。控制器网络将查询向量作为输入并生成读取和写入密钥，这些密钥用于对存储器矩阵进行寻址。然后，读取头和写入头根据键读取和写入内存矩阵，读取头输出读取向量，该读取向量与查询向量连接以产生最终输出。

NTM 使用随时间反向传播 (BPTT) 进行训练，可用于执行复制和排序序列等任务、学习执行二进制加法和乘法等算法，甚至玩简单的游戏。NTM 有潜力彻底改变人工智能领域，让机器能够学习算法并执行使用标准神经网络很难或不可能执行的任务。

[1] Graves, A.、Wayne, G. 和 Danihelka, I. (2014)。神经图灵机。arXiv 预印本 arXiv：1410.5401。

三、算法解释

让我们要求提供一些算法的解释。

3.1 亚当

解释 Adam 梯度下降优化算法的工作原理。使用乳胶。将解释分成 3 个句子。使用数学公式。

Adam 是一种自适应学习率优化算法，可计算不同参数的个体自适应学习率。它计算梯度的第二原始矩的运行估计，并使用估计的一阶矩和二阶矩的组合来更新参数。该算法结合了Adagrad和RMSprop的优点，可以用以下方程表示：

$m_t = \beta_1 m_{t-1} + (1-\beta_1)g_t$

$v_t = \beta_2 v_{t-1} + (1-\beta_2)g_t^2$

$\hat{m}_t = \frac{m_t}{1-\beta_1^t}$

$\hat{v}t = \frac{v_t}{1-\beta_2^t}$

$\theta_t = \theta{t-1} - \frac{\alpha}{\sqrt{\hat{v}_t}+\epsilon} \hat{m}_t,$

在这里 $m_t$ 和 $v_t$ 是梯度的一阶矩和二阶矩， $\hat{m}_t$ 和 $\hat{v}_t$ 是经过偏差校正的时刻估计， $\theta_t$ 是当前的参数集， $g_t$ 是时刻t的梯度 ,α 是学习率，β1 和β2 是第一和第二矩估计的指数衰减率，并且ε 是为了数值稳定性而添加到分母上的一个小值。

3.2 变压器

解释出版物“Attention Is All You Need”中的 Transformer 算法如何工作。使用乳胶。使用数学公式。绘制 ASCII 图解释注意矩阵的键、查询和管道中的值乘法。

Transformer 是一种基于注意力的神经网络架构，用于各种自然语言处理 (NLP) 任务。Vaswani 等人在论文《Attention Is All You Need》中介绍了这一点。（2017）。Transformer模型由编码器和解码器组成，两者均由自注意力层和前馈层组成。

自注意力用于通过对序列中所有标记的嵌入进行加权求和来计算输入序列中每个标记的输出，其中权重是通过根据序列中的所有标记的相关性来计算的到当前令牌。查询之间的注意力权重 $q_i$ 和一把钥匙 $k_j$ 使用其嵌入的点积计算，按嵌入维数的平方根缩放，然后通过 softmax 函数：

$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^\top}{\sqrt{d_k}}\right) V$

注意( Q ,K, V )分别是查询矩阵、键矩阵和值矩阵时； $d_k$ 是keys的维度；然后将得到的注意力矩阵乘以值矩阵V以获得最终的输出。

在 Transformer 中，自注意力机制以多头方式使用，其中输入嵌入被投影到多个子空间，并且注意力在每个子空间中独立应用，从而使模型能够关注输入的不同方面。每个注意力头的输出被连接并投影回原始维度。

这是注意力机制的 ASCII 图：

<span style="color:#111111"><span style="background-color:#fdfdfd"><span style="background-color:#eeeeff"><span style="background-color:#eeeeff"><code>     Q           K           V
      |           |           |
      v           v           v
+-----+-----+   +-----+-----+   +-----+-----+
|  q1 | ... |   |  k1 | ... |   |  v1 | ... |
+-----+-----+   +-----+-----+   +-----+-----+
      |           |           |
      +-----------+-----------+
                  |
              attention
                  |
                  v
+-------------------------------+
|          output token         |
+-------------------------------+`
</code></span></span></span></span>

3.4 GPT-3

解释 GPT-3 算法的工作原理。提供深度学习技术细节。使用乳胶。使用数学公式。将解释放入 5 个句子中。突出显示最重要的信息。提供 APA 风格的原始出版物。

GPT-3（Generative Pre-trained Transformer 3）是OpenAI开发的语言生成模型，利用深度学习技术生成类人自然语言。该模型在大量不同文本数据集上进行训练，以学习语言模式，并针对特定的自然语言处理任务进行微调。

GPT-3的架构基于具有1750亿个参数的Transformer模型，这使得它能够生成低错误率的高质量文本。该模型使用无监督学习来生成连贯且上下文相关的语言。

GPT-3 的独特功能之一是它能够执行广泛的自然语言处理任务，例如语言翻译、摘要和问答，而不需要特定于任务的训练数据。

该模型结合使用了注意力机制和概率语言模型，前者使其能够专注于输入文本的相关部分，后者根据学习到的语言模式分布生成输出文本。

根据布朗等人的说法。(2020) 中，GPT-3 在多个自然语言处理基准上的性能在许多情况下超过了最先进的水平，证明了其架构和训练方法的有效性。

参考：

Brown, TB、Mann, B.、Ryder, N.、Subbiah, M.、Kaplan, J.、Dhariwal, P....和 Amodei, D. (2020)。语言模型是小样本学习者。arXiv 预印本 arXiv：2005.14165。

四、比较架构

ChatGPT 应该比较不同的深度学习架构，并解释它们相对于模型的先前版本的差异或演变。

4.1 YOLO v1 到 v5 比较

创建 Markdown 表，其中包含“Architecture”、“Changes”列，其中将 YOLO v1、v2、v3、v4 和 v5 与之前的版本进行相应比较。

建筑学	变化
YOLO v1	- 采用单尺度检测方法的基本架构 - 基于 Darknet 的主干网 - 不使用锚框 - 仅限于检测 20 个类别
YOLO v2	- 引入锚框来处理多个尺度 - 添加批量归一化以提高收敛性 - 将卷积层替换为残差块 - 增加卷积层的数量 - 检测图现在在多个锚框之间共享 - 实现更高的精度，可以检测 80 个类别
YOLO v3	- 进一步增加了卷积层的数量并添加了跳跃连接 - 使用特征金字塔合并多个尺度 - 引入了三个检测头来捕获不同的尺度和纵横比 - 训练和网络正则化方面的改进 - 实现了最先进的对象精度检测任务
YOLO v4	- 利用 CSPDarknet53 和 SPP 块等多项高级功能 - 引入了 Mish 激活功能 - 使用空间注意力和上下文聚合模块 - 引入了跨阶段部分网络 (CSPNet) - 比 YOLOv3 更准确、更快
YOLO v5	- 引入了使用 FCOS 进行无锚物体检测 - 比以前的版本更小、更快 - 使用 BiFPN 融合多个尺度的特征 - 实施了新的损失函数和后处理方法 - 实现了与 YOLOv4 相当的精度，同时速度显着加快

4.2 梯度下降路线图

提供梯度下降优化算法的开发路线图，如SGD、Adam、AdamW等。制作一个Markdown表格，其中“Name”列为算法名称；随刊《Publication》，以APA风格呈现了该算法；以及该算法所做的改进的“贡献”。按发布时间升序对行进行排序。

姓名	出版物	贡献
梯度下降	阿拉巴马州柯西 (1847)。“同时求解系统的通用方法”。巴黎科学院会议 25：536–538。	经典优化算法，根据损失函数相对于参数的梯度来更新模型参数。
随机梯度下降 (SGD)	罗宾斯，H.，＆蒙罗，S.（1951）。“随机逼近法”。《数理统计年鉴》22 (3)：400–407。	通过计算单个示例的梯度来优化模型，使其比标准梯度下降算法更快。
阿达格勒	Duchi, J.、Hazan, E. 和 Singer, Y. (2011)。“在线学习和随机优化的自适应次梯度方法”。机器学习研究杂志，12：2121-2159。	使学习率适应参数，使频繁的参数获得较小的学习率，而不频繁的参数获得较高的学习率。
阿达德尔塔	蔡勒，医学博士（2012）。“ADADELTA：一种自适应学习率方法”。arXiv 预印本 arXiv：1212.5701。	计算自适应学习率，其中考虑了平方梯度的移动平均值。
均方根螺旋桨	蒂勒曼，T. 和辛顿，G. (2012)。“讲座 6.5-rmsprop：将梯度除以其最近幅度的运行平均值”。课程：机器学习神经网络 4：2-4。	根据梯度平方的移动平均值调整学习率，通过先前梯度的均方根对梯度进行归一化。
亚当	Kingma, DP 和 Ba, J. (2015)。“Adam：一种随机优化方法”。arXiv 预印本 arXiv：1412.6980。	计算每个参数的自适应学习率，同时考虑梯度的一阶矩和二阶矩，从而实现更快的收敛和更好的泛化性能。
那达慕	多扎特，T.（2016）。“将涅斯特洛夫动力融入亚当”。ICLR 研讨会。	为 Adam 添加 Nesterov 动量，从而在鞍点的情况下实现更快的收敛。
亚当·W	Loshchilov, I. 和 Hutter, F. (2017)。“修复 Adam 中的权重衰减正则化”。arXiv 预印本 arXiv：1711.05101。	修复了 Adam 中的权重衰减问题，从而获得更好的泛化性能。
拉达姆	刘L.、江华、何鹏、陈文、刘X.、高J.、韩J. (2019)。“关于自适应学习率的方差及其他”。arXiv 预印本 arXiv：1908.03265。	纠正 Adam 中自适应学习率的方差，从而获得更好的泛化性能。

4.3 计算机视觉路线图

从 LeNet 开始，制定计算机视觉架构的开发路线图。制作一个 Markdown 表，其中包含以下列：“名称”，以及架构的名称；随刊《Publication》，以APA风格呈现了该算法；以及该架构所做的改进的“贡献”。按发布时间升序对行进行排序。

姓名	出版物	贡献
乐网	LeCun, Y.、Bottou, L.、Bengio, Y. 和 Haffner, P. (1998)。基于梯度的学习应用于文档识别。IEEE 会议录，86(11), 2278-2324。	第一个成功用于手写数字识别的卷积神经网络 (CNN) 之一。
亚历克斯网	Krizhevsky, A.、Sutskever, I. 和 Hinton, GE (2012)。使用深度卷积神经网络进行 Imagenet 分类。神经信息处理系统的进展（第 1097-1105 页）。	第一个赢得 ImageNet 大规模视觉识别竞赛 (ILSVRC) 的 CNN。引入具有更深更广网络、ReLU 激活函数和 dropout 正则化的新架构。
VGG网络	西蒙扬，K.，＆齐瑟曼，A.（2014）。用于大规模图像识别的非常深的卷积网络。arXiv 预印本 arXiv：1409.1556。	更深层次的架构，最多 19 层，全部带有小型卷积滤波器。该架构为 ImageNet 树立了新的基准。
盗梦空间 v1	Szegedy, C.、Liu, W.、Jia, Y.、Sermanet, P.、Reed, S.、Anguelov, D., … & Rabinovich, A. (2015)。更深入地了解卷积。IEEE 计算机视觉和模式识别会议论文集（第 1-9 页）。	引入 inception 模块，该模块由具有不同滤波器大小和池化操作的多个并行卷积层组成。该模块提高了准确性，同时保持了较低的参数数量。
残差网络	何凯、张旭、任胜、孙洁 (2016)。用于图像识别的深度残差学习。IEEE 计算机视觉和模式识别会议论文集（第 770-778 页）。	引入残差连接，通过解决梯度消失问题来允许更深的架构。该架构在 ImageNet 上树立了新的最先进水平。
盗梦空间 v3	Szegedy, C.、Vanhoucke, V.、Ioffe, S.、Shlens, J. 和 Wojna, Z. (2016)。重新思考计算机视觉的初始架构。IEEE 计算机视觉和模式识别会议论文集（第 2818-2826 页）。	进一步开发 inception 模块，引入因式分解 7x7 卷积，并添加批量归一化。该架构在 ImageNet 上树立了新的最先进水平。
Xception	乔莱，F.（2017）。Xception：具有深度可分离卷积的深度学习。IEEE 计算机视觉和模式识别会议论文集（第 1251-1258 页）。	引入深度可分离卷积，将空间卷积和通道卷积分开，减少参数数量，同时提高准确性。该架构在 ImageNet 上树立了新的最先进水平。
高效网络	Tan, M. 和 Le, QV (2019)。Efficientnet：重新思考卷积神经网络的模型扩展。国际机器学习会议（第 6105-6114 页）。	提出一种复合缩放方法，统一缩放网络的深度、宽度和分辨率。该架构在 ImageNet 上树立了新的最先进水平，同时比以前的架构具有更高的计算效率。

4.4 自然语言处理路线图

制定 NLP 架构的开发路线图。制作一个 Markdown 表，其中包含以下列：“名称”，以及架构的名称；随刊《Publication》，以APA风格呈现了该算法；以及该架构所做的改进的“贡献”。按发布时间升序对行进行排序。

姓名	出版物	贡献
隐马尔可夫模型 (HMM)	拉宾纳，LR (1989)	引入了用于预测未知变量序列的统计模型。
循环神经网络 (RNN)	埃尔曼，JL (1990)	引入了能够通过使用反馈连接处理顺序数据的神经网络架构。
长短期记忆 (LSTM)	Hochreiter, S. 和 Schmidhuber, J. (1997)	通过引入记忆单元和门控机制改进了 RNN，从而可以更好地处理长期依赖性。
卷积神经网络 (CNN)	LeCun, Y.、Bottou, L.、Bengio, Y. 和 Haffner, P. (1998)	引入了一种能够从输入数据的局部区域提取特征的架构，从而实现平移不变性。
CBOW	Mikolov, T.、Chen, K.、Corrado, G. 和 Dean, J. (2013)。向量空间中单词表示的有效估计。	提出了一种简单的神经网络架构，用于计算单词的连续分布式表示，该架构计算效率高，适合大规模 NLP 任务。
跳语法	Mikolov, T.、Chen, K.、Corrado, G. 和 Dean, J. (2013)。向量空间中单词表示的有效估计。	提出了一种简单的神经网络架构，用于计算单词的连续分布式表示，该架构计算效率高，适合大规模 NLP 任务。
格鲁乌	Cho, K.、van Merrienboer, B.、Gulcehre, C.、Bahdanau, D.、Bougares, F.、Schwenk, H. 和 Bengio, Y. (2014)。使用 RNN 编码器-解码器学习短语表示以进行统计机器翻译。	提出了门控循环单元（GRU），它是 LSTM 架构的一种变体，参数更少，更容易训练，同时仍然能够对长期依赖关系进行建模。
变压器	Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN, … & Polosukhin, I. (2017)	引入了仅基于自注意力的模型，该模型在许多 NLP 任务中取得了 state-of-the-art 的结果。
伯特	Devlin, J.、Chang, MW、Lee, K. 和 Toutanova, K. (2018)	推出了基于 Transformer 架构的模型，该模型在大型语料库上进行预训练，然后对下游 NLP 任务进行微调，在其中许多任务中取得了最先进的结果。
GPT-2	Radford, A.、Wu, J.、Child, R.、Luan, D.、Amodei, D. 和 Sutskever, I. (2019)	推出了基于 Transformer 的模型，该模型在海量语料库上进行了预训练，该模型在文本及其他方面展示了令人印象深刻的生成能力。
T5	Raffel, C.、Shazeer, N.、Roberts, A.、Lee, K.、Narang, S.、Matena, M.... & Liu, PJ (2019)	推出了一种能够通过单一训练目标执行各种 NLP 任务的模型，并在多个基准测试中取得了最先进的结果。
GPT-3	Brown, TB、Mann, B.、Ryder, N.、Subbiah, M.、Kaplan, J.、Dhariwal, P....和 Amodei, D. (2020)。语言模型是小样本学习者。	提出了 GPT-3 模型，它是 GPT-2 的大规模版本，拥有 1750 亿个参数，并展示了令人印象深刻的少样本学习能力，这意味着它

4.5 时间序列路线图

制定时间序列模型开发路线图。制作一个 Markdown 表，其中包含以下列：“名称”，以及模型的名称；《出版物》以出版物的形式，以APA的风格呈现了这个模型；和“贡献”以及该模型所做的改进。按发布时间升序对行进行排序。

姓名	出版物	贡献
ARMA	Box，GEP，詹金斯，总经理（1970 年）。时间序列分析：预测和控制。旧金山：霍顿日。	引入了ARMA模型，该模型结合了AR（自回归）和MA（移动平均）模型，广泛用于预测平稳时间序列数据。
阿里玛	Box，GEP，詹金斯，总经理 (1976)。时间序列分析：预测和控制。旧金山：霍顿日。	通过引入积分组件扩展了ARMA模型，使模型能够处理非平稳时间序列数据。
伽马奇	博勒斯列夫，T. (1986)。广义自回归条件异方差。计量经济学杂志，31, 307–327。	引入了 GARCH 模型，该模型可以通过将自回归和移动平均分量与时变方差相结合来对金融时间序列数据中常见的波动性聚类进行建模。
长短期记忆网络	Hochreiter, S. 和 Schmidhuber, J. (1997)。长短期记忆。神经计算，9(8)，1735–1780。	引入了 LSTM 架构，它是一种循环神经网络，可以通过合并可以随时间存储和检索信息的记忆单元来学习时间序列数据中的长期依赖性。
格鲁乌	Cho, K.、Van Merrienboer, B.、Bahdanau, D. 和 Bengio, Y. (2014)。关于神经机器翻译的特性：编码器-解码器方法。arXiv 预印本 arXiv：1409.1259。	引入了 GRU 架构，这是另一种类型的循环神经网络，可以学习时间序列数据中的长期依赖性，但参数比 LSTM 少。
波网	van den Oord, A.、Dieleman, S.、Zen, H.、Simonyan, K.、Vinyals, O.、Graves, A. 等人。（2016）。WaveNet：原始音频的生成模型。arXiv 预印本 arXiv：1609.03499。	引入了 WaveNet 架构，它是一种自回归模型，可以通过使用一堆扩张的因果卷积层预测波形中的下一个样本来生成高质量的音频。
TCN	Bai, S.、Kolter, JZ 和 Koltun, V. (2018)。用于序列建模的通用卷积和循环网络的实证评估。arXiv 预印本 arXiv：1803.01271。	引入了 TCN 架构，它是一种卷积神经网络，可以通过扩张因果卷积学习时间序列数据中的长期依赖性，在多个序列建模任务中实现最先进的性能。
变压器	Vaswani, A.、Shazeer, N.、Parmar, N.、Uszkoreit, J.、Jones, L.、Gomez, AN 等人。（2017）。您所需要的就是关注。arXiv 预印本 arXiv：1706.03762。	推出了 Transformer 架构，这是一种基于自注意力的模型，可以通过计算所有时间步之间的注意力权重来捕获时间序列数据中的全局依赖关系，在多个 NLP 任务和时间序列预测中实现最先进的性能。