人工智能 LLM 革命前夜：一文读懂ChatGPT缘起的自然语言处理模型Transformer

人工智能 LLM 革命前夜：一文读懂ChatGPT缘起的自然语言处理模型Transformer

news2026/2/12 14:53:22

作者：钟超阿里集团大淘宝团队

[01] https://web.stanford.edu/~jurafsky/slp3/3.pdf

[02] https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

[03] 《自然语言处理：基于预训练模型的方法》车万翔等著

[04] https://cs.stanford.edu/people/karpathy/convnetjs/

[05] https://arxiv.org/abs/1706.03762

[06] https://arxiv.org/abs/1512.03385

[07] https://github.com/Kyubyong/transformer/

[08] http://jalammar.github.io/illustrated-transformer/

[09] https://towardsdatascience.com/this-is-how-to-train-better-transformer-models-d54191299978

[10] 《自然语言处理实战：预训练模型应用及其产品化》安库·A·帕特尔等著

[11] https://lilianweng.github.io/posts/2018-06-24-attention/

[12] https://github.com/lilianweng/transformer-tensorflow/

[13] 《基于深度学习的道路短期交通状态时空序列预测》崔建勋著

[14] https://www.zhihu.com/question/325839123

[15] https://luweikxy.gitbook.io/machine-learning-notes/self-attention-and-transformer

[16] 《Python 深度学习（第 2 版）》弗朗索瓦·肖莱著

[17] https://en.wikipedia.org/wiki/Attention_(machine_learning)

[18] https://zhuanlan.zhihu.com/p/410776234

[19] https://www.tensorflow.org/tensorboard/get_started

[20] https://paperswithcode.com/method/multi-head-attention

[21] https://zhuanlan.zhihu.com/p/48508221

[22] https://www.joshbelanich.com/self-attention-layer/

[23] https://learning.rasa.com/transformers/kvq/

[24] http://deeplearning.stanford.edu/tutorial/supervised/ConvolutionalNeuralNetwork/

[25] https://zhuanlan.zhihu.com/p/352898810

[26] https://towardsdatascience.com/beautifully-illustrated-nlp-models-from-rnn-to-transformer-80d69faf2109

[27] https://medium.com/analytics-vidhya/understanding-q-k-v-in-transformer-self-attention-9a5eddaa5960

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/349355.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

相关文章

如何系统的、阶段的学习Java开发，真正的从入门到精通

如何系统的、阶段的学习Java开发，真正的从入门到精通

Java 后端有着非常庞大的生态圈，也涉及到很多复杂的问题，如分布式事务、分布式查询、微服务、高并发、容灾、容器化等等，涉及到的技术栈和框架就更多了。不过，我们目前只是为了快速入门，我们只会学习最必要的那些知识&…

阅读更多...

ubuntu18.04下pytorch版Maskrcnn编译错误汇总

ubuntu18.04下pytorch版Maskrcnn编译错误汇总

ubuntu18.04下pytorch版Maskrcnn编译错误汇总1 anconda环境配置2 bug及解决办法2.1 Detected CUDA version (11.2) mismatches the version that was used to compile PyTorch(10.2)2.2 error: legacy-install-failure Encountered error while trying to install package.╰─…

阅读更多...

Cron表达式的含义、相关知识点及相关表达式示例

Cron表达式的含义、相关知识点及相关表达式示例

学习目标： 本篇博文学习目标如下: 掌握 Cron表达式学习内容： Cron表达式： 1、Cron表达式的含义： Cron表达式是一个具有时间含义的字符串，字符串以5-6个空格隔开，分为6~7个域，格式为X X X X …

阅读更多...

一文讲透sparkHistoryServer与yarnHistoryServer关系

一文讲透sparkHistoryServer与yarnHistoryServer关系

1、spark history 和 yarn history 的区别？ Spark History Server 和 YARN History Server 是用于查看和分析Spark和YARN 应用程序的执行情况的两个不同的工具。 Spark历史服务器是专门用于Spark应用程序的工具，它提供了一个界面，可以查看S…

阅读更多...

移动机器人设计与实践课程大纲

移动机器人设计与实践课程大纲

MiR移动机器人参考资料：图一西北工业大学-课程平台图二清华大学出版社-移动机器人目前，基本都是双一流大学开设此类课程，并且都是至少3-4学分，16学时/学分，48-64学时。(⊙﹏⊙)，难办了。咱这只有&#xf…

阅读更多...

C++学习笔记-数据类型

C++学习笔记-数据类型

在用任何语言编写程序时，需要使用各种变量来存储各种信息。变量只是用于存储值的保留内存位置。这意味着当创建变量时，在内存中保留了一些空间。可能希望存储各种数据类型的信息，如字符，宽字符，整数，浮…

阅读更多...

测试用例该怎么设计？—— 日常加更篇（下）

测试用例该怎么设计？—— 日常加更篇（下）

😏作者简介：博主是一位测试管理者，同时也是一名对外企业兼职讲师。 📡主页地址：【Austin_zhai】 🙆目的与景愿：旨在于能帮助更多的测试行业人员提升软硬技能，分享行业相关最新信息。…

阅读更多...

Revit教程：怎么关掉工具栏的实时提示？

Revit教程：怎么关掉工具栏的实时提示？

一、Revit中如何关闭工具栏的实时帮助提示如图1所示，Revit会对每一个命令有一个简单的图文说明，方便不熟悉软件的用户使用。对于已经熟悉软件的用户，会觉得鼠标在菜单上悬停时弹出的实时帮助页面很干扰使用，而且很占内存资源&…

阅读更多...

ESP-C3入门10. 创建TCP Client

ESP-C3入门10. 创建TCP Client

ESP-C3入门10. 创建TCP Client一、创建 tcp client的一般步骤1. 创建 tcp 套接字2. 配置服务器地址3. 连接服务器4. 发送数据5. 接收数据6. 关闭套接字二、创建tcp_client任务三、示例代码1. tcpClient.h2. tcpClient.c3. main.c一、创建 tcp client的一般步骤本文示例使用的…

阅读更多...

【Redis】Redis 常用数据类型操作 ① ( 数据库操作 | Redis 数据库连接参数 | Redis 数据库个数 | Redis 访问机制 )

【Redis】Redis 常用数据类型操作 ① ( 数据库操作 | Redis 数据库连接参数 | Redis 数据库个数 | Redis 访问机制 )

文章目录一、Redis 数据库连接参数二、Redis 数据库个数三、Redis 访问机制一、Redis 数据库连接参数连接 Redis 数据库 , 只需要 IP 地址 , 端口号 , 访问密码即可 , 如果没有设置访问密码可忽略该选项 ; Redis 默认端口号是 6379 ; 参考【Redis】Redis 数据库安装、…

阅读更多...

【C语言学习笔记】：折叠表达式

【C语言学习笔记】：折叠表达式

在C中通过折叠表达式可以更容易的在可变参数模板中处理可变参数。先看一下传统的使用递归方式来处理可变参数的代码： #include <iostream>void print(int i) { std::cout << i << " ";}void func() {}template<typename T1, t…

阅读更多...

C++为什么能重夺年度语言？

C++为什么能重夺年度语言？

目录一、爷青回1、年初依旧很多大新闻，其中一条就是TIOBE把年度编程语言颁给了C。2、这是什么概念？那一年Java的流行指数是14%。二、C为什么衰落三、C为什么重新流行1、C为什么重新流行起来了呢？2、C究竟做对了什么呢？3、根本原因…

阅读更多...

Python入门自学进阶-Web框架——31、开发客户报名流程

Python入门自学进阶-Web框架——31、开发客户报名流程

完成客户报名的流程流程大体如下：在已有收集的客户信息基础上——>销售填写报名表（报什么班、课程顾问）——>自动生成一个链接，让学员填写——>学员填写个人信息，并上传身份照片，同意合同协议——…

阅读更多...

墨天轮【第二届数据库掌门人论坛】圆满收官 | 含嘉宾精彩观点回顾

墨天轮【第二届数据库掌门人论坛】圆满收官 | 含嘉宾精彩观点回顾

2月10日上午，墨天轮【2023春季发布会暨第二届数据库掌门人论坛】盛大开启，本次活动的主题为“新征程，向未来”，共包含2022年度中国数据库颁奖盛典、2022年度行业发展报告发布以及第二届数据库掌门人论坛三项议程。华为云数据库服务…

阅读更多...

win10-右键打开windows terminal

win10-右键打开windows terminal

文章目录windows terminal设置右键打开打开注册表添加一个右键选项新建一个项添加右键的名称和图标右键选项执行的命令测试windows terminal windows 新一代命命令行设置右键打开打开注册表 WinR 输入： regedit 定位： 计算机\HKEY_CLASSES_ROOT\Di…

阅读更多...

中国第一份ERP系统用户实名口碑选型报告（选型宝重磅发布！）

中国第一份ERP系统用户实名口碑选型报告（选型宝重磅发布！）

01 报告目录一、报告概况二、 ERP类厂商-用户实名口碑排行三、 ERP类产品-用户实名口碑对比四、主流ERP产品简介五、 ERP常用功能六、算法说明七、联系选型宝 02 报告概述一、报告亮点这是一份完全由用户实名点评生成的ERP系统选型报告。报告由选…

阅读更多...

关于 Eclipse 的一场 “三角关系”

关于 Eclipse 的一场 “三角关系”

上个世纪 90 年代，世界上的计算机要么不联网，要么在企业内部联网。但是，在互联网的概念下，计算机之间共享信息和资源的需求成为了必要。 1995 年 5 月，Java 横空出世。Java 的父亲是当时凭借 Solaris 操作系统风头正盛…

阅读更多...

2023-02-16 学习记录--React-邂逅Redux（三）

2023-02-16 学习记录--React-邂逅Redux（三）

React-邂逅Redux（三） “天道酬勤，与君共勉”——承接React-邂逅Redux（二），让我们一起继续探索Redux的奥秘吧~☺️【今日新知识——异步action】一、什么是异步action？ action有两种形式&#x…

阅读更多...

C#:Krypton控件使用方法详解(第二讲) ——kryptonCheckBox

C#:Krypton控件使用方法详解(第二讲) ——kryptonCheckBox

今天介绍的Krypton控件中的kryptonCheckBox，这个控件和VS中带的CheckBox控件还是不一样的，下面介绍这个控件。kryptonCheckBox控件的外观属性如下图所示：Checked属性：对应的属性值为Bool类型有两个，当属性值为true时kr…

阅读更多...

DHCP协议

DHCP协议

DHCP协议文章目录DHCP协议DHCP作用及特点DHCP服务IP分配的三种方式DHCP协议中的报文类型DHCP服务工作流程抓包参考动态主机配置协议 DHCP（Dynamic Host Configuration Protocol），提供了一种插网即用的技术。DHCP是一个应用层协议。当我们将…

阅读更多...

推荐文章

最新文章