说到Transformer,这个已经是无数人谈论的神经网络的基础架构之一了。但是这期间又有无数的好的,极好的,不好的信息,所以如果你要真的了解它,找本好书来仔细看一下,其实是对得起自己的最好方式!
今天我想推荐的一本书是 《基于 GPT-3 、 ChatGPT、GPT-4等 Transfromer 架构的自然语言处理》 ,我想你一看到这么长的书名,大概率就知道它的主要内容了:
它就是从 Transformer 架构开始讲,然后分析了它如何实现 Bert、如何训练与微调 Bert; 如何从 GPT-2再发展到 GPT-3,微调 GPT3,如何使用 GPT3;再到做为 AI 的各种应用场景的处理。最难得的是,还在最后一段章节中讲解了 GPT4的内容。也就是 Transformer 在 NLP 这一条主线上的技术讲得一条龙嘛。把 Transformer 在 NLP 领域里可能出现的场景都大概通透的讲了一遍。可以说是 Transformer 的全书!
👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈
再看一下细节,我觉得讲得非常到位的地方。这本书的第二章,我觉得讲得非常好的部分:
它只讲Transformer 的基础架构,说到这个架构,为什么那么多人讲我觉得这本书讲的“到位”呢?
- 能够从 文字转 Token 开始讲起,再接 Position Embedding,QKV 的计算,然后 FFN 的处理方法,Decoder 都有。
- 关于 Position Embedding 不要只讲绝对 Position 计算,还有扩展一下它是怎么应用的,你能更清楚细节。
- QKV 如何优化计算。大家都知道的是 QxK^xV,但是你真的知道每个细节吗?
- 它还讲了MultiHead 的拼接,这个是我看到非常少的文章提到这个细节的。 所以细节才是魔鬼,只有写了细节的人才说明知道细节上的问题有多少!才知道读了有啥用!
这些在这本书的第二章都有了充分的讲解。所以一本书的内容既有宽度,又有深度。再加上应用场景的分析说明,是不是非常的好?
书籍目录如下:
第1 章 Transformer 模型介绍
-
1.1 Transformer 的生态系统
-
1.2 使用Transformer 优化NLP模型
-
1.3 我们应该使用哪些资源
-
1.4 本章小结
-
1.5 练习题
第2 章 Transformer 模型架构入门
-
2.1 Transformer 的崛起:注意力就是一切
-
2.2 训练和性能
-
2.3 Hugging Face 的Transformer模型
-
2.4 本章小结
-
2.5 练习题
第3 章 微调BERT 模型
-
3.1 BERT 的架构
-
3.2 微调BERT
-
3.3 本章小结
-
3.4 练习题
第4 章 从头开始预训练RoBERTa模型
-
4.1 训练词元分析器和预训练Transformer
-
4.2 从头开始构建Kantai BERT
-
4.3 后续步骤
-
4.4 本章小结
-
4.5 练习题
第5 章 使用Transformer 处理下游NLP 任务
-
5.1 Transformer 的转导与感知
-
5.2 Transformer 性能与人类基准
-
5.3 执行下游任务
-
5.4 本章小结
-
5.5 练习题
第6 章 机器翻译
-
6.1 什么是机器翻译
-
6.2 对WMT 数据集进行预处理
-
6.3 用BLEU 评估机器翻译
-
6.4 Google 翻译
-
6.5 使用Trax 进行翻译
-
6.6 本章小结
-
6.7 练习题
第7 章 GPT-3
-
7.1 具有GPT-3 Transformer模型的超人类NLP
-
7.2 OpenAI GPT Transformer模型的架构
-
7.3 使用GPT-2 进行文本补全
-
7.4 训练自定义GPT-2 语言模型
-
7.5 使用OpenAI GPT-3
-
7.6 比较GPT-2 和GPT-3 的输出
-
7.7 微调GPT-3
-
7.8 工业4.0 AI 专家所需的技能
-
7.9 本章小结
-
7.10 练习题
第8 章 文本摘要(以法律和财务文档为例)
-
8.1 文本到文本模型
-
8.2 使用T5 进行文本摘要
-
8.3 使用GPT-3 进行文本摘要
-
8.4 本章小结
-
8.5 练习题
第9 章 数据集预处理和词元分析器
-
9.1 对数据集进行预处理和词元分析器
-
9.2 深入探讨场景4 和场景5
-
9.3 GPT-3 的NLU 能力
-
9.4 本章小结
-
9.5 练习题
第10 章 基于BERT 的语义角色标注
-
10.1 SRL 入门
-
10.2 基于BERT 模型的SRL
-
实验
-
10.3 基本示例
-
10.4 复杂示例
-
10.5 SRL 的能力范围
-
10.6 本章小结
-
10.7 练习题
第11 章 使用Transformer 进行问答
-
11.1 方法论
-
11.2 方法0:试错法
-
11.3 方法1:NER
-
11.4 方法2:SRL
-
11.5 后续步骤
-
11.6 本章小结
-
11.7 练习题
第12 章 情绪分析
-
12.1 入门:使用Transformer进行情绪分析
-
12.2 斯坦福情绪树库(SST)
-
12.3 通过情绪分析预测客户行为
-
12.4 使用GPT-3 进行情绪分析
-
12.5 工业4.0 依然需要人类
-
12.6 本章小结
-
12.7 练习题
第13 章 使用Transformer 分析假新闻
-
13.1 对假新闻的情绪反应
-
13.2 理性处理假新闻的方法
-
13.3 在我们继续之前
-
13.4 本章小结
-
13.5 练习题
第14 章 可解释AI
-
14.1 使用BertViz 可视化Transformer
-
14.2 LIT
-
14.3 使用字典学习可视化Transformer
-
14.4 探索我们无法访问的模型
-
14.5 本章小结
-
14.6 练习题
第15 章 从NLP 到计算机视觉
-
15.1 选择模型和生态系统
-
15.2 Reformer
-
15.3 DeBERTa
-
15.4 Transformer 视觉模型
-
15.5 不断扩大的模型宇宙
-
15.6 本章小结
-
15.7 练习题
第16 章 AI 助理
- 16.1 提示工程
👉CSDN大礼包🎁:全网最全《LLM大模型入门+进阶学习资源包》免费分享(安全链接,放心点击)👈