大模型书籍推荐丨这本书必看:大语言模型 基础与前沿(附PDF)

news2024/11/23 1:42:05

哈喽大家好!很久都没有更新大模型这块的书了,今天给大家说一下这本:《大语言模型:基础与前沿》,本书深入阐述了大语言模型的基本概念和算法、研究前沿以及应用,涵盖大语言模型的广泛主题,从基础到前沿,从方法到应用,涉及从方法论到应用场景方方面面的内容。

在这里插入图片描述

作者简介

熊涛,美国明尼苏达大学双城分校电子与计算机工程博士。曾在多家中美知名高科技公司担任高级管理职位和首席科学家,在人工智能的多个领域,包括大语言模型、图神经网络等从事研发和管理工作多年。

适宜人群

本书内容全面、系统性强,适合高年级本科生和研究生、博士后研究人员、讲师以及行业从业者阅读与参考。

书评

这本书是这个领域截至目前比较全的文献综述,给出了从大语言模型的基本原理,到训练大语言模型的分词,大语言模型的调优,到大语言模型的微调,大语言模型的上下文ICL提示词工程,大语言模型重点应用的增强检索,大语言模型的对齐,减毒,并行计算硬件架构,甚至能源和碳轨迹领域的前沿关键研究论文,基本算法的优劣,价值和演进方向都给出了简评,将近30页的参考文献,可见作者是下了功夫的。

我现在讲的这些还是很有限,如果你对大模型感兴趣,那建议你把这本书看完并吃透它,这本书的pdf版本我已经帮你打包好了

朋友们如果需要此本 《大语言模型:基础与前沿》,扫码获取~

👉CSDN大礼包🎁:大模型入门最佳书《大语言模型:基础与前沿》免费分享(安全链接,放心点击)👈

书籍目录:

第 1章 大语言模型:辩论、争议与未来发展方向 1

1.1 新时代的曙光 1
1.2 LLM有意识吗 3
1.3 未来发展方向 10
1.4 小结 13

第 2章 语言模型和分词 15

2.1 语言建模的挑战 16
2.2 统计语言建模 16
2.3 神经语言模型 18
2.4 评估语言模型 19
2.5 分词 19
2.6 小结 27

第3章 Transformer 29

3.1 Transformer编码器模块 29
3.2 编码器-解码器架构 31
3.3 位置嵌入 32
3.4 更长的上下文 38
3.5 外部记忆 42
3.6 更快、更小的Transformer 45
3.7 推理优化 49
3.8 小结 56

第4章 预训练目标和解码策略 57

4.1 模型架构 57
4.2 预训练目标 60
4.3 具有代表性的语言模型 62
4.4 解码策略 67
4.5 小结 72

第5章 上下文学习和轻量级微调 73

5.1 上下文学习 74
5.2 提示语言模型的校准 94
5.3 轻量级微调 97
5.4 小结 104

第6章 训练更大的模型 107

6.1 扩大尺度法则 107
6.2 涌现能力 113
6.3 人工智能加速器 115
6.4 并行 117
6.5 混合训练和低精度训练 133
6.6 其他节省内存的设计 136
6.7 小结 137

第7章 稀疏专家模型 139

7.1 为什么采用稀疏专家模型 139
7.2 路由算法 142
7.3 其他改进措施 152
7.4 小结 156

第8章 检索增强型语言模型 157

8.1 预训练检索增强型语言模型 158
8.2 词元级检索 161
8.3 通过高效和精简检索进行问答和多跳推理 163
8.4 检索增强型Transformer 166
8.5 检索增强型黑盒语言模型 168
8.6 视觉增强语言建模 169
8.7 小结 170

第9章 对齐语言模型与人类偏好 171

9.1 基于人类反馈进行微调 172
9.2 基于语言反馈进行微调 183
9.3 基于监督学习进行微调 184
9.4 基于人工智能反馈的强化学习 185
9.5 基于自我反馈进行迭代优化 188
9.6 基于人类偏好进行预训练 190
9.7 小结 193

第 10章 减少偏见和有害性 195

10.1 偏见 196
10.2 有害性 199
10.3 偏见和有害性的检测与减少 200
10.4 小结 206

第 11章 视觉语言模型 207

11.1 语言处理的多模态落地 207
11.2 不需要额外训练即可利用预训练模型 208
11.3 轻量级适配 213
11.4 图文联合训练 219
11.5 检索增强视觉语言模型 222
11.6 视觉指令调整 225
11.7 小结 227

第 12章 环境影响 229

12.1 能源消耗和温室气体排放 229
12.2 估算训练模型的排放量 230
12.3 小结 231
参考文献 232

书籍内容

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

无论如何,如果准备all in 大模型这本书是必看,除了掌握扎实的基础,我觉得这本书重点告诉了我们对待未知领域如何报以科学的态度去学习和认知,而不能总像外行一样看热闹,而看门道的内行,必须以科学的态度,大语言模型,这本书可以作为看门道的指南

朋友们如果需要此本 《大语言模型:基础与前沿》,扫码获取~

👉CSDN大礼包🎁:大模型入门最佳书《大语言模型:基础与前沿》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2239653.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Tofu AI视频处理模块视频输入配置方法

应用Tofu产品对网络视频进行获取做视频处理时,首先需要配置Tofu产品的硬件连接关系与设备IP地址、视频拉流地址。 步骤1 Tofu设备点对点直连或者通过交换机连接到电脑,电脑IP配置到与Tofu默认IP地址同一个网段。 打开软件 点击右上角系统设置 单击左侧…

MTSET可溶于DMSO、DMF、THF等有机溶剂,并在水中有轻微的溶解性,91774-25-3

一、基本信息 中文名称:[2-(三甲基铵)乙基]甲硫基磺酸溴;MTSET巯基反应染料 英文名称:MTSET;[2-(Trimethylammonium)ethyl]methanethiosulfonate Bromide CAS号:91774-25-3 分子式:C6H16BrNO2S2 分子量…

BERT框架详解

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年提出的一种自然语言处理(NLP)模型。BERT通过使用Transformer架构,实现了对文本的双向上下文理解,从而在多个NLP任务中取…

定时器(QTimer)与随机数生成器(QRandomGenerator)的应用实践——Qt(C++)

一、QTimer与QRandomGenerator (一)QTimer(定时器)[2] QTimer类为定时功能提供了一个高级编程接口。在使用QTimer时,实例化一个QTimer对象并将其timeout()发射信号与合适的信号槽相连接。通过调用QTimer的start()函数…

Linux 进程线程间通信总结

线程 线程共享存储空间主要带来的问题是数据同步和互斥。由于线程在同一进程中运行,它们共享相同的内存空间,任何线程都可以访问共享数据。这样,多个线程并发执行时,可能会导致以下两种主要问题: 互斥问题&#xff0…

什么是RAG? LangChain的RAG实践!

1. 什么是RAG RAG的概念最先在2020年由Facebook的研究人员在论文《Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks》中提出来。在这篇论文中他们提出了两种记忆类型: 基于预训练模型(当时LLM的概念不像现在这么如日中天&#xff0…

Python 进阶函数教程

Python 进阶函数教程 引言 在 Python 编程中,函数是组织代码、提高可重用性和可读性的关键组成部分。尽管许多初学者掌握了基本的函数定义和调用,但 Python 还提供了许多高级功能,使函数更加灵活和强大。本文将深入探讨 Python 中的高级函数…

ReactPress:深入解析技术方案设计与源码

ReactPress Github项目地址:https://github.com/fecommunity/reactpress 欢迎提出宝贵的建议,欢迎一起共建,感谢Star。 ReactPress是一个基于React框架开发的开源发布平台,它不仅仅是一个简单的博客系统,更是一个功能全…

c++实现B树(下)

书接上回小吉讲的是B树的搭建和新增方法的实现(blog传送门🚪:B树实现上)(如果有小可爱对B树还不是很了解的话,可以先看完上一篇blog,再来看小吉的这篇blog)。那这一篇主要讲的是B树中…

【漏洞分析】Fastjson最新版本RCE漏洞

01漏洞编号 CVE-2022-25845CNVD-2022-40233CNNVD-202206-1037二、Fastjson知多少 万恶之源AutoType Fastjson的主要功能是将Java Bean序列化为JSON字符串,这样得到的字符串就可以通过数据库等方式进行持久化了。 但是,Fastjson在序列化及反序列化的过…

PSRAM,Flash,SRAM,ROM有什么区别

PSRAM、Flash、SRAM 和 ROM 是四种不同类型的存储器,它们在计算机和嵌入式系统中的用途、特性和工作方式各不相同。下面是这四种存储器的区别和各自的特点: ### 1. **SRAM(静态随机存取存储器)** - **特性**: - **易…

大数据学习13之Scala基础语法(重点)

1. 简介 Scala 是 Scalable Language 的简写,是一门多范式的编程语言。创始人为 Martin Odersky 马丁奥德斯基。 Scala 这个名字来源于 Scalable Language(可伸缩的语言),它是一门基于 JVM 的多范式编程语言,通俗的说:…

django入门【05】模型介绍——字段选项(二)

文章目录 1、null 和 blank示例说明⭐ null 和 blank 结合使用的几种情况总结: 2、choices**choices 在 Django 中有以下几种形式:**(1) **简单的列表或元组形式**(2) **字典映射形式**(3&#…

微信小程序:vant组件库安装步骤

前言:在微信小程序中引用vant组件报错,提示路径不存在,这很有可能是因为没有安装构建vant组件库导致。下面是我整理的安装vant组件库的步骤: 第一步:安装node.js(执行完第一步请重启小程序) 具体步骤请看链接:node.js…

Python如何根据给定模型计算权值

目录 一、特征权重的重要性 二、线性回归中的特征权重计算 1. 导入必要的库 2. 创建示例数据集 3. 分割数据集 4. 训练线性回归模型并计算权重 三、特征选择方法 四、实际案例:金融科技数据集 五、总结 在机器学习中,特征权重的计算是理解模型如…

过去几年电子学习的趋势

近年来,在技术和不断变化的学习者期望的推动下,电子学习已经发展成为一种适应性强、沉浸式和社会化的教育形式。个性化已成为最具影响力的趋势之一,Coursera和LinkedIn Learning等平台为个人量身定制内容。这些平台使用人工智能来建议课程、跟…

面相小白的php反序列化漏洞原理剖析

前言 欢迎来到我的博客 个人主页:北岭敲键盘的荒漠猫-CSDN博客 本文整理反序列化漏洞的一些成因原理 建议学习反序列化之前 先对php基础语法与面向对象有个大体的了解 (我觉得我整理的比较细致,了解这俩是个啥就行) 漏洞实战情况 这个漏洞黑盒几乎不会被发现&am…

Flutter中的Material Theme完全指南:从入门到实战

Flutter作为一款热门的跨平台开发框架,其UI组件库Material Design深受开发者喜爱。本文将深入探讨Flutter Material Theme的使用,包括如何借助Material Theme Builder创建符合产品需求的主题风格。通过多个场景和代码实例,让你轻松掌握这一工…

IDC机房服务器托管的费用组成

IDC机房服务器托管的费用,并不是只有我们所想的电费而已,还有一些其它费用组成,详细来看: 1. 机位费用:   - 机位费用是根据服务器的尺寸和占用的空间来计算的。服务器通常按照U(Unit)的高度来…

032集——圆转多段线(Circle to Polyline)(CAD—C#二次开发入门)

CAD中圆可转为带有凸度的多段线以方便后期数据计算、处理&#xff0c;效果如下&#xff1a; 白色为圆&#xff0c;红色为转换后的多段线&#xff08;为区分&#xff0c;已手工偏移多段线&#xff09; public static void XX(){var curves Z.db.SelectEntities<Entity>…