好书推荐|复旦大学专家团队著《大规模语言模型:从理论到实践》(附PDF)

news2024/11/24 1:14:58

前言

在这个迅猛发展且复杂多变的技术领域,掌握大型模型的理论核心并有效地将其应用于实践,对许多人来说是一项艰巨的任务。为此,《大规模语言模型:从理论到实践》一书应运而生。本书由复旦大学计算机科学技术学院知名教授张奇领衔的专家团队精心编著,结合了他们在自然语言处理领域的深厚研究功底,以及分布式系统和并行计算的教学经验,旨在引导读者深入探究大型模型的原理,并提供了实用的操作策略和实例分析,帮助读者迅速掌握要领,轻松应对技术挑战。

在这里插入图片描述

内容简介

《大规模语言模型:从理论到实践》通过四个主要阶段——预训练、有监督微调、奖励建模和强化学习展开讲解,详细介绍了在每个阶段使用的关键算法、必要的数据处理方法、面临的挑战以及实践中的经验分享。从需要巨量数据和强大计算资源的预训练阶段,到精细化微调、奖励模型构建,再到通过强化学习进一步优化模型性能,本书不仅涵盖了技术的深度,也关注实际应用的广度。

此外,本书还探讨了如何将大语言模型与外部知识源结合,以及如何利用这些模型完成复杂任务和进行效果评估的方法。作为一本既适合初学者入门,也适合高年级本科生和研究生作为教材的书籍,作者团队努力全面呈现大模型研究的各个方面,同时避免了没有广泛共识的观点和结论,确保读者能够在当前快速发展的大模型领域获得坚实的理论基础和实践指导。

下载当前版本: 完整版本链接获取,可以V扫描下方二维码免费领取

1、绪论

  • 1.1 大规模语言模型基本概念
  • 1.2 大规模语言模型发展历程
  • 1.3 大规模语言模型构建流程
  • 1.4 本书的内容安排
    在这里插入图片描述

2 大语言模型基础

  • 2.1 Transformer模型
  • 2.2 生成式预训练语言模型GPT
  • 2.3 大语言模型结构
    在这里插入图片描述

3 语言模型训练数据

  • 3.1 数据来源
  • 3.2 数据处理
  • 3.3 数据影响分析
  • 3.4 开源数据集合
    在这里插入图片描述

4 分布式训练

  • 4.1 分布式训练概述
  • 4.2 分布式训练并行策略
  • 4.3 分布式训练的集群架构
  • 4.4 DeepSpeed实践
    在这里插入图片描述

5 有监督微调

  • 5.1 提示学习和语境学习
  • 5.2 高效模型微调
  • 5.3 模型上下文窗口扩展
  • 5.4 指令数据构建
  • 5.5 Deepspeed-Chat SFT实践
    在这里插入图片描述

6 强化学习

  • 6.1 基于人类反馈的强化学习
  • 6.2 奖励模型
  • 6.3 近端策略优化
  • 6.4 MOSS-RLHF实践
    在这里插入图片描述

7 大语言模型应用

  • 7.1 推理规划
  • 7.2 综合应用框架
  • 7.3 智能代理
  • 7.4 多模态大模型
  • 7.5 大语言模型推理优化
    在这里插入图片描述

8 大语言模型评估

  • 8.1 模型评估概述
  • 8.2 大语言模型评估体系
  • 8.3 大语言模型评估方法
  • 8.4 大语言模型评估实践

在这里插入图片描述

下载当前版本: 完整版本链接获取,可以V扫描下方二维码免费领取

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1986682.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

将增强型乳腺摄影添加到断层合成中用于有乳腺癌个人病史女性的乳腺癌检测:| 文献速递-基于深度学习的乳房、前列腺疾病诊断系统

Title 题目 Addition of Contrast-enhanced Mammography to Tomosynthesis for Breast Cancer Detection in Women with a Personal History of Breast Cancer: 将增强型乳腺摄影添加到断层合成中用于有乳腺癌个人病史女性的乳腺癌检测: Background 背景 Dig…

【黄啊码】什么是SD?SD的使用技巧

目录 SD的简介 SD的优势 1、不需要绘画基础,便能绘制精美的图片,插画 2、StableDiffusion不仅用于静态图像生成,还可应用于动态图像和视频创作,拓宽了AI绘画的应用领域。 3、快速发展,成熟的社区——帮助使用者…

Linux系统 腾讯云服务/宝塔面板安装《最新版本2024》禅道开源版本20.2

文章目录 目录 文章目录 安装流程 小结 概要安装流程技术细节小结 概要 有两种方式1.自带有服务器安装和2.使用禅道官方的服务器免费使用 第一种:免费的提供5人使用,存储的数据大小也是有限制的范围的 禅道下载 - 禅道项目管理软件 下滑页面就能…

大事件前端篇JavaScript导入导出

前置知识: 呃呃呃......有那么一点点??但不多。。。。不管,先学,不会的时候再去看响应的知识点吧。 补充一个模块化相关的知识点:JavaScript-导入导出 JS提供的导入导出机制,可以实现按需导…

尚品汇-创建ES索引库(二十七)

目录: (1)商品检索功能介绍 (2)根据业务搭建数据结构 (3)nested 介绍 (4)搭建service-list服务 (5)构建实体与es mapping建立映射关系 &…

前端常用的几个工具网站

觉得不错的前端工具类网站 1、Grid布局生成 https://cssgrid-generator.netlify.app 2、拟物按钮样式生成 https://neumorphism.io 3、玻璃形态效果 在线制作CSS玻璃形态 4、一些Button、checkBox、switch、card的css样式 零代码 - 精美CSS样式库 5、CSS阴影生成 在线创建…

python游戏开发之五子棋游戏制作

五子棋是一种源自中国的传统棋类游戏,起源可以追溯到古代。它是一种两人对弈的游戏,使用棋盘和棋子进行。棋盘通常是一个 1515 的网格,棋子分为黑白两色,双方轮流在棋盘上落子。游戏的目标是通过在棋盘上落子,使自己的…

ViT和SwinTransformer详解

ViT是Google brain发表于ICLR21上的工作,开创性将transformer用在vision领域,且图像识别性能超CNN,至今引用3.8w;原文:https://arxiv.org/pdf/2010.11929 SwinTransformer是微软亚洲研究院发表于ICCV21上,…

使用python CodeGeeX 辅助数据处理xml

1 背景:手头上有N 张算是开发完成的报表,但是由于每个报表是不同的人开发的,每个人不同的编码风格,准备看看报表是否都定义了Title,是否都定义了报表的描述,是否有不带where条件的前台查询,是否同一个参数定义一致.现在AI 代码助手功能据说很强大了,试试描述需求让机器来辅助编…

【中项】系统集成项目管理工程师-第10章 项目整合管理-10.3指导与管理项目工作

前言:系统集成项目管理工程师专业,现分享一些教材知识点。觉得文章还不错的喜欢点赞收藏的同时帮忙点点关注。 软考同样是国家人社部和工信部组织的国家级考试,全称为“全国计算机与软件专业技术资格(水平)考试”&…

常用在线 Webshell 查杀工具推荐

一、简介 这篇文章将介绍几款常用的在线 Webshell 查杀工具,包括长亭牧云、微步在线云沙箱、河马和VirusTotal。每个工具都有其独特的特点和优势,用于帮助用户有效检测和清除各类恶意 Webshell,保障网站和服务器的安全。文章将深入探讨它们的…

实现自定义QDateEdit可删除日期值

在Qt框架中,QDateEdit是一个用于编辑日期的控件,如果想要删除QDateEdit不是特别好做,如果直接获取QDateEdit中的QLineEdti并设置显示删除按钮(代码如下所示),删除按钮会一直显示,效果并不好&…

SIP 消息的路由和 7 个相关的 Header IMS-HSS 中的透明数据及非透明数据(VoNR、VoLTE均用)

目录 1. SIP 消息的路由和 7 个相关的 Header 1.1 SIP 消息路由相关的7个Header 1.2 理解 Record-Route 和 Route 1.3 Record-Route 和 Route 流程举例 1.4 SIP 请求消息的路由原则 1.5 SIP 请求消息路由举例 1.6 SIP 请求消息路由原则和流程举例 2. IMS-HSS 中的透明数…

【C++指南】命名空间

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《C指南》 期待您的关注 目录 一、命名空间的重要性 1. C语言中没有命名空间而存在的问题 2. C引入了命名空间解决的问题 3.…

【论文速读】《LLM4CP: Adapting Large Language Models for Channel Prediction》

论文地址: https://ieeexplore.ieee.org/document/10582829 前言:之前就想,大语言模型是否可以通过微调用于通信系统的无线空口应用,这篇文章给出了答案。通过讲信道状态信息进行嵌入和注意力操作,变成大语言模型可以…

Map和Set及哈希--的奥秘(详解)

目录: 一 搜索树: 二. 搜索相关概念 三.Map 的说明 四. Set 的说明 五.哈希表: 一 搜索树: 1.概念: 二叉搜索树又称二叉排序树,它或者是一棵空树,或者是具有以下性质的二叉树: (1). 若它的左子树不为空&a…

常见中间件漏洞复现之【Jboss】!

Jboss介绍 JBoss是⼀个基于J2EE的开发源代码的应⽤服务器。JBoss代码遵循LGPL许可,可以在任何商业应⽤中免费使⽤。JBoss是⼀个管理EJB的容器和服务器,⽀持EJB1.1、EJB 2.0和EJB3的规范。但JBoss核⼼服务不包括⽀持servlet/JSP的WEB容器,⼀般…

61 函数参数——可变长度参数

可变长度参数在定义函数时主要有两种形式:*parameter 和 **parameter,前者主要用来接收任意多个实参并将其放在一个元组中,后者接收类似于关键参数一样显示赋值形式的多个实参并将其放入字典中。 # 无论调用该函数时传递了多少实参&#xff…

鸿蒙Harmony开发:onFrame逐帧回调规范

通过返回应用onFrame逐帧回调的方式,让开发者在应用侧的每一帧都可以设置属性值,从而实现设置了该属性值对应组件的动画效果。 使用animator实现动画效果 使用如下步骤可以创建一个简单的animator,并且在每个帧回调中打印当前插值。 引入相…

萌新的Java入门日记18

一、mybatis范围筛选 1.第一种表示方法 <!--resultType 查出来的结果自贡每一行都要映射到该类型的对象--><select id"getStaff" resultType"com.easy.bean.Staff">select * from staff<!--根据参数不同组合出不同的SQL语句 动态SQL语句…