一本顶三本?入门LLM大模型必读《大模型应用开发极简入门》附PDF书籍

news2024/10/7 2:26:22

今天带来的是最近刚出版的新书: 《大模型应用开发极简入门:基于 GPT-4 和ChatGPT》

这本书是 O’Reilly 出版的,两位共同作者是来自 Worldline 公司的机器学习研究员 Olivier Caelen 和 数据工程师 Marie-Alice Blete。这两位作者一位侧重学术,一位侧重工程。在我看到本书之时,两位作者的背景信息,再加上 GPT-4 和 ChatGPT 这样的大模型前沿内容,就让我感觉非常值得一读。

朋友们如果有需要这本 《大模型应用开发极简入门 PDF》,扫码获取~

👉CSDN大礼包🎁:全网最全《大模型应用开发极简入门 PDF》免费分享(安全链接,放心点击)👈

非常感谢人民邮电出版社图灵编辑部引入这本书,也感谢译者何文斯的辛苦付出。你们的付出得以让国内千万开发者有与国际接轨的机会。

这本书的作者“投出了什么样的球” ?

前面也分析了,从书名《大模型应用开发极简入门》就知道,这本书是面向想要入门大模型应用开发的普通开发者

既然是极简入门,那么肯定不会涉及很多细节。那么怎么才能做到极简入门呢,如果一本书做到能系统性介绍清楚大模型应用开发的知识体系结构,就算是极简入门了。也就是说,有没有做到全面和系统,是对这本书的考察标准,而非细节

这本书作者没有写序,但是中译本有译者序。从译者序中我们可以得知,作者“抛出了以下两个球”:

  • GPT-4 和 ChatGPT 的基本工作原理和工作方式
  • 在 Python 程序中集成大模型开发智能应用的方法
    • 开发基于 GPT-API (3.5 和 4) 的初级应用程序
    • 进阶主题:提示工程、微调、插件和 LangChain

然后再看目录结构:

  • 第1章:初始 GPT-4 和 ChatGPT
  • 第2章:深入了解 GPT-4 和 ChatGPT 的 API
  • 第3章:使用 GPT 和 ChatGPT 构建应用程序
  • 第4章:GPT 和 ChatGPT 的高级技巧
  • 第5章:使用 LangChain 和 插件增强 LLM 应用

从这目录来看,本书的内容确实是想帮助我们读者“接到”那两个作者抛出的“球”。

所以,本文的主要目的就是帮助大家来审查,这本书的内容能不能有效地帮助读者“接到球”

核心知识一:GPT-4 和 ChatGPT 的基本工作原理和工作方式

接下来我们就梳理一下书中的知识体系结构。

第1章:初始 GPT-4 和 ChatGPT

开篇大模型概述中,作者首先帮助读者理清了一个问题:大语言模型在人工智能领域属于哪一个具体研究范畴

AI < 
    Machine Learning < 
       Deeping Learning ( artificial neural network)  < 
           NlP <Transformer > 
       >
    >
>

如果你进入一座大山,只有出发点,没有目的地,你是不是很迷茫 ?普通开发者初学大模型时也是同样困惑,面对人工智能很多术语,一时不知道学什么,从哪里入手。

现在,我们知道了 GPT 是基于特定神经网络架构 Transfomer 的用于自然语言处理的大模型。我们说的大语言模型,就是指这个。

确定了目标是 Transfomer 之后,又介绍了为什么是 Transfomer 。它的进化历程如下:

n-gram模型 -> 循环神经网络(rnn)-> 长短期记忆(LSTM)网络 -> Transfomer

从最初的 n-gram 模型,到 Transfomer 其实也发展了好几年,因为前面的模型有一些性能、容易忘记长上下文等诸如此类的问题,人们不断寻找解决方案才进化到 Transfomer 模型。直到 ChatGPT 的出现,才确定了现在 Transfomer 的主流地位,因为它确实出了成果。当然,Transfomer 还在进化中。

接下来,介绍了 Transfomer 的实现机制:注意力机制。Transformer 架构广泛使用了交叉注意力模块自注意力模块

这部分内容通过图文搭配方式,逻辑条理地介绍了 Transfomer 注意力机制的工作原理,以及 Transfomer 相比于其他架构的一些优势。这其中并没有涉及数学和机器学习、神经网络的细节。你可以把这些细节当作一种黑盒,从宏观层面和逻辑层面来建立 Transfomer 的工作模型。这对于入门上手去实现大模型应用足以。

接下来还介绍了 OpenAI 从 GPT-1 到 GPT-4 的演化过程。了解这个过程对于普通开发者的收获应该是,知道人工智能领域监督学习、数据集、非监督学习、监督微调、强化学习、对齐、多模态等名词术语背后的技术的作用是什么。并了解 GPT 中「温度(temperature)」参数的实际作用在哪里。以及, 了解 GPT-3.5 和 GPT-4 有什么区别。

最后通过介绍一些案例让你了解大模型在医疗辅助、金融服务、在线教育、语言学习、数据分析、视频广告和游戏等领域的应用。让你了解大模型的潜力。

本章最后又介绍了大模型目前的缺陷:幻觉。了解这个缺陷有助于开发者在不同领域的应用中选择如何利用 GPT :

  • 对于创意性的应用,可以多利用 GPT 的幻觉。幻觉会辅助和启示人类的创意。
  • 对于严谨的应用,比如医疗。则可以利用插件(比如,浏览器插件/知识库等) 或 微调 GPT (投喂更精确的数据再训练)来减少幻觉。

本文作为书评,就不透露内容细节,感兴趣的可以自行查看学习。

总的来说,这一章的内容足够全面和系统,从大模型发展历程、工作机制、应用开发类型、注意事项都介绍到了。

第2章:深入了解 GPT-4 和 ChatGPT 的 API

对大模型及大模型应用开发有基本认识以后,就开始介绍 GPT-4 的 API 了。其实这些 API 在 OpenAI 的官网都有。可能有的人会说,去看文档就行了。毕竟文档相对而言更加零散,不够系统,作为普通开发者,需要花时间自己去探索这些 API 文档,形成自己系统的理解。本章则为普通开发者节省了这个时间。

首先,介绍了如何使用 OpenAI Playground 进行测试 OpenAI 语言模型。然后介绍了如何安全管理 API Key 。

接下来通过使用 GPT-4ChatGPT 介绍了如何使用 OpenAI Python 库与 API 进行交互。重点介绍了 openai.ChatCompletion 端点及其 create 方法,以及一些重要的参数,比如 modelmessagesmax_tokens(可选参数)。并推荐使用 tiktoken 库来估算成本。

然后介绍了 GPT-3.5 turbo 模型的 openai.Completion 端点及其 create 方法,其参数相比 ChatCompletionCompletion有一个 prompt参数,用于提供提示词。

然后介绍了模型定价和 token 限制、安全隐私、词嵌入等。

OpenAI 的 API 不是固定不变的,反而会变好很快,所以,书里只是通过挑选几个重点模型来帮助你了解 API 。具体开发的时候,你去官网选择适合的模型就可以了。

变化的是模型和 API细节 ,但是不变的是 OpenAI API 使用的基本架构。看书需要学习的就是这个基本架构,不是 API 细节,API 细节你随时可以查。

朋友们如果有需要这本 《大模型应用开发极简入门 PDF》,扫码获取~

👉CSDN大礼包🎁:全网最全《大模型应用开发极简入门 PDF》免费分享(安全链接,放心点击)👈

总的来说,通过这一章,你就知道当你阅读官方文档时可以重点查阅以下几个部分:

  • 模型如何选择(功能、定价、token数限制)
  • 安全隐私
  • 功能
    • 基本功能(与大模型对话)
    • 词嵌入(基于向量检索)
    • 内容审核(需要对齐 OpenAI 规则)

本章内容还行,对于新手了解 OpenAI API 有一定帮助,但遗憾的是没有介绍新的 Assistants API

核心知识二:在 Python 程序中集成大模型开发智能应用的方法

第3章:使用 GPT 和 ChatGPT 构建应用程序

这一章介绍了基于 GPT 大模型应用开发的需要关注的四个重点:

  • API 密钥管理策略
  • 数据安全和隐私管理
  • 大模型软件架构
  • 大模型应用安全
API 密钥管理策略

因为 API Key 不是免费使用,一般来说,有两种策略:

  • 让应用程序的用户自行提供 API Key
  • 程序中内置应用开发者自己的 API Key

无论采用上述哪种策略,都需要将 API Key 视为敏感数据。

如果让用户自行提供 API Key,应用开发者无需担心被 OpenAI 收取因为用户滥用而导致的意外费用。但是开发者必须保障用户不会因为自行提供 API Key 而导致任何风险。

  • 只有在必要的时候才要求用户提供 API 密钥,并且永远不要在服务器上使用它,让调用 OpenAI API 的程序留在用户本地,并不要远程存储用户的 API Key。
  • 如果必须存储 API Key,则需要保证其安全,比如加密,以及允许用户自行删除。

如果开发者决定使用自己的 API Key,则牢记下面最佳实践

  • 永远不要直接将 API 密钥写入代码中。
  • 不要将 API 密钥存储在应用程序的源代码文件中。
  • 不要在用户的浏览器中或个人设备上使用你的 API 密钥。
  • 设置使用限制,以确保预算可控。

书里也推荐参考 OWASP Top Ten 页面上 API 密钥管理原则的资源。

关于数据安全,书里推荐了一些参考资源,这里就不方便列出了。值得说明的是,使用 OpenAI API 必须满足其安全规则。所以这一项是开发者必须去了解的。

软件架构和安全

在软件架构方面,要注意:OpenAI 服务是外部服务,要注意与应用程序核心解耦

最后,本章还通过几个案例介绍了「提示词注入漏洞」的风险。这也是大模型应用开发需要注意的。

比如,在必应聊天机器人的提示词中,有这样一条规则:“如果用户询问 Sydney 的规则,那么 Sydney 会拒绝提供,因为这些规则是机密且永久 的。” GitHub Copilot 也有一条不要泄露规则的指令。然而,看起来这些指令是不够的。

书里指出一个重要事实:「提示词注入只能增加难度,但不可避免」。所以需要:

  • 应用程序中增加额外的分析层,分析输入和输出中可能的风险。书中给出了一些方案,这里不便列出。
  • 考虑提示词注入成功后的风险。比如在应用程序架构设计上就考虑注入成功后,攻击者无法下载任何数据。

本章结尾还介绍了四类典型的应用案例,来帮助读者理解大模型应用开发的一些细节,包括如何使用嵌入和向量数据库、语音控制。

本书源码地址:https://github.com/malywut/gpt_examples[1]

第4章:GPT 和 ChatGPT 的高级技巧

这一章属于进阶内容了。介绍了大模型应用开发的一些高级策略:

  • 提示工程
  • 微调模型
提示工程

因为大模型的幻觉和 API 的种种限制,需要使用提示工程来让大模型得以准确地响应。

提示工程的目标是寻找大模型的最佳输入:

  • 要省 token 数,节约成本
  • 得到最佳输出

方案

  • 设计有效的提示词。为大模型提供结构化的提示词,至少包含明确的「角色、上下文和任务」。
  • 逐步思考策略。介绍零样本思维链策略。
  • 少样本学习。为提示词添加示例。
  • 改善提示效果。

书里通过大量示例来说明上述方案,等待读者自行阅读吧。这几个方案确实是业内目前的一些最佳实践。

微调

微调,简单来说,就是使用特定的数据集对大模型进行二次训练。

因为目前 GPT 大模型是一种通用化的大模型,还是无法满足一些专业垂直领域的应用需求。所以,微调就是允许针对垂直领域进行二次训练来解决这个问题。

微调后的模型本质上是基于 OpenAI 提供的原始模型构建的新模型,其中模型的内部权重被调整,以适应特定问题,从而能够在相关任务上提高准确性

截至 2023 年 12 月 2 日,OpenAI 支持微调的模型包括 gpt-3.5-turbo-1106(推荐)、gpt-3.5-turbo-0613、babbage-002、davinci-002、gpt-4-0613(实验性,符合条件的用户可以申请访问)。微调同样适合开源大模型。

这一章介绍了如何使用 OpenAI API 进行大模型微调,这里就不方便列出其细节。请读者自行查阅。

微调步骤

  • 准备数据。是一个 JSONL 文件,对此,OpenAI 提供了相应的工具。数据质量必须要高,要经过专家的审核。
  • 上传数据。OpenAI API 有相关接口。值得注意的是,OpenAI 会保存你的数据至少一个月,但不会长期留存。
  • 通过 OpenAI Finetune 接口创建微调作业,会被加到 OpenAI 的队列中。
  • 微调结束。

本章最后也介绍了一些微调应用案例。

值得注意的是微调的成本:微调训练费用 + 微调模型每次调用的费用(略高于 OpenAI 原始模型的费用)。

第5章:使用 LangChain 和 插件增强 LLM 应用

LangChain 是专用于开发 LLM 驱动型应用程序的业内知名框架。使用这个框架开发大模型应用比你自己纯手工古法打磨效率更高。

这一章的内容我就不剧透了,感兴趣的读者可以自行查阅。总的来说,这一章对你了解如何使用 LangChain 开发一个大模型应用很有帮助。

后记

对于想要入门大模型应用开发的普通开发者来说,《大模型应用开发极简入门》是一本不可多得的好书。非常值得入手

朋友们如果有需要这本 《大模型应用开发极简入门 PDF》,扫码获取~

👉CSDN大礼包🎁:全网最全《大模型应用开发极简入门 PDF》免费分享(安全链接,放心点击)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1868393.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Kafka入门到精通(二)-安装Zookeeper

前言&#xff1a;因为我们要学习kafka&#xff0c;那么我们必须先安装了解下Zookeeper&#xff1b; Zookeeper简介 Zookeeper是一个开源的分布式协调服务&#xff0c;由Apache维护&#xff0c;旨在为分布式系统提供一致性、可靠性和高效的数据管理。 它通过提供一系列简单…

【Java Web】MVC架构模式

目录 一、MVC是什么? 二、MVC组成结构 三、MVC模式下项目常见包 一、MVC是什么? MVC&#xff08;ModelViewController&#xff09;是软件工程中的一种软件架构模式&#xff0c;它把软件系统分为模型、视图和控制器三个基本部分。用一种业务逻辑、数据、界面显示分离的方法组织…

Django项目部署:uwsgi+daphne+nginx+vue部署

一、项目情况 项目根目录&#xff1a;/mnt/www/alert 虚拟环境目录&#xff1a;/mnt/www/venv/alert 激活虚拟环境&#xff1a;source /mnt/www/venv/alert/bin/activate 二、具体配置 1、uwsgi启动配置 根目录下&#xff1a;新增 uwsgi.ini 注意&#xff1a;使用9801端…

LSTM理解

目录 一、LSTM的本质 二、LSTM的原理 三、LSTM的应用 本文将从LSTM的本质、LSTM的原理、LSTM的应用三个方面&#xff0c;带您一文搞懂长短期记忆网络Long Short Term Memory | LSTM。 一、LSTM的本质 RNN 面临问题&#xff1a;RNN&#xff08;递归神经网络&#xff09;在处理…

劳易测应用案例:橡胶密炼生产线安全改造项目(下)

橡胶密炼是汽车轮胎制造流程中的核心环节&#xff0c;主要负责将橡胶与多种添加剂混合&#xff0c;确保均匀分散&#xff0c;以制备合格的橡胶材料。橡胶密炼生产线由多个关键设备组成&#xff0c;包括切胶机、导切机、称重和输送系统、密炼机、开炼机以及胶片冷却机等&#xf…

《分析模式》漫谈07-怎样把一张图从不严谨改到严谨

DDD领域驱动设计批评文集 做强化自测题获得“软件方法建模师”称号 《软件方法》各章合集 下图是《分析模式》原书第2章的图2.10&#xff0c;里面有一些错误和考虑不周的地方&#xff1a; 2004中译本和2020中译本的翻译如下&#xff1a; 基本上都是照搬&#xff0c;没有改过…

Flutter第十五弹 Flutter插件

目标&#xff1a; 1.Flutter插件是什么&#xff1f;有什么作用&#xff1f; 2.怎么创建Flutter插件&#xff1f; 一、什么是插件 在flutter中&#xff0c;一个插件叫做一个package&#xff0c;使用packages的目的就是为了达到模块化&#xff0c;可以创建出可被复用和共享的代…

数据库逻辑结构设计-实体和实体间联系的转换、关系模式的优化

一、引言 如何将数据库概念结构设计的结果&#xff0c;即用E-R模型表示的概念模型转化为关系数据库模式。 E-R模型由实体、属性以及实体间的联系三个要素组成 将E-R模型转换为关系数据库模式&#xff0c;实际上就是要将实体及实体联系转换为相应的关系模式&#xff0c;转换…

iOS包ShaderVariantCollection预热慢问题

1&#xff09;iOS包ShaderVariantCollection预热慢问题 2&#xff09;使用SBP打Bundle如何读取AssetBundleManifest 3&#xff09;如何将一张贴图经过Shader处理后的结果输出给另外一个Shader使用 4&#xff09;为什么我的水这么干净&#xff0c;和UE教程里的有差别 这是第392篇…

位运算算法系列|概念讲解|例题讲解

大家好,我是LvZi,今天带来位运算算法系列|概念讲解|例题讲解 一,位运算基本概念 1.基础位运算 <<:左移操作,相当于 *2>>:右移操作,相当于 /2~:按位取反&:按位与操作,有0则0|:按位或操作,有1则1^:按位异或操作,相同为0,相异为1/无进位相加 注:对于^操作,无进…

昇思25天学习打卡营第4天|linchenfengxue

需求&#xff1a;建立一个图像分类模型&#xff0c;提供自动识别有(猫、狗、飞机、汽车等等) 图片的功能 ResNet50图像分类 图像分类是最基础的计算机视觉应用&#xff0c;属于有监督学习类别&#xff0c;如给定一张图像(猫、狗、飞机、汽车等等)&#xff0c;判断图像所属的类…

【直播倒计时】面向AI领域的开发工程师:TinyML在国产FPGA的边缘AI加速应用

TinyML是机器学习中的一个新兴领域&#xff0c;专注于开发可在低功耗、内存受限的设备上运行的算法和模型。其核心目标是将先进的机器学习算法和模型移植到体积小巧、能耗极低的嵌入式设备中&#xff0c;使这些设备具备边缘智能&#xff0c;能够在没有外部服务器支持的情况下进…

05 threeJs基础---阵列立方体和相机适配体验立方体

1.增加相机视角fov 注&#xff1a; 范围更大&#xff0c;意味着可以看到渲染范围更大&#xff0c;远小近大的视觉效果更明显 fov:眼球张开的角度&#xff0c;0时相当于闭眼。aspect:可视区域横纵比。near:眼睛能看到的最近垂直距离。far&#xff1a;眼睛能看到的最远垂直距离。…

Python类的定义和管理库之attrs使用详解

概要 在 Python 编程中,定义类和数据结构是常见的任务。然而,手动编写类的初始化方法、属性验证和比较方法可能会非常繁琐和容易出错。attrs 库是一个功能强大且灵活的工具,旨在简化类的定义和管理。通过使用 attrs,开发者可以轻松定义不可变对象、进行属性验证和类型检查…

2024长三角快递物流展即将开幕点击收藏逛展不迷路~

2024长三角快递物流展是亚洲范围内超大规模的快递物流业展示平台&#xff0c;由于展会的需求及扩大市场的影响力&#xff0c;ESYE2004转战杭州&#xff0c;凭借着先进的经济发展水平、优越的地理位置、成熟的产业环境以及巨大的电商、微商、零售业、消费的市场空间&#xff0c;…

SAP标准报表 S_ALR_8701XXXX是没有export to excel的 或者禁用 %PC也禁用了,如何开回来

以 s_alr_87012172为例子 系统-状态 进入程序 搜索 XXL 做下替换

大型企业组网如何规划网络

大型企业组网是一个复杂的过程&#xff0c;它需要细致的规划和设计&#xff0c;以确保网络能够满足企业的业务需求&#xff0c;同时保证性能、安全性和可扩展性。以下是规划大型企业网络的一些关键步骤和考虑因素&#xff1a; 1. 需求分析 业务需求&#xff1a;与各个业务部门…

如何使用WordPress进行外贸建站?

使用 进行外贸建站既简单又高效&#xff0c;搭建一个外贸网站是一个绝佳的方式来展示你的产品和服务&#xff0c;吸引全球客户&#xff0c;wordpress本身是一个高度可定制化的建站程序&#xff0c;只要你想&#xff0c;他能变成购物网站&#xff0c;宣传网站&#xff0c;所以第…

Centos安装Snaped

本人操作系统为Centos 7 1. 安装epel 和 copr yum #第一步安装epel sudo yum install epel-release #第二步安装copr sudo yum install yum-plugin-copr 2. 添加存储库 sudo yum copr enable ngompa/snapcore-el7 3. 安装snapd软件包 sudo yum -y install snapd 等待安装完…

window10/11如何下载安装JDK(jdk) 超详细图文教程

1、下载jdk 下载安装jdk17&#xff0c;网盘点此下载&#xff1a;https://pan.quark.cn/s/1fb394c360f0 也可以去官网下载&#xff0c;选择如图所示的版本&#xff0c;点击下载。 2、开始安装 双击下载好的exe进行安装 全程点击下一步即可&#xff0c;只有安装路径需要修改以…