【大模型应用极简开发入门(1)】LLM概述:LLM在AI中所处位置、NLP技术的演变、Transformer与GPT、以及GPT模型文本生成逻辑

news2024/10/6 22:20:01

文章目录

  • 一. AI中大语言模型的位置与技术发展
    • 1. 从AI到Transformer
    • 2. NLP:自然语言处理
    • 3. LLM大型语言模型:NLP的一种特定技术
      • 3.1. LLM定义
      • 3.2. LLM的技术发展
        • 3.2.1. n-gram模型
        • 3.2.2. RNN与LSTM
  • 二. Transformer在LLM中脱颖而出
    • 1. Transformer架构能力
    • 2. 注意力机制
      • 2.1. 交叉注意力
      • 2.2. 自注意力机制
    • 3. Transformer的并行化
    • 4. Transformer架构与GPT模型
  • 三、GPT模型文本生成逻辑:标记化和预测
    • 1. 文本分词器:文字标记与关系梳理
    • 2. 预测标记生成完整句子

本文关键词:

  • Transformer:GPT-4和ChatGPT发展历程的基础模块。
  • NLP技术的演变
  • Transformer架构描述
  • GPT回答原理概述:GPT模型中的标记化和预测过程。

 

一. AI中大语言模型的位置与技术发展

1. 从AI到Transformer

机器学习与深度学习

机器学习(machine learning,ML)是AI的一个子集。ML通过开发算法,使系统能够通过示例自己学习。
深度学习(deep learning,DL)算法是ML的一个分支,主要开发受大脑结构启发的算法。这些算法被称为人工神经网络(artificial neural network)。它们可以处理大量的数据,并且在图像识别、语音识别及NLP等任务上表现出色。

 

Transformer理解文本并回答文本

Transformer是一种特定的神经网络架构,能够理解文本,并产生回答。
 
GPT-4和ChatGPT基于一种特定的神经网络架构,即Transformer。Transformer就像阅读机一样,它关注句子或段落的不同部分,以理解其上下文并产生连贯的回答。此外,它还可以理解句子中的单词顺序和上下文意思。这使Transformer在语言翻译、问题回答和文本生成等任务中非常有效。

如下图:从AI到Transformer的嵌套技术集合
在这里插入图片描述

 

2. NLP:自然语言处理

NLP自然语言处理(Natural Language Processing是AI的一个子领域,专注于使计算机能够处理、解释和生成人类语言。

现代NLP解决方案基于ML算法。NLP的目标是让计算机能够处理自然语言文本。它关注的是使计算机能够理解和处理人类语言的能力,包括语言的语法、语义、语用等方面。NLP应用广泛,涉及文本处理、语音识别、机器翻译、对话系统等各种任务。

NLP的能力如下:

  1. 文本分类:将输入文本归为预定义的类别。
    这类任务包括情感分析和主题分类。比如,某公司使用情感分析来了解客户对其服务的意见。
  2. 自动翻译:将文本从一种语言自动翻译成另一种语言
    请注意,这类任务可以包括将代码从一种程序设计语言翻译成另一种程序设计语言,比如从Python翻译成C++。
  3. 问题回答:根据给定的文本回答问题。
    比如,在线客服门户网站可以使用NLP模型回答关于产品的常见问题;教学软件可以使用NLP模型回答学生关于所学主题的问题。
  4. 文本生成:
    根据给定的输入文本(称为提示词)生成连贯且相关的输出文本。

 

3. LLM大型语言模型:NLP的一种特定技术

3.1. LLM定义

LLM是试图完成文本生成任务的一类ML模型。LLM使计算机能够处理、解释和生成人类语言,从而提高人机交互效率。

 

LLM的学习过程

为了做到这一点,LLM会分析大量文本数据或基于这些数据进行训练(怎么训练),从而学习句子中各词之间的模式和关系。这个学习过程可以使用各种数据源,包括维基百科、Reddit、成千上万本书,甚至互联网本身。在给定输入文本的情况下,这个学习过程使得LLM能够预测最有可能出现的后续单词,从而生成对输入文本有意义的回应。

2023年发布的一些现代语言模型非常庞大,并且已经在大量文本上进行了训练,因此它们可以直接执行大多数NLP任务,如文本分类、自动翻译、问题回答等。GPT-4和ChatGPT是在文本生成任务上表现出色的LLM。

 

3.2. LLM的技术发展

LLM的发展可以追溯到几年前。它始于简单的语言模型,如n-gram模型

3.2.1. n-gram模型

n-gram模型能够通过使用词频根据前面的词预测句子中下一个词,但在理解上下文和语法不够优秀,会生成不连贯的文本。

n-gram模型通过使用词频来根据前面的词预测句子中的下一个词,其预测结果是在训练文本中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点,但是n-gram模型在理解上下文和语法方面仍需改进,因为它有时会生成不连贯的文本。

 

3.2.2. RNN与LSTM

循环神经网络和长短期记忆网络,是比n-gram更先进的学习算法,能够学习更长的序列,能够更好的分析上下文,但处理数据时效率不佳,具体描述如下:

为了提高n-gram模型的性能,人们引入了更先进的学习算法,包括循环神经网络(recurrent neural network,RNN)和长短期记忆(long short-term memory,LSTM)网络。与n-gram模型相比,这些模型能够学习更长的序列,并且能够更好地分析上下文,但它们在处理大量数据时的效率仍然欠佳。尽管如此,在很长的一段时间里,这些模型算是最高效的,因此在自动翻译等任务中被广泛使用。

 

二. Transformer在LLM中脱颖而出

1. Transformer架构能力

Transformer架构能够处理长文本并记住上下文,且具备高效处理和编码上下文能力。

Transformer架构彻底改变了NLP领域,这主要是因为它能够有效地解决之前的NLP模型(如RNN)存在的一个关键问题:很难处理长文本序列并记住其上下文。换句话说,RNN在处理长文本序列时容易忘记上下文(也就是臭名昭著的“灾难性遗忘问题”),Transformer则具备高效处理和编码上下文的能力。

 

2. 注意力机制

注意力机制:在任务的每个步骤中关注最相关的词

这场革命的核心支柱是注意力机制,这是一个简单而又强大的机制。
 
模型不再将文本序列中的所有词视为同等重要,而是在任务的每个步骤中关注最相关的词。交叉注意力和自注意力是基于注意力机制的两个架构模块,它们经常出现在LLM中。Transformer架构广泛使用了交叉注意力模块和自注意力模块

 

2.1. 交叉注意力

交叉注意力有助于模型确定输入文本的不同部分与输出文本中下一个词的相关性。它就像一盏聚光灯,照亮输入文本中的词或短语,并突出显示预测下一个词所需的相关信息,同时忽略不重要的细节。

为了说明这一点,让我们以一个简单的句子翻译任务为例。

假设输入文本是这样一个英语句子:
Alice enjoyed the sunny weather in Brussels(Alice很享受布鲁塞尔阳光明媚的天气)。
如果目标语言是法语,那么输出文本应该是:Alice a profitédu temps ensoleillé à Bruxelles。

在这个例子中,让我们专注于生成法语单词ensoleillé,它对应原句中的sunny。对于这个预测任务,交叉注意力模块会更关注英语单词sunny和weather,因为它们都与ensoleillé 相关。

(为什么要专注于这两个词?因为两个相关的词?)

通过关注这两个单词,交叉注意力模块有助于模型为句子的这一部分生成准确的翻译结果,如图所示。

在这里插入图片描述

 

2.2. 自注意力机制

自注意力机制:评估(how ing)句子中更重要的词,并构建出新概念,实现对句子的理解。

具体到NLP领域,自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系,并根据输入文本中的多个词构建新概念

来看一个更具体的例子。

考虑以下句子:Alice received praise from her colleagues(Alice受到同事的赞扬)。假设模型试图理解her这个单词的意思。
 
自注意力机制给句子中的每个单词分配不同的权重,突出在这个上下文中与her相关的单词。在本例中,自注意力机制会更关注Alice和colleagues这两个单词。如前所述,自注意力机制帮助模型根据这些单词构建新概念。在本例中,可能出现的一个新概念是Alice’s colleagues,如图。
 
在这里插入图片描述

 

3. Transformer的并行化

Transformer的并行化可以同时处理输入文本的多个部分,从而提高计算速度和训练速度。所以并行处理能力与GPU完美结合。具体描述如下:

  • 与RNN不同,Transformer架构具有易于并行化的优势。这意味着Transformer架构可以同时处理输入文本的多个部分,而无须顺序处理。这样做可以提高计算速度和训练速度,因为模型的不同部分可以并行工作,而无须等待前一步骤完成。
     
  • 基于Transformer架构的模型所具备的并行处理能力与图形处理单元(graphics processing unit,GPU)的架构完美契合,后者专用于同时处理多个计算任务。由于高度的并行性和强大的计算能力,GPU非常适合用于训练和运行基于Transformer架构的模型。硬件上的这一进展使数据科学家能够在大型数据集上训练模型,从而为开发LLM铺平了道路。

 

4. Transformer架构与GPT模型

Transformer架构设计来源《Attention Is All You Need》,标准架构有:编码器(处理输入文本,设别有价值的特征,生成有意义的文本表示)和 解码器(输出)。

  • Transformer架构由来自谷歌公司的Ashish Vaswani等人在2017年的论文“Attention Is All You Need”中提出,最初用于序列到序列的任务,如机器翻译任务。
  • 标准的Transformer架构有两个主要组件:编码器和解码器,两者都十分依赖注意力机制。编码器的任务是处理输入文本,识别有价值的特征,并生成有意义的文本表示,称为嵌入(embedding)。解码器使用这个嵌入来生成一个输出,比如翻译结果或摘要文本。这个输出有效地解释了编码信息。

 

GPT模型:仅仅依靠解码器内部的自注意力机制来生成上下文感知的表示和预测结果。

生成式预训练Transformer(Generative Pre-trained Transformer,GPT)是一类基于Transformer架构的模型,专门利用原始架构中的解码器部分。在GPT中,不存在编码器,因此无须通过交叉注意力机制来整合编码器产生的嵌入。

也就是说,GPT仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果

请注意,BERT等其他一些众所周知的模型基于编码器部分,但本书不涉及这类模型。

 

如下图展示了NLP技术的演变历程。

在这里插入图片描述

 

三、GPT模型文本生成逻辑:标记化和预测

GPT模型接收一段提示词作为输入,然后生成一段文本作为输出。这个过程被称为文本补全

举例来说,提示词可以是The weather is nice today, so I decided to(今天天气很好,所以我决定),模型的输出则可能是go for a walk(去散步)。

GPT模型是如何根据输入的提示词构建输出文本的 ? 这主要是一个概率问题。

 
具体生成步骤如下

1. 文本分词器:文字标记与关系梳理

a. 输入拆分成标记

当GPT模型收到一段提示词之后,它首先将输入拆分成标记(token)。这些标记代表单词、单词的一部分、空格或标点符号。比如,在前面的例子中,提示词可以被拆分成[The, wea, ther, is, nice, today, so, I, de, ci, ded, to]。

理解标记与词长的一条经验法则是,对于英语文本,100个标记大约等于75个单词(ing)。几乎每个语言模型都配有自己的分词器。

 

b. 解析标记关系(how ing)

因为有了注意力机制和Transformer架构,LLM能够轻松处理标记并解释它们之间的关系及提示词的整体含义。Transformer架构使模型能够高效地识别文本中的关键信息和上下文。

 

2. 预测标记生成完整句子

通过提示词的上下文作为整体得出后续概率最高的标记,然后重复得出后续最高概率标记模,最终生成完整的句子。
 

标记预测基本逻辑

为了生成新的句子,LLM根据提示词的上下文预测最有可能出现的下一个标记

OpenAI开发了两个版本的GPT-4,上下文窗口大小分别为8192个标记和32768个标记。与之前的循环模型不同,带有注意力机制的Transformer架构使得LLM能够将上下文作为一个整体来考虑。基于这个上下文,模型为每个潜在的后续标记分配一个概率分数,然后选择概率最高的标记作为序列中的下一个标记。

 

具体过程描述

  • 在前面的例子中,“今天天气很好,所以我决定”之后,下一个最佳标记可能是“去”。
  • 接下来重复此过程,但现在上下文变为“今天天气很好,所以我决定去”,之前预测的标记“去”被添加到原始提示词中。
  • 这个过程会一直重复,直到形成一个完整的句子:“今天天气很好,所以我决定去散步。”这个过程依赖于LLM学习从大量文本数据中预测下一个最有可能出现的单词的能力。

如图:GPT逐个标记地补全文本,整个过程是迭代式的。
在这里插入图片描述

 
参考:《大模型应用极简开发入门》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1611131.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

不敢说懂你 - Glide硬核源码剖析

问题 Glide加载流程? Glide整体架构? Glide数据加载的来源? Glide缓存加载的流程? Glide线程切换原理? Glide如何感知Activity? Glide哪种情况会返回应用级的RequestManager? … 带着一些问题去阅读… 使用示例 本篇主要基于glide:4.12.0进行分析。下面是Gli…

[论文阅读链接]

CVPR2023:Learning Human-to-Robot Handovers from Point Clouds http://t.csdnimg.cn/OfSnShttp://t.csdnimg.cn/OfSnS仿真工具:dm_control: Software and Tasks for Continuous Control dm_control 翻译: Software and Tasks for Continuous Control…

python免费调用阿里云通义千问(q-wen-max)大模型API

文章目录 通义千问开通免费API Keypython调用阿里云通义千问API 通义千问 通义千问,是基于阿里巴巴达摩院在自然语言处理领域的研究和积累。采用更先进的算法和更优化的模型结构,能够更准确地理解和生成自然语言、代码、表格等文本。 支持更多定制化需…

js 特定索引下拆分字符串并组建成新的字符串数据

要在特定索引处拆分字符串,请使用 slice 方法获取字符串的两个部分,例如 str.slice(0, index) 返回字符串的一部分,但不包括提供的索引,而 str.slice(index) 返回字符串的其余部分。 过程:我们创建一个可重用的变量&a…

Linux-用户管理类命令实训

查看根目录下有哪些内容 进入/tmp目录,以自己的学号建一个目录,并进入该目录 像是目前所在的目录 在当前目录下,建立权限为741的目录test1 在目录test1下建立目录test2/test3/test4 进入test2,删除目录test3/test4 (7&…

paddle.net怎么付款?paddle.net怎么订阅?

有需要的小伙伴可以使用Fomepay的卡进行订阅支付,我这里使用的是491090卡段,开卡步骤很简单,点击获取卡片 1、注册 2、填写姓名使用拼音或者英文名都可以 3、支付宝或者微信支付

JavaWeb-登录校验

会话技术 浏览器使用的是http协议,多次请求间数据是不能共享的,例如我们要去访问用户数据的接口,但这时候用户是否已经登入了呢?是不知道的,为了解决这个问题,于是引入了会话跟踪技术。 会话:…

一次Ambari安装记录

引言 Ambari是一个开源的Apache项目,它提供了一个直观易用的Web界面,用于管理、监控和配置Apache Hadoop集群。它是一个集群管理工具,可以帮助管理员轻松地部署、管理和监控Hadoop集群的各种组件,如HDFS、YARN、MapReduce、Hive、HBase等。通过Ambari,用户可以在集群中添…

【GPTs分享】GPTs分享之Image Recreate | img2img​

简介 该GPT是一个专门用于图像编辑、重建和合并的工具。它通过详细的自动图像描述和生成,帮助用户从源图像中重现或修改图像。此工具设计用于为视障用户提供图像内容的详细描述,并生成全新的图像,以满足特定的视觉需求。 主要功能 \1. 图像…

存储人视角:人工智能AI + 大模型

原文来自于知乎存储专栏: 存储人视角:人工智能AI 大模型 前沿 我的角色 背景 AI 出场 效果 一个宠娃狂魔 娃喜爱并有奥特曼玩具 她的奥特曼玩具会跳舞了 娃对我的崇拜和爱又多了一分......amazing 杭州网商路艾弗森 球队需要制作LOGO 形象生动…

【学习】对于加密接口、签名接口如何进行性能测试

随着科技的飞速发展,加密接口和签名接口在我们的日常生活中扮演着越来越重要的角色。从在线支付到信息安全,它们始终默默地守护着我们的数字世界。然而,随着应用场景的不断扩展,性能测试变得尤为重要。今天,让我们一起…

【6】mysql查询性能优化-关联子查询

【README】 0. 先说结论:一般用inner join来改写in和exist,用left join来改写not in,not exist;(本文会比较内连接,包含in子句的子查询,exist的性能 ) 1. 本文总结自高性能mysql 6…

PLC中连接外部现场设备和CPU的桥梁——输入/输出(I/O)模块

输入(Input)模块和输出(Output)模块简称为I/O模块,数字量(Digital,又称为开关量)输入模块和数字量输出模块简称为DI模块和DQ模块,模拟量(Analog)输…

求a+aa+aaa+……(C语言)

一、题目&#xff1b; 二、N-S流程图&#xff1b; 三、运行结果&#xff1b; 四、源代码&#xff1b; # define _CRT_SECURE_NO_WARNINGS # include <stdio.h>int main() {//初始化变量值&#xff1b;int a 0;int n 0;int i 0;int result 0;int tn 0;//提示用户&am…

Linux学习第52天:Linux网络驱动实验(二):一往(网)情深

Linux版本号4.1.15 芯片I.MX6ULL 大叔学Linux 品人间百味 思文短情长 本节笔记的目录如下&#xff1a; 四、I.MX6ULL网络驱动简介 1.I.MX6ULL网络外设设备树 2.I.MX6ULL网络驱动源码简析 3.fec_netdev_ops操作集 4.Linux内核PHY子…

删除word中下划线的内容

当试卷的题目直接含答案&#xff0c;不利用我们刷题。这时如果能够把下划线的内容删掉&#xff0c;那么将有利于我们复习。 删除下划线内容的具体做法&#xff1a; ①按ctrl H ②点格式下面的字体 ③选择下划线线型中的_____ ④勾选使用通配符并在查找内容中输入"?&qu…

OSI网络七层协议 ——(随手笔记)

1.OSI OSI&#xff08;Open System Interconnect&#xff09;&#xff0c;即开放式系统互连。 一般都叫OSI参考模型&#xff0c;是ISO组织在1985年研究的网络互连模型。该体系结构标准定义了网络互连的七层框架&#xff08;物理层、数据链路层、网络层、传输层、会话层、表示层…

【论文阅读】Attention is all you need

摘要 主要的序列转换模型是基于复杂的循环或卷积神经网络&#xff0c;其中包括一个编码器和一个解码器。性能最好的模型还通过一种注意力机制将编码器和解码器连接起来。我们提出了一种新的简单的网络架构&#xff0c;Transformer&#xff0c;完全基于注意机制&#xff0c;完全…

数据结构-基于ArrayList的源码模拟

文章目录 继承关系 :1. 构造方法的模拟2. 扩容机制的分析3. 查找方法的模拟4. 获取,修改元素的方法模拟5. 添加元素的模拟6. 删除元素的模拟7. removeAll与retainAll的模拟总结: 边缘方法以及总代码 继承关系 : 1. 构造方法的模拟 源码中我们的ArrayList的构造方法给出了三种实…

【Java基础】19.继承(面向对象的三大特征:封装、继承、多态)

文章目录 前言一、继承的概念二、继承的步骤1.类的继承格式2.继承的实例3.继承类型 三、继承的特性四、继承的关键字1.extends关键字2.implements关键字3.super 与 this 关键字4.final 关键字 五、构造器 前言 一、继承的概念 继承是java面向对象编程技术的一块基石&#xff…