大模型第一讲笔记

news2025/1/12 6:14:19

目录

1、人工智能基础概念全景介绍... 2

1.1 人工智能全景图... 2

1.2 人工智能历史... 2

1.3 人工智能——机器学习... 3

监督学习、非监督学习、强化学习、机器学习之间的关系... 3

监督学习... 4

无监督学习... 5

强化学习... 5

深度学习... 6

2、语言模型的发展及核心算法... 8

2.1 大模型发展格局、大模型直观功能展示... 8

2.2 大模型之“大”——数据量大... 9

2.3 大模型之“通用” 10

2.4 大模型之“最大功臣”:Transformer 10

3、Transformer内部发生着什么... 13

3.1 Transformer第一步:数据预处理... 13

3.2 Transformer第二步:编码器... 13

3.3 Transformer第三步:解码器... 14

3.4 Transformer第四步: Linear层和Softmax层... 15

4、类Chatgpt产品的诞生之路... 16

4.1 大语言模型诞生的全过程... 16

4.2 无监督学习—>基座大模型... 17

4.3 有监督学习—>可对话... 17

4.4 有监督学习—>奖励模型... 18

4.5 强化学习—>提升模型回复质量... 18

1.人工智能基础概念全景介绍

1.1 人工智能全景图

 

1.2 人工智能历史

人工智能的提出——达特茅斯会议

1956年的达特茅斯会议正式确立了“人工智能”这一-领域。1956年夏,麦卡锡说服克劳德:香农(信息论的发明者)、内森尼尔罗切斯特(电气工程先驱)和马文明斯基参与他提出的一个人工智能研究项目,这个项目为期2个月。项目在达特茅斯组织了研讨会,约翰 麦卡锡(John Mc-Carthy)在组织会议的过程中,提出"人工智能"一-词,推动了人工智能作为一个独立学科的形成。

1.3 人工智能——机器学习

概念:让计算机通过大量数据,自行识别模型总结规律

监督学习、非监督学习、强化学习、机器学习之间的关系

监督学习、非监督学习、强化学习和机器学习是机器学习领域的几个重要概念,它们之间的关系密切而复杂。

首先,机器学习是一个更为广泛的概念,它涵盖了所有使用算法和统计模型来让计算机系统从数据中“学习”并改进其性能的技术。机器学习算法可以自动地从数据中提取特征和模式,并基于这些特征和模式进行预测或决策。

监督学习是机器学习的一种形式,它使用带有标签的数据集进行训练。在监督学习中,模型通过学习输入特征和对应标签之间的关系,从而能够预测新数据的标签。监督学习广泛应用于分类、回归等任务,如图像识别、语音识别等。

非监督学习是另一种机器学习形式,与监督学习不同,非监督学习的数据集没有标签。非监督学习算法通过对数据进行聚类、降维等操作,发现数据中的内在结构和模式。这种方法常用于数据探索、异常检测等任务。

强化学习是机器学习的另一种形式,它关注于智能体如何在与环境的交互中学习最佳行为策略。在强化学习中,智能体通过尝试不同的行动并观察结果(奖励或惩罚)来学习,目标是最大化累积奖励。强化学习在游戏AI、机器人控制等领域有广泛应用。

监督学习

监督学习是机器学习中的一种重要方法,其利用一组已知类别的样本来调整算法的参数,以达到所要求的性能。这一过程也称为监督训练或有教师学习。在监督学习中,每个实例都由一个输入对象(如矢量)和一个期望的输出值(也称为监督信号)组成。学习算法通过分析这些训练数据,能够产生一个推断功能,用于映射出新的实例。

监督学习的核心在于从标记的训练数据中推断一个功能。训练数据包括一套训练示例,这些示例的输入和输出都是已知的。学习算法的任务就是通过分析这些示例,找到一个模型或函数,能够准确地映射新的输入到相应的输出。

无监督学习

无监督学习是机器学习领域内的一种重要学习方式。与监督学习不同,无监督学习在训练过程中使用的数据没有明确的标签或结果。它主要是从大量无标签的数据中发现隐藏的结构或模式。

强化学习

强化学习是机器学习中的一个重要领域,它主要关注智能体如何在一个复杂且不确定的环境中通过不断试错来最大化其获得的奖励。强化学习的灵感来源于心理学中的行为主义理论,即有机体如何根据环境给予的奖励或惩罚来调整其行为。

在强化学习的框架中,智能体(agent)通过与环境的交互来学习策略。智能体首先获取环境的当前状态,并根据这个状态选择一个动作(决策)。执行这个动作后,环境会进入一个新的状态,并给智能体一个奖励值作为反馈。智能体的目标是通过不断尝试和调整策略,以最大化累积的奖励。

强化学习的一个显著特点是延迟奖励即当前所做的动作可能很多步之后才会产生相应的结果和奖励。因此,智能体需要具备记忆和规划能力,以处理这种延迟效应

强化学习可以分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL),以及主动强化学习(active RL)和被动强化学习(passive RL)。此外,深度强化学习是强化学习与深度学习的结合,通过深度神经网络来近似强化学习中的值函数或策略函数,从而处理高维状态空间和动作空间的问题。

深度学习

答案:每一类都有深度学习的对应实现,故而都可以包含

深度学习是机器学习领域中一个新的研究方向,可以理解为“深度”和“学习”这两个名词的组合。

深度”体现在神经网络的层数上,一般来说,神经网络的层数越多,也就是越深,则学习效果越好。而“学习”体现为神经网络可以通过不断地输入数据来自动校正权重偏置等参数,以拟合更好的学习效果。

深度学习是一个复杂的机器学习算法,它是以人工神经网络为架构,对数据进行特征学习的算法。在特征提取方面,深度学习没有复杂的人工特征提取过程,特征提取过程可以通过深度神经网络自动完成。此外,深度学习需要大量的训练数据集,并需要强大的算力支持。

深度学习最典型最广泛的应用就是图像识别,此外,还可以应用于语音、自然语言等领域。现在主流的深度学习框架有TensorFlow、Keras、Caffe、PyTorch等。

生成式AI是一种特定类型的AI,专注于生成新内容,如文本、图像和音乐。这些系统在大型数据集上进行训练,并使用机器学习算法生成与训练数据相似的新内容。生成式AI在创意、设计、娱乐等领域展现出强大的潜力,可以广泛应用于创建艺术、音乐和聊天机器人生成文本等场景。

2.语言模型的发展及核心算法

2.1 大模型发展格局、大模型直观功能展示

2.2 大模型之“大”——数据量大

训练数据巨大:意味着模型可以从海量的数据中提取丰富的信息。这些数据涵盖了各种不同的场景、情境和实例,为模型提供了广泛的上下文和多样化的经验。通过大量的数据训练,模型能够学习到更多的特征和模式,从而提高其泛化能力和准确性。这使得大模型在处理复杂的自然语言处理、图像识别、语音识别等任务时表现出色

参数量巨大:使得模型具有更高的灵活性和表示能力。每个参数都代表了模型在训练过程中对数据的某种理解和表示。参数量越大,模型就越能够捕捉到数据中的细微差别和复杂关系。这使得大模型能够更好地适应各种变化,并在细节上进行微调,以提升性能。此外,大模型通常使用深层的神经网络结构,每一层都包含大量的参数,这使得模型能够逐层提取和抽象特征,从而构建出更加复杂和精确的模型。

2.3 大模型之“通用”

2.4 大模型之“最大功臣”:Transformer

Transformer是一个基于自注意力(self-attention)机制的神经网络结构,它最初是为自然语言处理(NLP)任务而设计的,但随后也被应用于其他领域,如计算机视觉和语音识别。Transformer模型的主要特点是能够捕捉输入序列中的长距离依赖关系,并且能够有效地并行化计算,从而提高了模型的训练效率和性能。

在大模型(如Transformer)之前,循环神经网络(Recurrent Neural Networks,简称RNN)是处理序列数据的主要神经网络结构。RNN特别适用于处理具有时间依赖性的数据,例如文本、语音等。

RNN的基本思想是在网络中引入循环机制,使得模型能够记住之前的信息。在每个时间步,RNN接收当前的输入并更新其内部状态,然后将这个状态传递给下一个时间步。这样,RNN就能够捕捉序列中的长期依赖关系。

然而,RNN在处理长序列时存在一些局限性。由于RNN在传播信息时是通过逐个时间步进行的,这导致了梯度消失或梯度爆炸的问题。当序列很长时,RNN很难有效地捕捉到早期的信息,这限制了其在处理长序列数据时的性能。

此外,RNN在处理复杂任务时,其表达能力也受到一定限制。尽管可以通过堆叠多个RNN层来增加模型的深度,但这也会增加计算的复杂性和训练的难度

自注意力机制是Transformer模型的核心,它通过计算输入序列中每个位置与其他位置之间的相似度得分,来生成一个注意力权重矩阵。这个矩阵描述了不同位置之间的相对重要性,使得模型能够关注到输入序列中的关键信息。通过自注意力机制,Transformer模型能够捕捉到序列中的长距离依赖关系,克服了传统循环神经网络(RNN)在处理长序列时面临的梯度消失和计算效率低下的问题。

大模型中的位置编码(Positional Encoding)是其显著优势之一,尤其在处理序列数据时表现得尤为突出。位置编码解决了模型在处理序列信息时无法有效识别位置顺序的问题,从而增强了模型对序列数据的理解和处理能力。

在自然语言处理(NLP)等任务中,序列中单词的位置信息往往至关重要。例如,在句子“我喜欢吃苹果”中,单词“喜欢”和“吃”的位置决定了它们之间的关系和整个句子的含义。如果模型无法区分这些位置信息,那么它将很难准确理解句子的含义。

位置编码通过为序列中的每个位置分配一个独特的向量表示,帮助模型捕捉位置信息。这些向量表示可以与单词嵌入(word embeddings)相结合,作为模型的输入。这样,模型在处理序列数据时,不仅能够理解单词的语义信息,还能够考虑到单词的位置信息,从而更准确地捕捉序列的整体含义。

 3.Transformer内部发生着什么

3.1 Transformer第一步:数据预处理

在使用Transformer模型进行自然语言处理任务(如机器翻译、文本摘要、情感分析等)时,数据预处理是第一步也是非常重要的一步。数据预处理涉及将原始文本数据转换为模型可以理解和处理的格式。以下是Transformer模型数据预处理的主要步骤:

分词(Tokenization)

将文本拆分为单词或子词(subword)单元,这些单元称为tokens。

对于英文,通常使用空格作为分隔符;对于中文,可能需要使用特定的分词工具。

Transformer模型(如BERT、GPT等)通常使用基于字节对编码(Byte Pair Encoding, BPE)或WordPiece的分词方法。

编码(Embedding)

将每个token转换为一个数值向量,即嵌入向量(embedding vector)。

通常使用预训练的词嵌入(如Word2Vec、GloVe)或模型自带的嵌入层。

对于新的或未登录词(OOV),可以使用特殊标记(如<UNK>)或子词嵌入。

位置编码(Positional Encoding):

在Transformer模型中扮演着至关重要的角色。Transformer模型本身具有置换不变性(permutation invariant),这意味着输入序列的顺序变化不会影响模型的输出结果。然而,在自然语言处理任务中,序列中单词的位置信息通常是至关重要的。为了解决这个问题,Transformer模型引入了位置编码。

3.2 Transformer第二步:编码器

进入编码器,自注意力机制发挥作用

1、关联词与其他所有词:首先计算句子中每个词与其他所有词之间的相关性得分。这些得分反映了词与词之间的关联程度,可以用于确定哪些词在当前上下文下更加重要

2、权重赋予:关性得分被转化为权重,用于调整每个词的表示。权重高的词将获得更大的关注,而权重低的词则相对被忽略。

2、权重加权:使用这些权重,对输入序列中每个位置的嵌入向量进行加权求和,得到一个新的表示向量。

3.3 Transformer第三步:解码器

解码器接收:

编码器的输出+上一轮文本的输入

不同之处:当编码器在处理各个词的时候,会关注输入序列里所有其他词。在解码器中,自注意力只会关注这个词他前面的其他词,确保生成过程的顺序性和正确性。

3.4 Transformer第四步: Linear层和Softmax层

输入到Linear层和Softmax层

1、Linear层: 将输入的向量映射到一个更大的logits向量上。logits向量的长度通常与词汇表的大小-致,假设输出词汇为0000则Logits向量的输 出也为10000,每-一个向量上的

数字对应一个词汇。

2、Softmax层: softmax层 将Logits向量中的每-个数字都转换成0到1之间的概率值,这些概率值表示对应词汇在当前位置被选择的概率,并且所有位置的概率之和为1。最终得到每个可能token的概

4.类Chatgpt产品的诞生之路

4.1 大语言模型诞生的全过程

首先通过无监督学习得到基座大模型,然后再通过有监督微调得到可以对话的模型,再通过有监督学习得到能够评估回答质量的奖励模型,最后通过强化学习,使模型的生成结果符合人类期望。

4.2 无监督学习—>基座大模型

数据准备

1、数据准备与预处理:海量文本作为原料,使用分词器(tokenizer)将这些文本数据转化为token序列。如GPT3,训练数据的整体规模是3,000亿的token。

任务构建

2、任务构建:采用无监督学习的方式训练模型,常见的方法是掩码语言建模(Masked Language Modeling, MLM) 。在这个任务中,我们随机选择输入序列中的一些token进行掩码(即用特殊符号替换),然后要求模型根据上下文预测这些被掩码的token。

模型训练

3、模型训练:将预处理后的token序列输入到Transformer模型中,经过Transformer得到每个可能token的预测概率。将预测的概率分布与真实值(即被掩码的token)进行比较,计算交叉熵损失。通过反向传播算法,计算损失函数对模型参数的梯度,并使用优化算法(如梯度下降)更新模型的权重。这个过程迭代进行,直到模型在验证集上达到满意的性能。

4.3 有监督学习—>可对话

监督微调(Supervised Fine-tuning)是一种在预训练模型的基础上,使用与目标任务直接相关的有标签数据集进行有监督训练的方法。其核心思想是通过调整模型的权重和参数,使模型更好地适应新的任务或领域

4.4 有监督学习—>奖励模型

有监督学习的背景下,奖励模型的应用可能并不像在无监督学习或强化学习环境中那么直接。然而,有监督学习仍然可以为奖励模型提供有价值的信息和指导。

4.5 强化学习—>提升模型回复质量

强化学习(Reinforcement Learning)是一种机器学习技术,它通过让智能体(agent)在与环境交互的过程中学习策略,以最大化某种累积奖励信号。强化学习非常适合解决那些难以用传统监督学习方法解决的问题,特别是那些需要智能体在不确定环境中进行探索和学习的任务。

在提升模型回复质量的上下文中,强化学习可以发挥重要作用。例如,当模型需要与用户进行自然语言交互时,回复的质量直接影响到用户体验和模型的实用性。通过强化学习,模型可以学习如何生成更恰当、更有用的回复。

以下是一些利用强化学习提升模型回复质量的可能方法:

定义奖励函数首先,需要定义一个奖励函数来衡量模型回复的质量。这个函数可以根据任务的具体需求来设计,例如,它可以基于回复的相关性、流畅性、多样性或用户满意度等因素。

采样与探索在训练过程中,模型需要不断地尝试不同的回复策略,并通过观察奖励信号来更新其策略。这涉及到采样和探索的权衡,即模型既要利用当前已知的最优策略,又要探索可能更优的新策略

策略优化基于收集到的经验(即状态、动作和奖励的序列),模型可以更新其策略,以最大化累积奖励。这通常涉及到使用某种形式的优化算法,如策略梯度方法、Q-learning 或 Actor-Critic 方法等

用户反馈集成用户的直接反馈是非常宝贵的信息。可以通过某种方式让用户对模型的回复进行评分或提供其他形式的反馈,并将这些信息整合到奖励函数中,以便模型能够更好地理解用户的期望和需求。

离线与在线学习强化学习可以在离线环境中进行,也可以在与用户实时交互的在线环境中进行。离线学习允许模型在大量数据上进行预训练,而在线学习则允许模型根据实时反馈进行快速调整。

模型集成与迁移学习强化学习可以与其他机器学习方法(如监督学习、无监督学习等)相结合,以提高模型的性能。此外,还可以利用迁移学习技术,将从其他任务或领域中学习到的知识迁移到当前任务中,以加速学习过程并提高回复质量。

通过结合这些技术和方法,强化学习可以有效地提升模型回复的质量,为用户提供更自然、更智能的交互体验。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1531301.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

MySQL 多表查询强化练习

环境准备 create table dept(id int PRIMARY KEY,dname VARCHAR(50),loc VARCHAR(50) ); insert into dept values (10,研发部,北京), (20,学工部, 上海), (30,销售部,广州 ), (40,财务部,深圳);create table job(id int PRIMARY KEY,jname VARCHAR(20),descripition VARCHAR(…

小米汽车定价较预期下调3万至5万,发布之前仍有可能微调

跨界造车的新势力小米汽车正逐渐揭开其神秘面纱。最新爆料显示&#xff0c;小米汽车内部对车辆的定价进行了讨论&#xff0c;较之前的预期下调了3万至5万的幅度。然而&#xff0c;在正式发布之前&#xff0c;这一价格仍有可能进行微调。 历经三年的精心筹备&#xff0c;小米汽车…

5G网络架构与组网部署03--5G网络组网部署

1. SA组网与NSA组网 &#xff08;1&#xff09;NSA 非独立组网&#xff1a;终端同时接入4G基站和5G基站&#xff0c;只能实现5G部分功能 &#xff08;2&#xff09;SA组网【最终目标】&#xff1a;5G基站可以单独提供服务&#xff0c;接入的是5G核心网 区别&#xff1a;同一时间…

双轨模式的优势、弊端与未来发展:私域分销的考量

在多元化的商业环境中&#xff0c;双轨模式作为一种独特的经营策略&#xff0c;已经逐渐引起了广泛关注。这种模式通过并行运行两个或多个互补的轨道&#xff0c;旨在实现资源整合、风险分散和灵活性增强。然而&#xff0c;与此同时&#xff0c;双轨模式也伴随着一些弊端和挑战…

FPGA高端项目:FPGA基于GS2971+GS2972架构的SDI视频收发+HLS图像缩放+多路视频拼接,提供4套工程源码和技术支持

目录 1、前言免责声明 2、相关方案推荐本博主所有FPGA工程项目-->汇总目录本博已有的 SDI 编解码方案本方案的SDI接收发送本方案的SDI接收图像缩放应用本方案的SDI接收纯verilog图像缩放纯verilog多路视频拼接应用本方案的SDI接收OSD动态字符叠加输出应用本方案的SDI接收HLS…

【LeetCode每日一题】1793. 好子数组的最大分数

文章目录 [1793. 好子数组的最大分数](https://leetcode.cn/problems/maximum-score-of-a-good-subarray/)思路&#xff1a;单调栈代码&#xff1a; 1793. 好子数组的最大分数 思路&#xff1a;单调栈 1遍历数组&#xff0c;用单调栈来找到该位置左边比该位置小的数&#xff0…

Linux/Monitored

Enumeration nmap 用 nmap 扫描了常见的端口&#xff0c;发现对外开放了 22,80,389,443,5667 端口&#xff0c;端口详细信息如下 ┌──(kali㉿kali)-[~/vegetable/HTB/Monitored] └─$ nmap -sC -sV -p 22,80,389,443,5667 10.10.11.248 Starting Nmap 7.93 ( https://nm…

印度金融公司数据遭泄露,泄露数据超过3TB

近期&#xff0c;印度非银行金融公司 IKF Finance 泄露了超过 3 TB 的敏感客户和员工数据&#xff0c;可能会暴露其整个用户群。 Cybernews 研究团队发现&#xff0c;一个配置错误的 MongoDB 实例导致超过 400 万份 IKF Finance 文档被公开。 企业通常使用 MongoDB 来组织和存…

Linux——程序地址空间

我们先来看这样一段代码&#xff1a; #include <stdio.h> #include <unistd.h> #include <stdlib.h>int g_val 0;int main() {pid_t id fork();if(id < 0){perror("fork");return 0;}else if(id 0){ //child,子进程肯定先跑完&#xff0c;也…

时序分解 | Matlab实现GWO-CEEMDAN基于灰狼算法优化CEEMDAN时间序列信号分解

时序分解 | Matlab实现GWO-CEEMDAN基于灰狼算法优化CEEMDAN时间序列信号分解 目录 时序分解 | Matlab实现GWO-CEEMDAN基于灰狼算法优化CEEMDAN时间序列信号分解效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.CEEMDAN方法的分解效果取决于白噪声幅值权重(Nstd)和噪声添…

SpringCloud从入门到精通速成(一)

文章目录 1.认识微服务1.0.学习目标1.1.单体架构1.2.分布式架构1.3.微服务1.4.SpringCloud1.5.总结 2.服务拆分和远程调用2.1.服务拆分原则2.2.服务拆分示例2.2.1.导入Sql语句2.2.2.导入demo工程 2.3.实现远程调用案例2.3.1.案例需求&#xff1a;2.3.2.注册RestTemplate2.3.3.实…

Python爬虫获取接口数据

Python爬虫获取接口数据 正常人的操作​​​​​​​​​​爬虫的思路标题获取请求信息标题请求转换为代码完整代码请求返回信息执行程序获取静态网页数据的教程,适用于我们要爬取的数据在网页源代码中出现,但是还是有很多的数据是源代码中没有的,需要通过接口访问服务器来获…

游戏服务端配置“热更”及“秒启动”终极方案(golang/ygluu/卢益贵)

游戏服务端配置“热更”及“秒启动”终极方案 ygluu 卢益贵 关键词&#xff1a;游戏微服务架构、游戏服务端热更、模块化解耦、golang 目录 一、前言 二、异步线程加载/重载方案 三、配置表碎片化方案 四、指针间接引用 五、重载通知 六、示例代码 七、相关连接 一、…

【CKA模拟题】别再犯难!一文教你用两种方式快速创建Pod!

题干 For this question, please set this context (In exam, diff cluster name) kubectl config use-context kubernetes-adminkubernetesCreate a pod called sleep-pod using the nginx image and also sleep for give any value for seconds. 使用nginx image创建一个名…

探索山海鲸可视化:相较于Excel的独特优势分析

作为一名新用户&#xff0c;我近期开始接触并尝试使用山海鲸可视化工具&#xff0c;这款软件最初吸引我的点在其免费可视化编辑、本地化部署的特点&#xff0c;用了一段时间后&#xff0c;我发现相较于之前使用的Excel来制作可视化看板&#xff0c;两者在多个方面有着显著的区别…

WordPress Plugin NotificationX插件 SQL注入漏洞复现(CVE-2024-1698)

0x01 产品简介 WordPress和WordPress plugin都是WordPress基金会的产品。WordPress是一套使用PHP语言开发的博客平台。该平台支持在PHP和MySQL的服务器上架设个人博客网站。 0x02 漏洞概述 WordPress plugin NotificationX是一个应用插件。2.8.2版本及之前 存在安全漏洞,该…

数据库简介与MySQL编译安装

1数据库基础 什么是数据库 数据库&#xff08;Database&#xff09;是一个有组织的数据存储系统&#xff0c;用于有效地存储、检索、管理和维护数据。数据库系统允许用户以结构化的方式存储和操作大量数据&#xff0c;并提供了一种可靠的方法来管理和维护这些数据&#xff0c…

<地球科学专题>机器学习与灾害风险

<地球科学专题>机器学习与灾害风险 南昌大学黄发明副教授同济大学--张东明教授https://www.koushare.com/lives/room/081366 蔻享直播间,稍后会有快速回放。 南昌大学黄发明副教授

Linux--Ubuntu安装

Linux操作系统时程序员必须要学的操作系统。接下来我们就来看一下Linux操作系统是如何安装的 我们在 Vmware 虚拟机中安装 linux 系统&#xff0c;所以需要先安装 vmware 软件&#xff0c;然后再 安装 Linux 系统。 一.所需安装文件&#xff1a; Vmware 下载地址(现在最新版的…

基于Zigbee技术的智能家居系统(附详细使用教程+完整代码+原理图+完整课设报告)

🎊项目专栏:【Zigbee课程设计系列文章】(附详细使用教程+完整代码+原理图+完整课设报告) 前言 👑由于无线传感器网络(也即是Zigbee)作为🌐物联网工程的一门必修专业课,具有很强的实用性,因此很多院校都开设了zigbee的实训课程;👑同时最近很多使用了我的单片机课…