人工智能大模型综述学习笔记

news2025/1/16 21:57:32

目录

一、深度学习的局限性和大模型发展背景

二、大模型架构

1、多头自注意力机制

2、Transformer架构

三、常见大模型发展概况

1、语言大模型发展概况

掩码语言模型解释

因果语言模型解释

何时使用什么?

2、视觉-语言大模型

四、大模型的特点

1、大模型的扩展定理

2、大模型的涌现能力

以LLM的涌现能力为例

五、大模型存在的问题和发展趋势

1、亟待解决的问题

2、发展前景


一、深度学习的局限性和大模型发展背景

深度学习模型需要大量标记数据进行训练才能达到良好性能,然而手工标记数据耗时耗力,并且特定任务领域的数据往往比较稀缺,限制了深度学习模型的应用。此外,在有限的数据量下,当参数量增加时,模型容易出现过拟合问题,难以泛化到不同的任务领域。

为了减少数据集构建的工作量,提升模型的领域迁移能力,研究者提出使用基于大规模数据集训练的模型来处理不同的任务。预训练模型(Pretrained Model, PM)提供了一种基于预训练和微调的两阶段解决方案:在预训练阶段,模型从大规模无监督数据中学习领域知识;在微调阶段,只需要少量的标注数据,就可以将预训练阶段学到的领域知识转移到特定任务中,无需从头开始训练模型,也不需要耗费大量的时间和精力进行数据标注工作,从而提高模型的泛化能力。

预训练模型已经在计算机视觉和自然语言处理等方面展现出良好的性能。人工智能技术的三大要素包括数据、算法以及算力,这三者的有机结合共同构建了模型。近年来,传统的“特定任务特定模型”的构建模式逐渐被“一个大规模预训练模型适用于多个下游任务”的模式取代。在这种新模式中,大规模预训练模型也被简称为大模型。研究人员设计先进的算法,并借助海量算力和大规模计算系统的支持,为不同需求的用户训练大模型,以服务于各类人工智能应用。

二、大模型架构

1、多头自注意力机制

首先我们通过一个例子,来对 Self-Attention 有一个直观的认识。假如我们要翻译下面这个句子:

The animal didn’t cross the street because it was too tired.


这个句子中的 it 指的是什么?是指 animal 还是 street ?对人来说,这是一个简单的问题,但是算法来说却不那么简单。

当模型在处理 it 时,Self-Attention 机制使其能够将 it 和 animal 关联起来。

当模型处理每个词(输入序列中的每个位置)时,Self-Attention 机制使得模型不仅能够关注当前位置的词,而且能够关注句子中其他位置的词,从而可以更好地编码这个词。

下面是视觉-语言大模型中图像生成任务的一个例子。

假设我们输入有四个向量,这四个向量是有关系的,而如果我们将self-attention这个模块拿走,那么就相当于是把这四个输入当作毫无关系的向量进行处理然后得到四个输出。所以:self-attention这个模块的作用就是将这四个输入联系起来使我们的输出与这四个输入都有关。假如我们现在要做一个任务输入四张图片:content1,content2,style1,style2,我们想要得到一张包含图片content1,content2的内容同时它又符合图片style1,style2的图片风格的图片,那么我们此时就可以利用注意力机制来对四张图片做一个全方位的考虑,然后再将图片输出(当然,这里说的图片是经过编码后的向量)。

Multi-Head sdlf-attention(多头注意力机制)
普通的注意力机制是指将输入序列中的每个位置作为查询(query),并根据查询与其他位置的关联性(通过计算查询与键(key)之间的相似度)来加权求和其他位置的值(value)。这种方式可以捕捉输入序列内部的依赖关系,但对于长序列或大规模的任务可能存在计算上的困难。

多头注意力机制是对普通注意力机制的扩展,通过同时使用多个独立的注意力头来处理输入序列。每个注意力头都学习自己的查询、键和值的线性变换,然后进行独立的注意力计算。最后,多个注意力头的结果通过线性变换和拼接的方式组合起来得到最终的输出。多头注意力机制可以在保持计算效率的同时,提高模型的表达能力和泛化性能。

与普通注意力机制相比,多头注意力机制具有以下区别和优势:

并行计算:多头注意力可以并行地处理不同的注意力头,提高计算效率,特别是在GPU上的并行计算中。
组合性:通过线性变换和拼接多个注意力头的结果,模型可以融合多个不同角度的注意力表示,从而提供更丰富的信息。
表达能力:多头注意力可以捕捉不同的关注点和特征表示,提供更全面和多样化的模型表达能力。
鲁棒性:多头注意力可以减少单个注意力头的过拟合风险,通过多个头的共同学习和组合,提高模型的泛化性能。
综上所述,多头注意力机制通过引入多个独立的注意力头,同时进行并行计算和组合性的操作,提供了更强大的表达能力和泛化性能,适用于处理复杂的序列任务和大规模的数据。

原文链接:https://blog.csdn.net/qq_72354549/article/details/131015308

2、Transformer架构

首先,让我们先将 Transformer 模型视为一个黑盒,如图所示。在机器翻译任务中,将一种语言的一个句子作为输入,然后将其翻译成另一种语言的一个句子作为输出:

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分:编码组件和解码组件。

每个编码器由两个子层组成:

  • Self-Attention层(自注意力层)

  • Position-wise Feed Forward Network(前馈网络,缩写为 FFN

解码阶段的每个时间步都输出一个元素

接下来会重复这个过程,直到输出一个结束符,表示 Transformer 解码器已完成其输出。每一步的输出都会在下一个时间步输入到下面的第一个解码器,解码器像编码器一样将解码结果显示出来。

解码器栈的输出是一个 float向量。我们怎么把这个向量转换为一个词呢?通过一个线性层再加上一个Softmax层实现。

现在假设我们的模型有 10000 个英文单词(模型的输出词汇表)。因此 logits 向量有 10000 个数字,每个数表示一个单词的分数。

然后,Softmax 层会把这些分数转换为概率(把所有的分数转换为正数,并且加起来等于 1)。最后选择最高概率所对应的单词,作为这个时间步的输出。

原文链接:https://blog.csdn.net/kaka0722ww/article/details/137586362

三、常见大模型发展概况

1、语言大模型发展概况

语言大模型(LLM)是指参数量在十亿及以上的大型预训练语言模型。在大规模文本语料数据库和自监督预训练技术的加持下,LLM显示了强大的通用语言表示能力,并且在解决复杂任务时展现出卓越的性能。

下面简单介绍语言大模型常用的两种预训练方案:即掩码语言建模(MLM)和因果语言建模(CLM)。

掩码语言模型解释

在屏蔽语言模型下,我们通常屏蔽给定句子中一定比例的单词,并且模型预计会根据该句子中的其他单词来预测这些屏蔽单词。这样的训练方案使得该模型本质上是双向的,因为掩码词的表示是根据左侧和右侧出现的单词来学习的您还可以将其想象为填空式的问题陈述

因果语言模型解释


因果语言模型。因果语言模型(causal language model),是跟掩码语言模型相对的语言模型,跟transformer机制中的decoder很相似,因果语言模型采用了对角掩蔽矩阵,使得每个token只能看到在它之前的token信息,而看不到在它之后的token,模型的训练目标是根据在这之前的token来预测下一个位置的token。通常是根据概率分布来计算词之间组合的出现概率,因果语言模型根据所有之前的token信息来预测当前时刻token,所以可以很直接地应用到文本生成任务中。可以理解为encoder-decoder的模型结果使用了完整的transformer结构,但是因果语言模型则只用到transformer的decoder结构(同时去掉transformer中间的encoder-decoder attention,因为没有encoder的结构)。

何时使用什么?


当目标是学习输入文档的良好表示时,MLM 损失是首选, 然而,当我们希望学习生成流畅文本的系统时,CLM 是首选。另外,直观上这是有道理的,因为在学习每个单词的良好输入表示时,您会想知道它出现在左侧和右侧的单词,而当您想学习生成文本的系统时,您只能看到什么到目前为止您所生成的所有内容(就像人类的书写方式一样)。因此,制作一个在生成文本时也可以查看另一侧的系统可能会引入偏差,从而限制模型的创造力。

原文链接:https://blog.csdn.net/sinat_37574187/article/details/131350296

2、视觉-语言大模型

视觉-语言大模型是指利用视觉和语言数据之间的跨模态交互,利用图像和文本之间的关联性,基于对比学习进行弱监督预训练,学习视觉的一般特征,然后将其转移到下游的分类、检索、目标检测、视频理解、视觉问答、图像描述和图像生成等视觉任务的大模型。在Transformer架构中,最小的特征单元是嵌入向量,这种特性使其非常适合处理多模态数据,因为嵌入层可以将任何模态的输入转换为嵌入向量。

视觉-语言大模型研究方兴未艾,还存在许多挑战和潜在的研究方向。Transformer的出现使得图像和文字可以通过相同的方式进行学习,若采用统一的Transformer架构同时处理图像和文字输入可以有效提升预训练的效率;目前大多数视觉-语言模型仅使用单一语言进行预训练,采用多种语言文本进行预训练可以提高模型在不同语言环境下的泛化性;此外,视觉语言模型的高效轻量化也是值得探索的方向。

四、大模型的特点

1、大模型的扩展定理

广泛的研究表明,扩展训练数据大小或模型大小可以很大程度上提高大模型的能力。语言大模型可以更好地根据上下文理解自然语言并生成高质量的文本。视觉大模型可以学习到通用的视觉表示并泛化到新的图像域。大模型这一能力提升可以部分通过扩展定律来描述,即模型性能大致随着模型大小、数据大小和总运算量的增加而提高。

然而,现实中的计算资源通常是有限的,研究者开始探索模型大小、数据大小和模型计算量之间的最佳配置关系。Hoffmann等提出了Chinchilla缩放定律,即当可用计算资源增加时,模型大小和数据量大小应当等比例增长。此外,预训练数据的质量极大影响大模型的性能,因此在扩展预训练数据库时,数据收集和清洗策略相当重要。

2、大模型的涌现能力

大模型的涌现能力是指在小模型中不存在但在大模型中出现的能力。即当模型规模超过某个阈值后才能被观测到的能力。这是区分大模型与以前的预训练模型最显著的特征之一。模型规模达到一定水平时,模型性能显著提高,类似于物理学中的相变现象,是一种量变引起质变的过程。

以LLM的涌现能力为例

上下文学习。上下文学习能力首先出现在GPT-3模型中。通过输入自然语言指令,GPT-3可以以完成输入文本的单词序列预测的方式生成期望的输出,无需额外的训练。

逐步推理。小语言模型通常难以解决涉及多个推理步骤的复杂任务,例如数学问题和代码生成。通过采用“思维链”推理策略[15],LLM可以利用包含中间推理步骤的提示机制解决这类任务,这种能力可能来自于对代码的训练。

合适的任务指令或上下文学习策略可以激发大模型的能力。例如,通过恰当的自然语言描述任务,对LLM进行指令微调,可以提高模型在新任务上的泛化能力;思维链提示有助于模型解决复杂的逻辑推理和数学运算任务。大模型表现出的涌现能力是其解决复杂任务的关键,也是实现通用统一模型的基础。

五、大模型存在的问题和发展趋势

1、亟待解决的问题

大模型采用深度神经网络架构,但其可解释性较差,难以对模型的训练过程和推理结果进行有效的跟踪和解释,在实际应用中面临安全问题,在可靠性要求较高的领域(如自动驾驶、AI医疗)存在巨大风险。此外,研究者对大模型的涌现能力产生机制仍不清楚。因此,关于大模型原理和能力的理论研究是一个重要方向,对大模型的实际应用和下一代大模型的发展至关重要。

随着大模型参数规模的不断增大,由模型规模带来的性能提升出现边际递减效应。此外,更大的模型导致了更高的训练成本,包括算力、数据和更加复杂的训练过程。因此,开发更系统、经济的预训练框架以优化大模型训练过程变得尤为重要。大模型训练过程需要考虑模型有效性、效率优化和训练稳定性等因素。此外,还需要更灵活的硬件支持和资源调度机制,以便更好地组织和利用计算集群中的资源。

大模型训练所需的大数据涉及隐私、伦理问题。例如,训练数据被篡改、破坏、泄露或非法获取,将会对公共安全和个人隐私造成严重损害。此外,训练数据中可能存在粗俗、暴力、色情等内容,导致大模型存在偏见问题。因此,大模型的安全和伦理问题也是一个相当重要的研究方向。

2、发展前景

大模型的发展为探索AI应用铺平了道路,揭示了许多前景并迎来了前所未有的机遇。大模型有可能引领未来几年的技术变革,带来新的产业格局。如图4所示,大模型在文本、代码和图像等领域已经得到广泛应用,开始取代文字编辑、记录等简单重复的工作岗位,辅助开发者编写程序,进行AI艺术创作等。在电子信息、生物医学等领域,大模型可以加快研究进程;大模型与传统产业的融合发展可以帮助企业提升智能化水平,推进实体经济智能化发展。

此外,大模型发展还将为具身智能带来变革。具身智能是有身体并支持物理交互的智能体,它能够像人一样与真实物理世界进行互动,并具备自主决策、规划和主动感知等能力。大模型可将多模态知识迁移至具身推理中,使机器人执行特定指令,真正具备具身智能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1972367.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

uni-app项目打包成H5部署到服务器

1. uni-app项目打包成H5部署到服务器 前端使用 uniapp开发项目完成后,需要将页面打包,生成H5的静态文件,部署在服务器上。这样通过服务器链接地址,直接可以在手机上点开来访问。   将项目打包成H5部署到服务器,然后链…

Java中类的构造

1.私有化成员变量。 2.空参构造方法。 3.带全部参数的构造方法。 4.get / set方法。 package demo;public class student{//1.私有化成员变量。//2.空参构造方法。//3.带全部参数的构造方法。//4.get / set方法。private String name;private int age;public student() {}pu…

基于SpringBoot+Vue的多媒体信息共享平台(带1w+文档)

基于SpringBootVue的多媒体信息共享平台(带1w文档) 基于SpringBootVue的多媒体信息共享平台(带1w文档) 随着武理多媒体信息共享平台的不断出现,用户需求不断增多,武理多媒体信息共享平台也不断的得到壮大。该系统主要是满足多方面的需求的实际需要&#…

MySQL案例:MHA实现主备切换(主从架构)万字详解

目录 MHA 概念 MHA的组成 特点 案例介绍 (1)案例需求 (2)案例实现思路 (3)案例拓扑图 (4)案例环境 案例步骤 基本环境配置 关闭防火墙和内核安全机制 安装数据库 授权…

数据结构——链式结构二叉树

目录 一、二叉树的链式结构 二、手动创建一棵链式二叉树 三、 二叉树的遍历 (1)前序遍历(先序遍历) (2)中序遍历 (3)后序遍历 四、二叉树的有关函数 (1)头文件 (…

【机器学习】逻辑回归的梯度下降以及在一变量数据集、两变量数据集下探索优化的梯度下降算法

引言 在机器学习中,逻辑回归是一种用于二分类问题的方法。它使用逻辑函数(也称为sigmoid函数)来预测属于某个类别的概率。逻辑回归的损失函数通常是交叉熵损失,用于衡量预测值与真实值之间的差异 文章目录 引言一、逻辑回归的梯度…

电机的伺服调试和pid调节有什么异同?

电机的伺服调试和PID调节在调节控制系统的精度和性能方面都是重要的,但它们有不同的侧重点和方法: 伺服调试 定义:伺服调试是指对伺服系统进行优化和调整,以确保其在控制对象(如电机)上的表现达到预期。伺…

《LeetCode热题100》---<5.②普通数组篇五道>

本篇博客讲解LeetCode热题100道普通数组篇中的六道题 第三道:轮转数组(中等) 第四道:除自身以外数组的乘积(中等) 第三道:轮转数组(中等) 方法一:使用额外的数…

KubeSphere 部署的 Kubernetes 集群使用 GlusterFS 存储实战入门

转载:KubeSphere 部署的 Kubernetes 集群使用 GlusterFS 存储实战入门 知识点 定级:入门级 GlusterFS 和 Heketi 简介 GlusterFS 安装部署 Heketi 安装部署 Kubernetes 命令行对接 GlusterFS 实战服务器配置(架构1:1复刻小规模生产环境,…

AI助力,轻松组建你的汽车梦之队!

咱汽车销售想增加目标客户,可不简单!市场竞争那叫一个激烈,吸引客户注意力太难了!不过别怕,咱有办法。我在 ai123.cn 这个平台上,找到了好多适合咱的 AI 工具和资源,这就跟大家分享分享。 比如说…

upload-labs漏洞靶场~文件上传漏洞

寻找测试网站的文件上传的模块,常见:头像上传,修改上传,文件编辑器中文件上传,图片上传、媒体上传等,通过抓包上传恶意的文件进行测试,上传后缀名 asp php aspx 等的动态语言脚本,查…

基于C语言从0开始手撸MQTT协议代码连接标准的MQTT服务器,完成数据上传和命令下发响应(华为云IOT服务器)

文章目录 一、前言二、搭建开发环境三、网络编程基础概念科普3.1 什么是网络编程3.2 TCP 和 UDP协议介绍3.3 TCP通信的实现过程 四、Windows下的网络编程相关API介绍4.1 常用的函数介绍4.2 函数参数介绍4.3 编写代码体验网络编程 五、访问华为云IOT服务器创建一个产品和设备5.2…

STM32ADC

ADC简介:有打moba游戏的别搞混了,这不是射手adc。在32中,ADC的全称为:Analog-to-Digital Converter,指模拟/数字转换器 也就是模拟-数字电路的转换器。其实通俗的来讲,它就是一个电压表。 目录 一.ADC原理…

六、5 TIM输入捕获介绍

1、基本知识介绍 (1) 注意: ①4个输入捕获和输出比较通道,共用4个CCR寄存器 ②CH1到CH4,四个通道的引脚也是共用的 ③同一个定时器输入捕获和输出比较,不能同时使用 (2)输入捕获…

4G/5G无线视频采集设备如何通过国标28181接入到视频监控接入平台(视频统一接入平台)

目录 一、国标GB/T 28181介绍 1、国标GB/T28181 2、内容和特点 二、4G/5G无线视频采集设备 1、定义 2、主要功能: 3、技术特点 4、应用场景 二、接入准备工作 1、确定网络环境 (1)公网接入 (2)专网传输 2、…

使用 Rough.js 创建动态水平条形图

本文由ScriptEcho平台提供技术支持 项目地址:传送门 使用 Rough.js 创建动态可视化网络图 应用场景 Rough.js 是一个 JavaScript 库,它允许开发人员使用毛边风格创建可视化效果。该库适用于各种应用程序,例如: 数据可视化地图…

【C++11】解锁C++11新纪元:深入探索Lambda表达式的奥秘

📝个人主页🌹:Eternity._ ⏩收录专栏⏪:C “ 登神长阶 ” 🤡往期回顾🤡:C11右值引用 🌹🌹期待您的关注 🌹🌹 ❀C11 📒1. 可变参数模板…

.net # 检查 带有pdf xss

1.解决pdf含javasprct脚本动作,这里是验证pdf内部事件。相关pdf文件下载: 测试pdf文件 相关包 iTextSharp 5.5.13.4 iTextSharp using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser;private Boolean IsPdfSafe(Stream stream){// PdfReader…

PyTorch+PyG实现图神经网络经典模型目录

前言 大家好,我是阿光。 本专栏整理了《图神经网络代码实战》,内包含了不同图神经网络的相关代码实现(PyG以及自实现),理论与实践相结合,如GCN、GAT、GraphSAGE等经典图网络,每一个代码实例都…

洛谷 P1739 表达式括号匹配 题解

题目描述 假设一个表达式有英文字母(小写)、运算符(、-、*、/)和左右小(圆)括号构成,以 作为表达式的结束符。请编写一个程序检查表达式中的左右圆括号是否匹配,若匹配&#xff0c…