【人工智能基础2】Tramsformer架构、自然语言处理基础、计算机视觉总结

news2025/3/17 7:51:28

文章目录

    • 七、Transformer架构
      • 1. 替代LSTM的原因
      • 2. Transformer架构:编码器 - 解码器架构
      • 3. Transformer架构原理
    • 八、自然语言处理基础
      • 1. 语言模型基本概念
      • 2. 向量语义
      • 3. 预训练语言模型的基本原理与方法
      • 4. DeepSeek基本原理
    • 九、计算机视觉

七、Transformer架构

1. 替代LSTM的原因

处理极长序列时,效率下降:

虽然LSTM设计的初衷是解决长期依赖问题,即让模型能够有效利用序列中较长距离的信息,但在处理极长序列时,它仍然可能面临性能下降的情况。

复杂的门操作使得计算成本高,效率差:

LSTM在处理序列数据时,每个时间步都需要进行复杂的门控操作,这导致其计算成本较高,尤其是在处理大规模数据和长序列时,训练和推理速度较慢。

无法并行计算

LSTM是顺序处理序列数据的,难以在硬件上进行并行计算,这限制了其在现代并行计算设备(如GPU)上的性能发挥。

 

2. Transformer架构:编码器 - 解码器架构

Transformer由编码器和解码器两部分组成。
编码器负责将输入序列编码成向量表示,解码器则根据编码器的输出以及之前生成的输出序列来生成下一个输出。

  • 编码器:由多个堆叠的编码器层组成。每个编码器层包含两个子层,一个是多头自注意力机制,另一个是前馈神经网络。在这两个子层之间还有残差连接和层归一化操作。
  • 解码器:同样由多个堆叠的解码器层组成。每个解码器层除了包含与编码器类似的多头自注意力机制和前馈神经网络外,还包含一个额外的多头注意力机制,用于对编码器的输出进行注意力计算,以获取与当前生成位置相关的信息。

 

3. Transformer架构原理

自注意力机制:解决序列长期依赖关系:每个位置能关注到其他位置

  • 这是Transformer的核心创新点之一。它允许模型在处理每个位置的信息时,能够同时关注输入序列中的其他位置,从而更好地捕捉序列中的长期依赖关系。
  • 自注意力机制通过计算输入序列中各个位置之间的相似度得分,来确定每个位置对其他位置的关注程度,然后根据这些得分对输入进行加权求和,得到每个位置的新表示。

多头自注意力机制:并发与丰富表达:同时(并行)关注序列的不同方面,捕获更丰富的语义,最后将多个头的输出拼接到一起。

为了进一步提高模型的表示能力,Transformer使用了多个头的自注意力机制。每个头都使用不同的参数进行计算,从而能够捕捉到不同方面的信息。最后,将多个头的输出拼接在一起,并通过一个线性变换得到最终的输出。

前馈神经网络:增加表达力,并提高模型泛化能力。具体表现为:非线性变换增加表达力,融合所有位置的特征,进一步增强表达;非线性模型,防止模型简单导致过拟合,提高模型泛化能力。

在自注意力机制之后,每个编码器层和解码器层都包含一个前馈神经网络。它由两个线性变换和一个非线性激活函数(如ReLU)组成,用于对自注意力机制的输出进行进一步的特征提取和变换。

位置编码:感知序列位置。

由于Transformer本身不具有对序列顺序的内在感知能力,因此需要引入位置编码来将序列中的位置信息融入到模型中。
常见的位置编码方法是使用正弦和余弦函数来生成不同位置的编码向量,这些向量与输入序列的嵌入向量相加后作为模型的输入。

通过这些架构和原理,Transformer能够有效地处理长序列数据,并且在并行计算和捕捉长期依赖关系方面具有显著优势,因此在许多自然语言处理任务中取得了比LSTM更好的性能,成为了当前主流的序列建模方法之一。

 

八、自然语言处理基础

1. 语言模型基本概念

  • n-gram模型:基于统计,通过统计文本中连续n个单词或字符出现频率预测下一个单词或字符出现概率,分为unigram(只考虑单个字符概率,忽略上下文)、bigram(考虑当前字符和前一个字符一起出现概率)、trigram(考虑当前字符和前两个字符出现概率)等。
  • 评价指标:困惑度衡量模型对测试集的预测正确性,越低越好;交叉熵衡量模型预测概率分布与真实数据分布差异,越低模型性能越好。
  • 训练中的特殊字符:OOV问题通过引入<unk>字符处理,可替换训练集中频次少或测试集中新出现的字符;起始字符引入<start>,结束字符引入<end>处理出现概率。
  • 字模型与词模型:词模型处理序列长度短、准确度高,但字典大、需大规模语料。短句子或短语可字为单位,长语句或专业术语多的场合以词为单位。

 

2. 向量语义

词向量
用高维向量表示词,即词向量或词嵌入,将词映射到d维空间的点,维度对应不同含义。语义接近的词向量相似,用向量夹角余弦值衡量相似度,值越小语义越接近。应用于文本相似度计算、情感分析、语义理解等领域。

 

Word2Vec
Word2Vec提出了两种分类问题的建模方式,即连续词袋模型(continuous bag-of-words model)(给定上下文判断中间词)和跳跃模型(skip-gram model)(给定中间词判断上下文词出现概率)。

采用负采样优化训练,定义正、负样本,按概率采样负样本,训练时关注正、负样本,最大化正样本概率、最小化负样本概率。

 

3. 预训练语言模型的基本原理与方法

  • GPT:基于Transformer架构,利用大量无标注文本预训练,仅需解码部分,用掩码自注意力计算。参数量大,引领预训练模型潮流,支持零样本和少样本学习,能根据输入前缀补全句子或根据少量例子给出输出。
  • BERT双向Transformer编码器表示,为非生成式任务设计。针对GPT仅依赖前缀词信息的局限,通过掩码语言模型(预测掩盖词)和下一句预测(判断句子连续性)学习语言表示,刷新多项NLP任务成绩,推动领域发展。

 

4. DeepSeek基本原理

DeepSeek是基于深度学习和数据挖掘技术的智能搜索与分析系统,其原理主要基于以下几个方面:

  1. 专家混合模型(Mixture of Experts, MoE):将大模型拆分为多个专家子模型,通过门控机制,动态激活一部分专家模块,并能让不同专家协同处理,提高计算效率与精度。
  2. 多头潜在注意力机制(Multi - Head Latent Attention):基于Transformer结构,扩展了标准的多头注意力。允许多个注意力头并行关注不同层次的特征,如局部语义和全局信息,并额外引入隐变量,使模型能学习数据的深层次表示,通过不同注意力头学习到的特征,采用加权融合或自适应调整机制,以强化最有价值的信息,提高多模态理解和生成能力。
  3. 多Token预测(Multi - Token Prediction):在生成任务中能够同时预测多个Token,而非逐字生成。通过联合预测多个Token,模型可以捕捉更完整的上下文信息,减少生成误差,提高文本生成的连贯性和效率。

 

九、计算机视觉

  1. 计算机视觉:研究让计算机理解图像与视频高层次语义信息,用摄影机和计算机代替人眼对目标进行识别、跟踪和测量。图像形成分物体间物理交互和光与物体相互作用两步,计算机视觉是求解图像形成前向模型的逆。常见视觉识别任务有光学字符识别、语义分割、物体分类、物体检测等,细分领域还包括光流估计、运动捕捉、三维场景重建等。
  2. 图像的形成原理:小孔成像中,小孔相机模型基于光线沿直线传播,物体光线通过针孔在成像面成倒立影像,针孔到成像面距离为焦距,小孔直径越小成像越清晰,越大成像亮度越大。三维空间点投影到相机成像平面坐标可通过相似三角形计算。
  3. 数字图像:数码相机成像时,光敏元件上像素点将光线转化为电信号,光线通过红、绿、蓝滤色片二维滤波器阵列,像素点捕获特定颜色光,信号经相机处理器处理生成数字图像,原始图像常以RAW格式存储,也会转换为JPEG等压缩格式。
  4. 线性滤波器
    • 图像像素映射成函数:灰度图像可定义二维函数f(x,y)表示像素光强值,彩色图像每个像素用RGB三个通道表示,f(x,y)是三个值的向量。
    • 图像处理类型:包括图像滤波(改变图像像素值,颜色改变,不改变位置)和图像扭曲(改变像素位置,不改变颜色)。图像滤波器用于提取信息、增强特征、消除噪声等。
    • 滤波器分类:分为线性滤波器(如均值滤波、高斯滤波等,对邻域像素线性运算,通过窗口函数或卷积运算,不同线性滤波器模版系数不同)和非线性滤波器(如最值滤波器、中值滤波器,利用原始图像和模版逻辑关系得到结果)。
  5. 边缘检测:图像边缘是不连续点,由表面法线、颜色、深度等不连续性引起,重要原因是能推断语义和形状信息且比像素紧凑。可通过图像强度分布图定位边缘,强度函数一阶导数局部极值处表示有边缘,图像看作二维函数,其偏导数可表示光强度突变程度,通过阈值和二值化确定边缘位置,因图像噪声需用高斯函数去除噪声后定位边缘。
  6. 物体检测
    • R-CNN:能检测物体并确定位置,步骤包括输入图像、生成候选框、缩放候选框、提取特征向量、分类和微调边界。缺点是训练复杂、检测速度慢。
    • Fast RCNN:提高检测速度,减少计算量,引入单个金字塔池化层模型,解决候选框重复计算问题,将SVM分类器改为softmax分类器。步骤为输入图像、提取特征和生成候选框、池化候选区域、分类和微调边界。
    • Faster RCNN:极大提高检测速度,使用区域提议网络RPN代替选择性搜索生成候选区域,全卷积神经网络RPN共享特征提取提议,核心是直接用CNN生成候选区域,训练时任务协作共享参数。步骤为输入图像、提取特征和生成物体提议、滑动网络定位窗口并生成候选区域、ROI Pooling获得固定大小特征图、分类和回归确定物体类别和位置。RPN使Faster RCNN集成多步骤成为端到端训练,但不适合小目标检测。
    • 三者区别:候选区域生成上,R-CNN和Fast RCNN用选择性搜索算法,Faster RCNN用RPN;特征提取上,R-CNN对每个候选区域单独提取,Fast RCNN和Faster RCNN对整个图像提取一次;训练过程上,R-CNN分阶段训练,Fast RCNN和Faster RCNN端到端训练;检测速度上,R-CNN慢,Fast RCNN较快,Faster RCNN快。
  7. 语义分割
    • 定义与概念:将图像每个像素分配到特定类别标签,与物体检测不同,要精确划分物体边界。
    • 应用场景:自动驾驶领域区分道路等元素辅助驾驶;医学影像分析分割组织辅助诊断和手术规划;图像编辑与内容生成用于智能抠图等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2316498.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

prometheus自定义监控(pushgateway和blackbox)和远端存储VictoriaMetrics

1 pushgateway采集 1.1 自定义采集键值 如果自定义采集需求时,就可以通过写脚本 定时任务定期发送数据到 pushgateway 达到自定义监控 1.部署 pushgateway,以 10.0.0.42 节点为例 1.下载组件 wget https://github.com/prometheus/pushgateway/relea…

C++相关基础概念之入门讲解(上)

1. 命名空间 C中的命名空间(namespace)是用来避免命名冲突问题的一种机制。通过将类、函数、变量等封装在命名空间中,可以避免不同部分的代码中出现相同名称的冲突。在C中,可以使用namespace关键字来定义命名空间。 然后我们在调…

【大模型】Transformer、GPT1、GPT2、GPT3、BERT 的论文解析

前言 在自然语言处理(NLP)和深度学习的快速发展中,Transformer模型和 GPT系列模型扮演了至关重要的角色。本篇博客旨在对这些开创性的论文进行介绍,涵盖它们的提出时间、网络结构等关键信息,能够快速的理解这些模型的设…

【Java 优选算法】分治-归并排序

欢迎关注个人主页:逸狼 创造不易,可以点点赞吗~ 如有错误,欢迎指出~ 数组分块如二叉树的前序遍历, 而归并排序就如二叉树的后序遍历 912. 排序数组 解法 使用归并算法 根据中间点划分区间, mid (right left ) / 2将左右区间排序合并两个有…

三格电子Modbus TCP转CANOpen网关相关问答

型号:SG-TCP-COE-210 Q1: Modbus TCP转CANOpen网关的主要功能是什么? A1: 该网关的核心功能是实现 Modbus TCP协议与CANOpen协议之间的双向数据转换,使支持Modbus TCP的工业设备(如PLC、HMI)能够与基于CANOpen协议的设…

Flutter FloatingActionButton 从核心用法到高级定制

目录 1. 引言 2. FloatingActionButton 的基本用法 3. 主要属性 4. 进阶定制技巧 4.1 扩展型 FAB 4.2 动态变形动画 4.3 多个 FAB 协同 5. 主题与动效集成 5.1 全局主题配置 5.2 平台适配方案 5.3 高级动画控制器 6. 最佳实践 6.1 布局规范 6.2 性能优化 6.3 无…

【恒流源cc与恒压源cv典型电路解析】

在电子电路设计中,恒流源和恒压源是两种至关重要的电源类型,它们分别能为负载提供稳定的电流和电压。以下将详细解析这两种电源的典型电路。 ## 一、恒压源 ### (一)采用线性稳压器的恒压源电路 1. **电路组成** - 以常见的 78…

Anaconda conda常用命令:从入门到精通

1 创建虚拟环境 conda create -n env_name python3.8 2 创建虚拟环境的同时安装必要的包 conda create -n env_name numpy matplotlib python3.8 3 查看有哪些虚拟环境 以下三条命令都可以。注意最后一个是”--”,而不是“-”. conda env list conda info -e c…

Topo2Seq:突破DETR局限,车道拓扑推理新高度

本篇针对先前DETR类框架远距离感知较弱且车道端点不对齐问题,提出了一种通过拓扑序列学习来增强拓扑推理的新方法Topo2Seq。在OpenLane-V2数据集上的实验结果表明,Topo2Seq在拓扑推理方面实现了最先进的性能。 ©️【深蓝AI】编译 论文标题&#xf…

程序地址空间:深度解析其结构,原理与在计算机系统中的应用价值

目录 1. 程序地址空间回顾 1.1 虚拟地址 2.进程地址空间 分页&虚拟地址空间 引入新概念 解释上述关于同样的地址不同的变量值问题 回答一个历史遗留问题 ​编辑 3.虚拟内存管理 虚拟内存是什么 虚拟地址空间区域划分 为什么要有虚拟地址空间 1. 程序地址空间回…

火语言RPA--列表项内容设置

【组件功能】:设置列表项内容 配置预览 配置说明 索引项位置支持T或# 列表对象待修改内容的索引位置。 内容值 支持T或# 默认FLOW输入项 修改的内容值。 示例 对象修改 描述 列表对象索引为0的数据修改为A字符串,并打印修改结果。 配置 输出结…

1.Qt SDK 的下载和安装

1Qt 下载官⽹: http://download.qt.io/archive/qt/ 2版本自行选择 3下载对应版本的.exe文件 4下载包下载完成 5双击.exe文件,默认下一步,要注册一个qt的账户 6记住程序安装的位置,后面要配置环境变量 7勾3个(组件自行…

嵌入式系统中的Board Support Package (BSP)详解:以Xilinx Zynq为例

嵌入式系统中的Board Support Package (BSP)详解:以Xilinx Zynq为例 引言 在嵌入式系统开发中,硬件与软件的无缝集成至关重要。Board Support Package (BSP) 作为连接硬件和操作系统的桥梁,在这一过程中扮演着核心角色。本文将深入探讨BSP的…

Vue 生命周期详解:从创建到销毁的全过程

Vue.js 是一个流行的前端框架,它通过组件化的方式帮助开发者构建用户界面。在 Vue 中,每个组件实例都有其生命周期,从创建、挂载、更新到销毁,Vue 提供了一系列的生命周期钩子函数,允许我们在组件的不同阶段执行自定义…

计算机基础:二进制基础12,十进制数转换为十六进制

专栏导航 本节文章分别属于《Win32 学习笔记》和《MFC 学习笔记》两个专栏,故划分为两个专栏导航。读者可以自行选择前往哪个专栏。 (一)WIn32 专栏导航 上一篇:计算机基础:二进制基础11,十六进制的位基…

SpringCloud系列教程(十四):Sentinel持久化

Sentinel之前已经搭建和应用成功了,但是它有一个很大的缺点就是官方没有提供持久化的方案,从项目源码上看感觉这款工具也没有完成的太好,所以需要我们去对它进行二次开发。要补充的功能大概如下: 1、将Sentinel接入nacos中&#…

Slider,InputField,Scroll View,Scrollbar及Layout组件

Slider组件 Fill Rect:填充滑动条选中区域的背景图部分 Handle Rect:滑动条的球 Direction:滑动条的滑动方向 Min Value:起始位置的数值(浮点数) Max Value:结束位置的数值(浮点数) Whole Numbers:必须为整数(布尔…

ollama注册自定义模型(GGUF格式)

文章目录 ollama注册自定义模型(GGUF格式)下载模型注册模型(GGUF格式) ollama注册自定义模型(GGUF格式) 需要全程开启ollama nohup ollama serve > ollama.log 2>&1 &需要注意,尽管手动下载的GGUF格式模…

HarmonyOS NEXT 声明式UI语法学习笔记-创建自定义组件

基础语法概述 ArkTS的基本组成 装饰器:用于装饰类、结构、方法以及变量,并赋予其特殊含义。如上图都是装饰器,Component表示自定义组件,Entry表示表示自定义组件的入口组件,State表示组件中的状态变量,当状…

97.HarmonyOS NEXT跑马灯组件教程:基础概念与架构设计

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT跑马灯组件教程:基础概念与架构设计 1. 跑马灯组件概述 跑马灯(Marquee)是一种常见的UI组件&a…