NLP(18)--大模型发展(2)

news2025/1/24 17:45:35

前言

仅记录学习过程,有问题欢迎讨论

LLM的结构变化:

Muti-head 共享:

  • Q继续切割为muti-head,但是K,V少切,比如切为2个,然后复制到n个muti-head
  • 减少参数量,加速训练
    在这里插入图片描述

attention结构改动:

  • self-attention和feedforward并行计算(bert为顺序计算)
    不算主流
    在这里插入图片描述

归一化层位置变化:

  • 在attention之前(pre norm),在feedforward之后(正常为 attention->++±>layer->FFN–>++±->layer)
    在这里插入图片描述

归一化函数变化:layerNorm 改为 RMSNorm

  • 主流为norm层提前到attention层之前

在这里插入图片描述

激活函数变化

  • swish:两个线性层 gated
    在这里插入图片描述

LLama2模型结构:

  • transformer Block:
    RMSNorm–>Liner–>q*k(T) *V -->softmax–>Liner–>RMSNorm–>swish–>Liner
    计算qk带上位置编码
    在这里插入图片描述

MOE架构:

  • 在feed forward中有多个类型的前馈层,根据分类的结果来选择,每个前馈层都是一个专家
    在这里插入图片描述

位置编码:

  • 因为transformer的输入是token,而不是序列,所以需要位置编码来表示token之间的相对位置
  • 正弦、余弦编码:每个字按公式计算位置维度信息,但是不能学习,得到position encoding+word embedding
  • bert 自带可训练的位置编码 position embedding;但是无法外推,最大文本长度是多少就是多少(512)
  • ROPE相对(旋转)位置编码;
    在计算某个词的emb时,映射其之前的位置emb信息(Xm,Xn,m-n)
    可以外推,也无需训练
  • Alibi位置编码;
    在QK中 加上位置矩阵m

总结:对于文本类任务,位置信息是重要的
可学习的位置编码缺点在于没有长度外推性
相对位置编码不需要学习,有一定的长度外推性,但是相对位置编码具有天然的远程衰减性
目前的主流是ROPE和Alibi两种相对位置编码

多模态:
常见:图像、音频、视频、文本
罕见:3D模型,神经信号,气味
输入到输出是不同的模态
要点:文本、图像如何编码;二者如何交互

flamingo:qkv ,其中Q为文本,KV为图像(KV决定输出),所以计算文本和图像之前的相关性,在attention中交互

LLava:文本和图像emb拼接 走类似llama的流程,但是没有多头机制,本质上还是self attention

cv基础:
图像=矩阵 使用RGB 3通道叠加展示色彩
视频就是多个图像组成的张量

Diffuse Model: sora背后的技术
diffusion思想:随机生成一副噪音图像,持续的进行有条件的去噪,直到显示出有意义的图像(类似于对石头雕像)
Denoise:使用Noise predictor 预测噪声(输入输出都是矩阵),
然后去噪就是:噪声图像-噪声

贴一个测试图:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1684726.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

数据安全保护的权益有什么?

针对个人主体,数据需要保护的权益有: 个人的隐私安全、社交安全、财产安全、支付安全、各类权利安全、生命安全、声誉安全 这些权益在物理世界中也基本都是存在的,只不过在数字世界中进行了映射或者重构。 针对企业的主体,需要保…

非常简单的副业兼职,知乎问答。每天半小时,收益240+

近期平台陆续为我带来了约240元的收入。实现这一目标并不需要复杂的方法或技巧,甚至可以说是零粉丝、零门槛。只需每天抽出半小时进行复制粘贴操作即可。在此,我希望能为那些缺乏基础的小伙伴们提供一些微不足道的经验和启示。 周周近财:让网…

(六)DockerCompose安装与配置

DockerCompose简介 Compose 项目是 Docker 官方的开源项目,负责实现对 Docker 容器集群的快速编排。使用前面介绍的Dockerfile我们很容易定义一个单独的应用容器。然而在日常开发工作中,经常会碰到需要多个容器相互配合来完成某项任务的情况。例如要实现…

HQL面试题练习 —— 互相关注

目录 1 题目2 建表语句3 题解 1 题目 现有用户关注者列表记录表 t_user_follower,有两个字段,用户ID(user_id),关注者列表(follower_ids),关注者列表中是关注用户的用户ID,数据样例如…

JavaEE-文件IO1

文章目录 一、什么是文件IO?1.1 IO1.2 文件1.2.1 路径1.2.2 文件分类 二、使用Java针对文件系统进行操作 一、什么是文件IO? 1.1 IO IO分别代表Input和Output即输入和输出。比如我的电脑可以从网络上下载文件,也可以通过网络上传文件或者我把我的内存中的数据保…

第 8 章 机器人实体导航实现01_准备工作(自学二刷笔记)

重要参考: 课程链接:https://www.bilibili.com/video/BV1Ci4y1L7ZZ 讲义链接:Introduction Autolabor-ROS机器人入门课程《ROS理论与实践》零基础教程 9.3.1 导航实现01_准备工作 1.1分布式架构 分布式架构搭建完毕且能正常运行,在PC端可以远程登陆…

性能测试——性能问题分析步骤

前言 性能测试大致分以下几个步骤: 需求分析 脚本准备 测试执行 结果整理 问题分析 今天要说的是最后一个步骤——“问题分析”; 需求描述 有一个服务,启动时会加载一个1G的词表文件到内存,请求来了之后,会把…

【前端】使用 Canvas 实现贪吃蛇小游戏

使用 Canvas 实现贪吃蛇小游戏 在这篇博客中,我们将介绍如何使用 HTML5 Canvas 和 JavaScript 实现一个简单的贪吃蛇(Snake)小游戏。这个项目是一个基础的游戏开发练习,它可以帮助你理解如何在 Canvas 上绘图、如何处理用户输入以…

【Spring security】【pig】Note03-pig token令牌解析器过程

🌸🌸 pig token令牌解析器过程 🌸🌸 pig后端源码 一、解析请求中的令牌值。 二、验证令牌 内省并验证给定的令牌,返回其属性。返回映射表示令牌有效。 /*** author lengleng* date 2019/2/1 扩展用户信息*/ publi…

重新安装vmware与再次编译u-boot

一、使用环境: 使用vmware 16pro安装 ubuntu18.04桌面版 二、遇到的问题与解决: 1)、无法连网: 保持nat模式,移除再添加。 2)、git配置私钥: 如果是拉取自己的仓库,请查看此步&am…

电路笔记 :元器件焊接相关 酒精灯松香浴加热取芯片

记录一下只使用松香和小火源加热(如酒精灯、小蜡烛)从电路板中取芯片。 过程 多放松香 让松香淹没芯片尽量均匀加热,等芯片旁边的松香开始从芯片里冒细小的“泡泡”,就差不多了 注:这种方法也可以用于焊接&#xff0…

232COM串口通讯读写NFC卡C#示例源码

本示例使用的发卡器:RS232串口RFID NFC IC卡读写器可二次开发编程发卡器USB转COM-淘宝网 (taobao.com) using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; using System.Drawing; using System.Linq; using Syste…

【技术实操】中标麒麟高级服务器操作系统实例分享,rsync数据同步配置方案

1.rsync介绍 rsync是一款开源的、快速的、多功能的、可实现全量及增量的本地或远程数据同步备份工具。 在守护进程模式(daemon mode)下,rsync默认监听TCP端口873,以原生rsync传输协议或者通过远程shell如RSH或者SSH提供文件。SS…

App Inventor 2 如何接入ChatGPT:国内访问OpenAI的最佳方式

如何接入OpenAI 由于国内无法访问OpenAI,KX上网可选大陆及香港(被屏蔽)以外才行。因此对于大多数人来说,想体验或使用ChatGPT就不太便利,不过App Inventor 2 为我们提供了相对便利的一种方式,即“试验性质…

快速搭建SpringMvc项目

一、什么是springMvc 1、介绍 Spring Web MVC是基于Servlet API构建的原始Web框架,从一开始就包含在Spring Framework中。正式名称“Spring Web MVC”来自其源模块的名称( spring-webmvc ),但它通常被称为“Spring MVC”。 在控制…

MVS net笔记和理解

文章目录 传统的方法有什么缺陷吗?MVSnet深度的预估 传统的方法有什么缺陷吗? 传统的mvs算法它对图像的光照要求相对较高,但是在实际中要保证照片的光照效果很好是很难的。所以传统算法对镜面反射,白墙这种的重建效果就比较差。 …

京准电子、NTP网络时间服务器工作原理及应用领域分析

京准电子、NTP网络时间服务器工作原理及应用领域分析 京准电子、NTP网络时间服务器工作原理及应用领域分析 Network Time Protocol(NTP)是一种用于在计算机网络中同步时钟的协议。它旨在确保在网络中的各个设备之间维持准确的时间。NTP的设计目标是允许…

qmt量化交易策略小白学习笔记第10期【qmt编程之获取股票订单流数据--内置Python】

qmt编程之获取股票订单流数据 qmt更加详细的教程方法,会持续慢慢梳理。 也可找寻博主的历史文章,搜索关键词查看解决方案 ! 感谢关注,需免费开通量化回测与咨询实盘权限,可以和博主联系! 获取股票订单流…

鹧鸪云光伏业务管理软件:引领光伏行业四个信息化变革

随着全球对可再生能源的日益重视和光伏技术的快速发展,光伏业务管理正面临着前所未有的挑战与机遇。在这个大背景下,鹧鸪云光伏业务管理软件以其独特的优势,通过四个信息化变革,为光伏行业带来了前所未有的效率提升和智能化管理。…

hypermesh二次开发tcl脚本

hypermesh二次开发tcl脚本 1、tcl读csv文件,得到list,再转成二维数组2、tcl写csv文件3、hypermesh tcl根据读入的节点坐标建节点, 再显示节点号4、hypermesh tcl根据节点号建节点set5、hypermesh tcl根据节点set读取节点号,再根据节点号读取节点坐标,再将…