大模型入门0: 基础知识

news2024/11/27 13:43:53
  1. transformer
  2. scaling law
  3. 分布式训练

自然语言处理包括几大任务

  • NLP: 文本分类,词性标注,信息检索
  • NLG:机器翻译,自动摘要,问答QA、对话机器ChatBot
  • 下游任务: 词性标注(POS),句法分析(DP),命名实体识别(NER)和自然语言推理(NLI),文档摘要,跨语种翻译,自然语言推理与情感分类

Transformer

几大范式

  • BERT
    • 预训练,MLM, NSP
    • 下游任务:通过finetune实现分类, NER, 句子相似度, 问答系统等
  • GPT
    • 预训练, Next token prediction
    • 下游任务: Prompting实现文本生成,语言翻译,对话生成,摘要生成等
  • T5
    • 预训练任务: span corruption

T5

Bert

GPT

请添加图片描述

  • 下游任务, 相比BERT对下游任务需要参数微调的代价,GPT3提出的prompt design, 通过instruction+prompt进行下游任务无需任何额外操作。后续Prefix-tuning: Optimizing continuous prompts for generation提出了prompt tuning效果更好
  • in context learning: (few shot prompting, zero-shot transfer) 不需要进行参数更新,在模型inference阶段,为了让模型的能力迅速迁移到某个特定task,先给一些参考样例,模型就迅速领会,也就是example放在context里,模型从context领会,也就可以按照这个例子里的task输出了 .
  • instruction learning: 更符合人类表达习惯的方式与LLM交互

GLM

大模型

大模型时代,则需要重点关注其zero-shot,few-shot,推理等能力。NLG通过prompt也能够实现NLU任务,主线逐渐变成了NLG任务。

PaLM: Pathways Language Model

  • 数据
  • 评测
  • 模型
  • 效果

Flan

LLama

scaling law

大模型时代,很多观念都需要更新了。scaling地方在于数据量,任务量,模型参数量。

分布式训练

  • 分布式通信库:CPU上用MPI,GPU上用NCCL
  • 点对点通信(Point-to-point Communication, P2P): 两个节点间通信,集合通信(Collective Communication, CC):一组节点内通信
  • 数据并行(DP)、模型并行(TP)、流水线并行(PP)
  • 流水线并行: Gpipe,
    • 模型的拓扑序,切分成p段,每一段为一个stage
    • mini-batch进一步切分为几个大小的micro-batch
  • zero使用的几个阶段

reference

  • Gpipe-如何有效地阅读PyTorch的源代码? - OpenMMLab的回答 - 知乎
  • [Transformer 101系列] LLM分布式训练面面观 - aaronxic的文章 - 知乎
  • 预训练语言模型之GPT-1,GPT-2和GPT-3 - 大师兄的文章 - 知乎
  • Prompt Tuning 相比于 Fine Tuning 在哪些场景下表现更好? - hibo的回答 - 知乎
  • 面对“大模型+大规模预训练+重视SOTA的审稿人”,AI科研除了轻量化还有什么出路? - codebird的回答 - 知乎
  • UL2: Unifying Language Learning Paradigms
  • 2024年,AI的机会在行业大模型吗? - 段淇源的回答 - 知乎
  • 浅谈后向传递的计算量大约是前向传递的两倍 - 回旋托马斯x的文章 - 知乎

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1349286.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

计算机网络(1)

计算机网络(1) 小程一言专栏链接: [link](http://t.csdnimg.cn/ZUTXU) 计算机网络和因特网(1)因特网概念解读服务常见的服务 协议网络边缘特点强调 网络核心特点强调 小程一言 我的计算机网络专栏,是自己在计算机网络…

Django开发3

Django开发3 Django开发编辑用户9.靓号管理9.1 表结构9.2 靓号列表9.3 新建靓号9.4 编辑靓号9.5 搜索手机号9.6 分页 10.时间插件11.ModelForm和BootStrap操作 各位小伙伴想要博客相关资料的话关注公众号:chuanyeTry即可领取相关资料! Django开发 部门管…

simulink代码生成(五)——ePWM模块初级应用

前面分别讲到了SCI及ADC的配置及使用,现在梳理一下ePWM的配置和使用; 先打一些基础的DSP28335的基础知识; F28335 关于ePWM中断与SOC采样信号的一些思考_socasel-CSDN博客 F28335 ePWM模块简介——TMS320F28335学习笔记(四&…

普通人变现天花板,月入10w是什么体验?

我是顺哥(shundazy1),一个三观超正的6年互联网创业者,信因果、利他思维一直伴随着我的商业生涯。 经历过无数风风雨雨,实现过年入几百万,也曾在一年内亏了100多万。 我们项目的网站 首先介绍我们项目干啥…

消融实验(ablation study)——全网最全解读

消融实验(ablation study) 是什么优势与劣势案例总结 是什么 消融实验是一种科学研究方法,用于确定一个条件或参数对结果的影响程度。当研究者提出了一个新的方案或方法时,消融实验通过逐一控制一个条件或参数,来观察…

24届春招实习必备技能(一)之MyBatis Plus入门实践详解

MyBatis Plus入门实践详解 一、什么是MyBatis Plus? MyBatis Plus简称MP,是mybatis的增强工具,旨在增强,不做改变。MyBatis Plus内置了内置通用 Mapper、通用 Service,仅仅通过少量配置即可实现单表大部分 CRUD 操作&#xff0…

2024年山东省中职“网络安全”试题——B-3:Web安全之综合渗透测试

B-3:Web安全之综合渗透测试 服务器场景名称:Server2010(关闭链接) 服务器场景操作系统:"需要环境有问题加q" 使用渗透机场景Kali中的工具扫描服务器,通过扫描服务器得到web端口,登陆…

Kasada p.js (x-kpsdk-cd、x-kpsdk-ct、integrity)

提供x-kpsdk-cd的API服务 详细请私信~ 可试用~ V:zhzhsgg 一、简述 integrity是通过身份验证Kasada检测机器人流量后获得的一个检测结果(数据完整性) x-kpsdk-cd 是经过编码计算等等获得。当你得到正确的解决验证码值之后,解码会看到如下图…

iToF人脸识别

iToF(间接飞行时间)是一种测量光飞行时间的技术,主要应用于人脸识别。 iToF人脸识别技术在哪些场景下会用到 iToF人脸识别技术可以应用于许多场景,以下是一些常见的应用场景: 平安城市:在城市监控系统中,iToF人脸识别技术可以用于实时监控、目标检测和识别,以及异常行为…

关于 bringup sensor 时,曝光时间异常的问题排查

1、问题背景 这两天在配置 sc223a 这颗 sensor 的驱动,按 datasheet 的要求配置 sensor 的曝光后,发现最大曝光时间增加了一倍, sensor setting 用的是30fps ,理论上最大的绝对曝光时间应该是 33ms 才正确,但实际用 …

【Redis-02】Redis数据结构与对象原理 -上篇

Redis本质上是一个数据结构服务器,使用C语言编写,是基于内存的一种数据结构存储系统,它可以用作数据库、缓存或者消息中间件。 我们经常使用的redis的数据结构有5种,分别是:string(字符串)、list(列表)、hash(哈希)、s…

typro绘制uml

1. 流程图 1.1 普通流程图 1.1.1 横向 graph LRA[方形] -->B(圆角)B --> C{条件a}C -->|a1| D[结果1]C -->|a2| E[结果2]F[横向流程图]#mermaid-svg-L4kGCoCDf9uKYThC {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#33…

AIGC开发:调用openai的API接口实现简单机器人

简介 开始进行最简单的使用:通过API调用openai的模型能力 OpenAI的能力如下图: 文本生成模型 OpenAI 的文本生成模型(通常称为生成式预训练 Transformer 或大型语言模型)经过训练可以理解自然语言、代码和图像。这些模型提供文…

Java开发过程中的幂等性问题

幂等性问题: 1. 有时我们在填写某些 form表单 时,保存按钮不小心快速点了两次,表中竟然产生了两条重复的数据,只是id不一样。 2. 我们在项目中为了解决 接口超时 问题,通常会引入了 重试机制 。第一次请求接口超时了…

63页!嵩山版Java开发手册分享

作为广受欢迎的编程语言之一,Java在软件开发领域扮演着重要的角色。然而,由于Java的灵活性和广泛应用,很容易出现代码质量低下、可读性差、维护困难等问题。为了解决这些问题,阿里巴巴集团发布了一份权威指南——阿里嵩山版Java开…

PiflowX组件-ReadFromUpsertKafka

ReadFromUpsertKafka组件 组件说明 upsert方式从Kafka topic中读取数据。 计算引擎 flink 有界性 Unbounded 组件分组 kafka 端口 Inport:默认端口 outport:默认端口 组件属性 名称展示名称默认值允许值是否必填描述例子kafka_hostKAFKA_HO…

【Java技术专题】「入门到精通系列」深入探索Java技术中常用到的六种加密技术和代码

深入探索Java技术中常用到的六种加密技术和实现 背景介绍柯克霍夫原则加密机制加密类型密码学原则 加密常用代表组件加密算法介绍Base64算法消息摘要算法(Message Digest)数据指纹MD5MD5算法的工作原理 SHASHA工作原理 对称加密DESDES的原理分析 3DES3DE…

性能优化(CPU优化技术)-ARM Neon详细介绍

本文主要介绍ARM Neon技术,包括SIMD技术、SIMT、ARM Neon的指令、寄存器、意图为读者提供对ARM Neon的一个整体理解。 🎬个人简介:一个全栈工程师的升级之路! 📋个人专栏:高性能(HPC&#xff09…

VMware虚拟机和Centos7镜像安装

文章目录 安装VMware虚拟机1、下载2、激活 安装Centos7镜像启动虚拟机 安装VMware虚拟机 1、下载 建议还是安装16版本 VMware16下载 https://www.123pan.com/s/HQeA-aX1Sh VMware15 链接:https://pan.baidu.com/s/11UD1hb6IydbxNNPxmh-MqA?pwd0630 提取码&am…

2022年全国职业院校技能大赛(高职组)“云计算”赛项赛卷①第一场次:私有云

2022年全国职业院校技能大赛(高职组) “云计算”赛项赛卷1 第一场次:私有云(30分) 目录 2022年全国职业院校技能大赛(高职组) “云计算”赛项赛卷1 第一场次:私有云&#xff0…